发新话题
打印

幾種常用的多變量分析方法

幾種常用的多變量分析方法



在各種計量方法中,只針對單一變數進行分析的方法稱為「單變量分析」(univariate analysis,比如用直方圖去分析某班學生英語的期末考成績的分布);同時分析兩個變數的方法稱為「雙變量分析」(bivariate analysis),這類的分析方法很多,比如用關聯性分析(correlation)去探討中學生的身高與體重的關係;用簡單迴歸(simple regression)或t-test去比較小學生的身高有沒有因為性別(男女兩組)不同而不一樣;用analysis of variance (ANOVA)去分析不同屬性醫院(營利、非營利與公立共三組)的經營績效是否有所不同,等等。

多變量分析(multivariate analysis)是泛指同時分析兩個以上變數的計量分析方法。在實際的情況中,我們所關心的某種現象通常不只跟另一個變數有關係,比如會影響醫院績效的變數不只是醫院的屬性而已,可能還與醫院本身的經營策略、醫院所在的地區、健保給付方式等有密切關係,因此多變量分析應該對實際的研究工作較有幫助。不過多變量分析的數統推論與運算過程比較複雜,如果要靠人去進行相當費時費工,但是在電腦時代,這些繁複運算便不成問題,因此多變量分析漸漸被廣泛運用。

最常見的多變量分析是複迴歸分析(multiple regression),除此之外,社會科學的研究還用到許多其他的多變量分析分法,以下簡單介紹幾種較常見的方法,以及這些方法在醫務管理可能的應用。

因素分析(factor analysis)

因素分析的主要目的,是要將一群互有關連的變數,加以簡化成幾個有意義的面向或因素。在這裡,一個因素可以用來代表或取代這一群變數中某些性質相近的變數,因此我們透過因素分析,希望能用少數幾個主要因素去涵蓋一群眾多的變數。

因素分析在調查研究的資料精簡上很有幫助。在問卷或訪談調查中研究人員經常會用好幾個問題去了解某一件事情,這也就是說研究人員用好幾個變數去衡量同一個概念。不過當變數愈多時,會加重分析工作的負荷,甚至降低分析的準確度。這時研究人員就可以考慮採用因素分析,看看這些相同概念的變數是否可以進一步加以統整或簡化。

上學期我在修「調查研究方法」時,有一份作業是去分析有哪些原因與可以用來解釋在美國的拉丁美洲裔人士(Latinos in the U.S.)受到歧視情況的輕重。在一份由Pew Research Center在2002年對將近兩千多位在美國居住的拉丁美洲裔人士所進行的調查資料中,用七個問題去問受訪的拉丁美洲裔人士被歧視的情形,分別是(1)他們覺得在學校中歧視的情況嚴不嚴重?(2)他們覺得在工作場合中歧視的情況嚴不嚴重?(3)他們覺得歧視對阻礙他們在美國出人頭地的情況嚴不嚴重?(4)他們覺得拉丁美洲裔人士之間彼此歧視的情況嚴不嚴重?(5)他們遇到被不禮貌對待的情況有多頻繁?(6)他們得到拙劣服務的情況有多頻繁?(7)他們遇到被侮辱的情況有多頻繁?

每一個問題都代表一個與歧視相關的變數,因此這份資料中有七個衡量歧視的變數,如果我不去簡化這些變數,那我便有七個應變數,必須做七次迴歸分析,才能回答作業的問題。為了讓我的分析更簡潔,我用因素分析去統整這七個變數,結果得到兩個因素,第一個因素是由前面四個變數所構成的,第二個因素是由後面三個變數所構成的。我發現這樣的歸類很有意思,構成第一個因素的四個變數所衡量的都是拉丁美洲裔人士感覺受到歧視的程度;而構成第二個因素的變數都與他們所經歷受到歧視的行為的頻繁程度有關,因此我將第一個因素命名為「受到歧視的感受程度」(felt discrimination),另一個因素為「經歷歧視的程度」(experienced discrimination)。這也就是說,這七個與歧視有關的變數其實可以用這兩個歧視的面向加以涵蓋。於是我便將原本七個變數簡化成兩個因素或新變數,做為我進行迴歸分析的對象。

因素分析完全是根據我們所提供的變數資料,透過統計方法去進行,它無法了解每一個變數本身所代表的意義,所得到的結果(因素的組成或歸類)有沒有意義必須由研究人員自己判斷。因素分析還提供一些方法讓研究人員對資料做進一步的調整或設定分析角度,以便產生最有意義的因素歸類。

因素分析在簡化問卷設計也很有用。比如我們要設計出一份新進員工的品格調查問卷,我們原來可能會用50個問題,以期全面去瞭解員工的品格。當我們想要簡化這份問卷的內容或長度,但又不想失去其周延性時,因素分析可以發揮作用。我們可以先用完整版的問卷,去收集足夠數量的資料(比如100位新進員工的品格問卷),然後根據這100份問卷的資料,去進行因素分析,看能不能找出幾個有意義的重要品格面向(因素),來涵蓋整份問卷。

判別分析(Discriminant analysis)

判別分析主要是用來找出一群個體分屬於不同群組的決定變數是哪些,並以此做為預測其他個體群組歸屬的依據。判別分析在醫療上應該有很廣的用途,特別是在高危險群的醫療處置方面可以發揮功能。比如我們可以拿一年來所有ICU病人的資料來做判別分析,我們將ICU病人分為兩組,一組病人在ICU中死亡,另一組病人順利轉入一般病房,而我們最關切的是哪些因素會決定ICU病人能夠順利轉入一般病房,或在ICU死亡。因此,我們可以用判別分析找出重要的影響變數,假如分析的結果告訴我們病人的年齡、診斷、手術與否、感染等變數是重要的決定因子,那我們就可以根據這些危險因子以及其影響程度,對每一位新進ICU的病人預測其預後(是可能屬於順利轉出一般病房或死亡的對象),然後針對有較高死亡可能性的病人進行重點風險管理,或加強照護。

其實用邏輯迴歸(logistic regression)與多項邏輯迴歸(multinomial logit model) 也可以進行與判別分析相同的功能。前者用於處理兩個組別,後者用於兩個組別以上的情況。

我覺得判別分析在健保開始實施DRGs之後,醫院在病人照護與費用管理上面可能可以派得上用場。在DRGs給付制度之下,醫院照護某一種case的病人的費用必須設法控制在健保局對該種case的給付定額之下,才不會虧損。因此醫院會很關心哪些情況的病人很有可能超過給付定額,哪些情況比較容易控制在給付額之內。因此我們可以用判別分析去找出這些重要的決定因素,然後根據這些因素去預測每一位病人的照護費用超過給付額的可能性。對於很有可能落入高額費用的高風險病人,醫院及醫師可以預作管理或因應,以避免超額情況的發生。

群集分析(Cluster analysis)

群集分析與判別分析有點類似,它們都希望根據個體的變數或特性,為一群個體進行分類,不過在群集分析中,我們事先並不知道這些個體的組別,完全是根據它們的變數資料去將相似特性的個體進行歸類。而在判別分析中,我們已經知道某些個體的所屬組別,用這些個體去進行判別分析,得知影響因子後再來對其它個體做分類。

群集分析在分類方面很有用,能夠幫助研究人員從一大群個體資料中釐出一些頭緒來,讓我們從中劃分出幾個有意義的群組。我們系上的Dr. Gloria Bazzoli與其他四位研究人員曾用cluster analysis,根據幾個組織特性變數(其所屬醫院所提供的服務類別、有否經營健保方案以及與其醫師之間維持何種關係),將美國眾多的醫院體系區分為五種主要類別[1]

理論上,我們應該可以透過群集分析來規劃DRGs,根據每位病人住院的總成本(醫療費用)、主診斷、次診斷、年齡等資料,將所有住院案例分成許多組別,每一組裡面的案例在醫療費用、診斷與病人年齡有其相似性。

群集分析應該也可以運用到醫院藥品或醫材管理上面,比如我們可以根據每種藥品或醫材的成本、使用數量、使用科別、訂貨所需時間等變數,將院內所使用的所有藥品或醫材分為幾個重點類別,根據每類藥品或醫材的特性規劃管理方針。
不過,群集分析跟因素分析一樣,是根據我們所提供的資料做數統運算所得到的結果,結果是否有任何實質或理論上的意義必須由我們去判斷,以及最後要採用幾個群組,也是由我們做最後的決定。

共變異數分析(Analysis of covariance, ANCOVA)

ANCOVA其實可以看為是ANOVA與迴歸分析的結合。傳統的ANOVA主要是用來比較兩組以上的樣本的平均值是否有差別,比如醫師要研究不同的治療組合對肝癌患者的預後是否有不同的效果,因此去比較(1)單純手術切除腫瘤、(2)單純進行化療、(3)以上兩種治療方式結合的病患的三年存活率。ANOVA能用來比較這三組病患的三年存活率的平均值是否有明顯不同,讓研究人員瞭解這三種治療組合的效果。

不過,ANOVA通常必須搭配隨機控制實驗來進行會比較好,因為隨機分配比較能夠提供研究人員相同的比較基準(比如使得這三組病人的病情分布情況大致上是相近的,不致於有某一組都是病情偏重的病人,其他組病人病情卻都較輕),這樣我們才能客觀地比較治療方式的效果差異。可是在這個例子中,這三組病人並不是透過隨機分配的方式去決定採用哪一種治療組合,醫師是依照每一位病人的病情(肝腫瘤的大小、期數、病人的健康情況等),建議採取的治療方式,而這些病情變數都會對肝癌病人的存活率造成影響,因此在此情況下直接用ANOVA並不恰當,最理想的方式是ANCOVA,因為ANCOVA在比較這三組病人的存活率時,可以同時考慮或控制其他對病人存活率有影響的病情變數,使我們在相同的背景或基礎上去比較這三組治療方式的效果。而控制其他變數對應變數的影響也是回歸分析的基本功能,因此ANCOVA可以說是結合了ANOVA與迴歸分析的功能。

話說如此,事實上用複迴歸分析就可以達到ANCOVA的目的,只要在迴歸分析模式中加入組別的虛擬變數(dummy variables),我們就可以看到不同組別的平均值是否有明顯差別。以前面的例子來說,我們必須建立兩個虛擬變數,分別代表第一組與第二組的病人(研究組),做為分析模式中的自變數,而以第三組為對照組,這樣我們就可以去比較第一組和第二組的病人分別與第三組病人的三年存活率有沒有差別。

多變量變異數分析(Multivariate analysis of variance, MANOVA)

MANOVA也是ANOVA的延伸與拓展。MANOVA與ANOVA最大的不同在於ANOVA一次只能分析一種應變數,而MANOVA能夠同時比較兩個或以上的應變數。比如我們想比較前面三組肝癌病人的三年存活率與治療後的生活品質。如果用ANOVA的話,我們必須做兩次ANOVA分析,一次針對病人的三年存活率,另一次比較病人的生活品質差異。如果是用MANOVA的話,只要一次就可以同時分析這兩個我們所關切的預後指標。

事實上,在這種情況下,MANOVA不僅在分析手續上比較省事,也比較準確,因為如果肝癌病人治療後三年存活率與生活品質這兩個指標之間有某種相關性的話(比如生活品質較高對存活率有所幫助),則分開單獨分析(ANOVA)所得到的結果會有偏差。而用MANOVA可以考慮這兩個指標之間的關聯性,提供我們較準確的結果。

多變量共變異數分析(Multivariate analysis of covariance, MANCOVA)

這其實就是MANOVA與ANCOVA的結合,不僅可以同時比較多個應變數,還可以考慮或控制多個會影響應變數的變數。因此,我們可以使用MANCOVA,在考量病人的病情並將這些變數的影響消除後,去同時比較這三組肝癌病人治療後的三年存活率與生活品質。

計量方法的發展趨勢

計量方法實在是族繁不及備載,這篇文章所提到的只是其中的一部分而已。每一種計量分析方法都有其使用前提與假設以及可以適用的狀況與條件,而在只用來解決某一類的研究問題。研究人員必須視研究的問題與資料形態,決定採用最合適的計量方法。不過我們可以看到這些計量方法之間也有不少共通性,這不免讓我們猜想有沒有可能發展出一種通用的計量方法,可以適用大部分的研究問題與資料形態?如果真能如此的話,這可以省去很多要個別去認識這些計量方法的麻煩。

前一陣子我去VCU的進階研究方法中心(CARMA)聽一個演講,主題是”General Linear Model” (GLM),主要在介紹最近學界在計量方法的發展趨勢,就是希望發展出一種廣泛通用的線性計量模型。GLM可以用來處理許多種計量方法所要處理的問題,包括:複迴歸、ANOVA、ANCOVA、MANOVA、MANCOVA、判別分析、因素分析、邏輯迴歸等等。看來,未來計量方法的世界大同境界是指日可待的。不過,我也在想,從理論上來講,越是一般化與通用的計量模式,背後一定牽涉到更多的數統假設才能夠成立,這些假設或先決條件應該也會對適用的情況產生某種程度的限制,這也是我們在瞭解與使用某種計量方法時,必須隨時保持警覺的。

[1] Bazzoli, GJ; Shortell, SM; Dubbs, N; Chan,C; and Kralovec, P; “A Taxonomy of Health Networks and Systems: Bringing Order Out of Chaos” Health Services Research, February; 1999.

TOP

发新话题