search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

SPSS詳細操作:碰見有序分類資料,怎麼辦?

經常聽到有小夥伴剛學了武林秘籍之卡方檢驗,只要碰到分類資料就一通亂打,雖說有時候能贏幾場,但是也有被打的鼻青臉腫的,還自言自語的說,招數沒毛病呀!?事實上毛病大了去了,與人過招,知己知彼,見招拆招,方能克敵制勝!所以我們先來捋捋分類資料的分析。

常見的分類資料可以分成四類:

  • 老大,雙向無序分類,特點是分組變數和結局變數均為無序多分類(或二分類),例如比較漢族、回族和蒙古族ABO血型分佈有無差別;

  • 老二,單向有序分類,分組變數或結局變數為有序變數,例如比較35-、45-、55-、65-歲組血脂異常的患病率有無差別,或者比較A和B兩種藥物對於疾病預后 (痊癒、顯著改善、進步、無效)有無差異;

  • 老三,雙向有序屬性不同的分類,這裡既強調行變數和列變數均為有序分類資料,並且屬性不相同(行列變數不一致),例如觀察年齡對疾病預後有無影響(35-、45-、55-、65-歲組 vs 痊癒、顯著改善、進步、無效);

  • 老四,雙向有序屬性相同的分類,行變數和列變數均為有序分類資料,並且屬性相同(行列變數一致),例如A和B兩種方法對某種免疫物質的檢出情況(--/-/+/++)。

針對雙向無序分類雙向有序屬性相同的分類資料的分析方法,前面幾期有詳細介紹,還沒看過的小夥伴戳SPSS詳細操作:多個獨立樣本列聯表的卡方檢驗/SPSS詳細操作:一致性檢驗和配對卡方檢驗。這次我們一塊兒搞定單向有序分類雙向有序屬性不同的分類資料的SPSS操作

一、單向有序分類

血脂異常的患病率隨著年齡增加而增加嗎?

某研究小白在利用某項調查數據分析時,想研究一下年齡與血脂異常之間的關係,想起了之前學過的多個獨立樣本的卡方檢驗SPSS操作,於是照貓畫虎,分析了一下手裡的數據。

Analyze→ Descriptive Statistics→ Crosstabs: Row(Age); Column(Dyslipidemia)→Statistics: Chi-square; Continue→ Cells: Percentages(勾選Row); Continue→ OK

看到分析結果,尤其是P=0.003,小白立刻眼睛冒光,馬上超級自信地下了結論:經獨立樣本卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P=0.003),但是剛說完心裡又犯嘀咕,想起之前學的獨立樣本卡方檢驗,好像這裡只能說明不同年齡組之間血脂異常患病率有統計學差異。嗯,沒錯!這裡如果只看Pearson Chi-Square的結果,會忽略年齡分組為有序變數這個信息點,損失了信息,所以這裡更好的是看Linear-by-Linear Association的結果。

提到趨勢性卡方檢驗,想必大家並不陌生,主要用來明確分類變數之間的線性趨勢,比如這裡的「血脂異常的患病率隨著年齡增加而增加」。趨勢性卡方檢驗最常用的方法是Cochran-Armitage trend test,很遺憾SPSS並沒有提供這種方法,而是另一種方法Linear-by-Linear Association,兩個結果相近,所以大家也可以放心使用。

聽到這裡,研究小白馬上修改了結論:經趨勢性卡方檢驗,血脂異常的患病率隨著年齡增加而增加(P<0.001)。

拓展一下,相信不少小夥伴會想起Spearman秩相關,感覺這裡好像也可以用Spearman秩相關來分析年齡組和血脂異常的關係。事實上,也是可以滴!但是趨勢性卡方檢驗和Spearman秩相關有些不同。

Analyze →Correlate →Bivariate →Variables: Age, Dyslipidemia; Correlation Coefficients: Spearman(勾選)→OK

首先,嚴格地講,做趨勢性卡方檢驗時,需要對分組變數和結局變數進行評分賦值,連續變數取組中值為等級評分;如果是等級資料,給以順序性的評分,如1、2、3……;分類資料,陽性或患病等為1,陰性或不患病等為0。這裡就涉及到一個問題,對於Spearman秩相關是基於變數秩次進行相關分析的,比如說上面的例子,如果去掉55-歲組,趨勢性卡方檢驗中變數評分為1、2、4,而Spearman秩相關是1、2、3,這就反映兩種分析方法的利用信息能力不一樣。

其次,兩種方法的檢驗效能不同,趨勢性卡方檢驗屬於參數檢驗,當我們假定存在線性趨勢時,檢驗效能更高;而Spearman秩相關計算變數秩次,損失了信息,相同條件下,檢驗效能較低,比如這裡Spearman秩相關P=0.001,趨勢性卡方檢驗P<0.001。

最後,兩者得到的結論也有所不同,趨勢性卡方檢驗可以直接得出「血脂異常的患病率隨著年齡增加而增加」,而Spearman秩相關因為使用變數秩次分析,所以嚴格地講,它反映的是兩個分類變數秩次有相關,因為沒有考慮變數的具體取值,更多是一種相對穩定的相關關係。

二、雙向有序屬性不同的分類

幹活兒越重骨質退行越重?

有一項旨在探討骨質退行性變是否與勞動強度有關,觀察150名研究對象。勞動強度分為輕、中、重度,骨質退行性變為2、3、4度,兩個變數都屬於等級變數,但是屬性不同。

對於雙向有序屬性不同的資料,有的小夥伴就說啦,可以用Spearman秩相關嘛,有些小夥伴就要很疑惑,為什麼不可以用卡方檢驗呢?

這裡和大家一塊兒掰扯掰扯。對於等級資料相關分析,Spearman秩相關也是可以計算滴,但問題關鍵是,在做秩相關時,需要對原始數據進行編秩次,因為是等級資料,所以會產生大量秩次相等的平均秩次,進而低估了變數之間的關聯繫數。

如果是獨立樣本的卡方檢驗呢?那就錯的比較離譜一些!卡方檢驗的核心是列聯表中每一個格子中的理論頻數和實際觀測頻數偏離程度,行和列的位置是不重要的(比如你可以把行列互換,或者把第一行和第二行互換),結果都是一樣的。問題就來了,這樣就損失了變數「有序」——這個非常關鍵的信息點,比如這裡例子,我們想知道是不是勞動強度越重,骨質退行越重。

有小夥伴要著急了,這也不行,那也不行,到底要咋整?給大家帶來重量級武器——Goodman-Kruskal Gamma方法(簡稱Gamma法)。Gamma法主要用於有序分類資料的關聯性分析,並且計算Gamma係數(類似於Spearman秩相關rs)。

Gamma係數取值在-1到1之間,G=0表示兩個變數不相關,G>0表示兩個變數正相關,G<0表示兩個變數負相關;G的絕對值越接近1,表示兩個變數的關聯強度越大,越接近0,關聯程度越小。

下面一起看看SPSS怎麼進行Gamma。

Analyze →Descriptive Statistics →Crosstabs: Row(勞動強度); Column(骨退變)→Statistics: Gamma; Continue →OK

上面的結果顯示:G=0.244,P=0.025<0.05,勞動強度與骨退變之間互相關聯,即隨著勞動強度增加,骨質退行越重,關聯繫數為0.244。

再看看Spearman秩相關的結果。

Analyze →Correlate →Bivariate →Variables: 勞動強度,骨退變; Correlation Coefficients: Spearman(勾選)→OK

可以看到Spearman秩相關係數rs=0.183,小於G(0.244),低估了變數之間的關聯強度。

醫咖會微信

:medieco-ykh

關注醫咖會,輕鬆學習統計學!

有臨床研究設計或統計學方面的難題?快加,拉你進統計討論群和其他小夥伴們一起交流學習;或者點擊公眾號下方自定義菜單的「統計諮詢」,提出你遇到的統計難題。

點擊左下角「閱讀原文」,看看既往小夥伴們都提出了哪些問題,以及該如何去解決,也許正好有你疑惑的問題呢~



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦