search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

SPSS超詳細教程:Pearson相關分析

小咖有話說:每次看到有小夥伴向咱們公眾號發「相關分析」之類的關鍵詞,我卻沒有相應文章可回復,就很焦慮,就忍不住向協調寫稿的同事叨叨:相關的文章開始寫了嗎?啥時候出來?blabla......終於啊終於,Pearson相關分析的稿件出爐啦

厚著臉皮自誇下,這篇文章絕對是你看過的最最最詳細的教程

一、問題與數據

研究表明,運動可以幫助預防心臟病。在合理的範圍內,運動越多,患心臟病的風險就越小。鍛煉可以降低血液中膽固醇水平,進而減少心臟病風險。運動越多,血液中的膽固醇濃度越低。有研究顯示,看電視的時間是久坐生活方式的指標,也可能是心臟病的一個預測因素。看電視的時間越長,心臟病的風險越大。

因此,某研究者擬探討在45歲至65歲健康男性中膽固醇濃度與觀看電視的時間是否有關。他們猜測:看電視時間較長者比看電視時間較少者,血液中的膽固醇濃度要高一些。

研究者收集了以下數據:每天看電視時間為變數time_tv,膽固醇濃度為變數cholesterol(部分數據如下圖)。

二、對問題的分析

研究者想觀察兩個變數之間的相關性,可以使用Perason相關分析。使用Pearson相關分析時,需要考慮5個假設。

1. 假設1:兩個變數都是連續變數。

2. 假設2:兩個連續變數應當是配對的,即來源於同一個個體。

3. 假設3:兩個連續變數之間存在線性關係,通常做散點圖檢驗該假設。

4. 假設4:兩個變數均沒有明顯的異常值。Pearson相關係數易受異常值影響。

5. 假設5:兩個變數符合雙變數正態分佈。

那麼,進行Pearson相關分析時,如何考慮和處理這5個假設呢?

三、思維導圖

四、對假設的判斷

1. 假設1和假設2:兩個連續變數且來源於同一個個體。和研究設計有關,需根據實際情況判斷。

2. 假設3:兩個連續變數之間存在線性關係

Pearson要求兩個變數之間存在線性關係。本例要求觀看電視時間(time_tv)和膽固醇濃度(cholesterol)之間存在線性關係。要確定是否存在線性關係,研究者需要查看兩個變數的散點圖。如果散點圖大致呈一條直線,說明有線性關係。如果不是一條直線(如一條曲線)則沒有線性關係。下面的散點圖給出了線性和非線性關係的例子:

計算Pearson相關係數時,最好有類似於上述第一個散點圖的線性關係。如果兩變數間不存在線性關係,下面還會介紹如何應對這種非線性關係並計算Pearson相關係數。

以下先說明將如何在SPSS中生成散點圖,檢驗線性關係。

(1) 在主菜單點擊Graphs >Chart Builder...,如下圖:

Chart Builder對話框如下圖:

(2) 在Chart Builder對話框下,從Choose from:選擇Scatter/Dot

(3) Chart Builder對話框中選擇 「Scatter/Dot」后呈現8種Scatter/Dot選項。將左上角的選項拖拽到上方的預覽區,如下圖:

(4) 預覽區中顯示簡單散點圖,在X和Y軸邊還顯示「X-Axis」和「Y-Axis」框,可將關注的連續變數選入框中。

注意:Chart Builder對話框右側出現了新的對話框Element Properties

(5) 從Variables:拖拽time_tv到預覽區的「X-Axis」,拖拽cholesterol到「Y-Axis」。此時界面顯示如下圖:

注意1:儘管將變數依次拖拽進入預覽區時圖中散點在不斷變化,但預覽區的圖並不是真實地展示兩連續變數的關係。只有生成散點圖后才能觀察到這兩個變數間的關係。

注意2:儘管計算Pearson相關係數時不區分因變數和自變數,但作圖時仍習慣性區分X和Y軸。本例假設看電視時間影響膽固醇濃度,而不是反過來。因此,看電視時間選入X軸,膽固醇濃度選入Y軸。

(6) 點擊Element Properties對話框(Chart Builder對話框右側)中Edit Properties下的「Y-Axis(Point)」,如下圖:

(7) 不勾選-Scale Range-下的Minimum選項,此時Custom框中高亮顯示並賦值為0,如下圖:

(8) 點擊Apply以確認修改。

注意:(6)和(7)兩個步驟是為了使Y軸顯示膽固醇濃度的合理範圍,這些值可能與研究數據不同,研究者可以根據實際情況調整。如果最開始時不確定設置為何值,可以先不改這些設置;觀察散點圖根據實際情況調整后重新做圖。

(9)點擊Chart Builder對話框中的OK。

通過上述步驟,可得到time_tv和cholesterol的散點圖,如下圖:

研究者可以查看上面的散點圖並判斷兩個連續變數間是否存在線性關係。人類大腦十分容易判斷直線,研究者可以依賴觀察判斷線性關係。本例中,查看上圖可以判斷看電視時間與膽固醇濃度間存在線性關係。有些情況下,線性關係難以判斷,研究者需要更加謹慎(如為X和Y軸設置正確的刻度)。

本例中,看電視時間與膽固醇濃度間存在正向的線性關係,即隨著time_tv增加,cholesterol值也在增加。研究者在處理自己的數據時也可能觀察到負向的相關關係,即隨著一個變數值的增加,另一個變數值降低;也可能觀察到自己的散點圖中線性關係比本例中的更陡或者更緩。但重點始終是判斷兩個連續變數間是否存在線性關係

如果判斷兩個連續變數間存在線性關係,即符合線性假設,研究者可以直接跳到假設4。如果兩個連續變數間不存在線性關係,則有以下兩種處理方法:(a) 對一個或者兩個變數數據轉換后判斷線性關係;(b) 計算不要求線性關係的係數,如Spearman秩相關係數。

  • 如何處理非線性關係

如果兩個連續變數間不存在線性關係,首先需要判斷這種非線性關係是否單調。單調關係包含以下兩種任意一種情況:(a) 一個變數值增加,另一個變數值隨之增加;(b) 一個變數值增加,另一個變數值隨之降低。單調關係和非單調關係展示如下圖:

Spearman秩相關要求兩個變數間存在單調關係,因此判斷兩變數間的單調關係十分重要。如果符合單調關係可以則計算Spearman秩相關係數,代替Pearson相關係數。如果不符合單調關係,則不能計算Spearman秩相關係數,除非對一個或者兩個變數數據轉換后得到單調關係(嚴格來講是做非線性模型,但很少有人這樣做)。

總結來講,如果兩連續變數間存在單調關係,研究者可以做兩種選擇:(a) 計算Spearman秩相關係數;(b) 對一個或者兩個變數數據轉換后將非線性關係轉變為線性關係。如果研究者認為數據轉換(log轉換)較難或者轉換后變數沒有實際意義,則應該選擇計算Spearman秩相關係數。

但是,研究者需注意不是所有的非線性關係都能轉變為線性關係。例如,上圖中最右側的非線性關係圖很難通過數據轉換變成線性關係。因此,研究者可以對其中一個或者兩個變數都進行數據轉換。對不同的非線性關係有不同的數據轉換方法,這需要單獨寫文章來介紹。

最後提醒研究者以上只是指導。現實中你可能會碰到一些研究者寧願將自己的變數轉換為無意義的新變數後計算Pearson相關係數也不願意計算Spearman秩相關係數。

3. 假設4:沒有明顯的異常值

做Pearson相關分析時,異常值指與大部分數據分佈不同的點(觀測)。檢驗線性假設時,做散點圖這些點很容易被識別出來。例如,以下6個散點圖顯示了6種異常值(圖中為黑色圓點)。

以上圖中的黑點(異常值)均需要從資料庫中剔除。Pearson相關係數易受異常值的影響導致被低估。因此,識別資料庫中的異常值十分重要。對兩個連續變數作散點圖可以識別異常值。本例中,散點圖如下:

通過觀察可以發現本例中沒有異常值。研究者需對自己的研究數據作圖並判斷是否存在異常值:(a) 如果沒有異常值,可以跳至假設5;(b) 如果有異常值作如下處理。

  • 如何處理異常值

首先,考慮數據是否存在錄入錯誤。如果存在,應修改為正確值。因為新數值仍可能是異常值或者導致其他觀測成為異常值,所以需要重新作散點圖。

其次,如果不存在錄入錯誤,還應該考慮測量錯誤(如儀器故障或者超出儀器測量範圍)。如果存在,通常需要剔除這些觀測。

如果研究者確認異常值為超出儀器測量範圍並且知道測量錯誤的方向,可以將異常值替換為測量範圍上限值。例如,用測量範圍為0-100°C的溫度計測量,顯示溫度在100°C以上,此時即使明知真實溫度高於100°C,但在SPSS中只能輸入100°C。此時比不輸入任何值要好。

注意,如果對數據進行了任何修改,都應該重新作散點圖並在結果中報告這些修改。但是很多測量錯誤是無法修改的。

最後,如果異常值不是由於錄入或者測量錯誤導致,這些異常值可能代表了真實的數據情況。儘管這些數據並不符合統計預期,但並沒有理由以其不真實而剔除他們,因此這種情況最難處理。目前,這種情況的處理方法還沒有統一標準。以下是一些主流觀點。研究者可以根據研究的實際情況選擇合適的方法,如果難以確定可以諮詢相關專業人員。

保留異常值

如果保留異常值有兩個選擇:(a) 將相應變數數據轉換;(b) 分析中納入異常值,但在報告結果時需要報告異常值。研究者可以分別計算保留和剔除異常值后的Pearson相關係數,如果沒有明顯差別則保留異常值。

數據轉換對異常值的影響較大,使異常值不會再被識別出來。但研究者需要注意數據轉換會影響正態性和線性,所以在數據轉換后注意先檢查這兩個要求。此外,如果進行數據轉換,需要對所有假設要求重新檢查。

剔除異常值

相對地,研究者也可以剔除異常值,同樣地也要在結果報告中說明。此時,可以備註:如果不剔除,因為一個或者少量的觀測導致分析結果不理想。畢竟研究者的目的是將研究結果推廣至更大範圍的人群中。例如,如果剔除異常值,研究者說明剔除原因以及剔除對結果產生的影響,能夠消除讀者對這個研究的疑慮(剔除異常值難道僅是為了分析結果更好看?)。研究者需要注意,目前對待剔除異常值的觀點各異,一些人並不贊同這種做法。

出現異常值時研究者還應該注意研究的排除標準是否合適。例如,假設本例中異常值是膽固醇濃度為7.98 mmol/L的觀測,這個濃度提示有發生管心臟病的風險。儘管本研究是一個橫斷面研究,但仍然不希望納入有潛在臨床併發症或者有心臟病高危風險的個體。該個體的膽固醇濃度過高,並不能代表本研究的目標推廣人群,因此應該排除該異常值。

4. 假設5:兩個變數符合雙變數正態分佈

檢驗Pearson相關係數的統計學意義要求雙變數正態性,但難以評價。實際操作依賴於雙變數正態分佈的一個特性,即雙變數正態分佈存在,則兩個連續變數必然都符合正態分佈。然而反過來,兩個連續變數符合正態分佈未必代表雙變數正態分佈,但能夠一定程度上保證雙變數正態分佈。因此,研究者需要對兩個連續變數分別檢驗正態性,方法如下。

(1) 點擊主菜單中Analyze > Descriptive Statistics >Explore...,如下圖:

(2) 按住電腦鍵盤上的Shift鍵選中變數time_tv和cholesterol,點擊將這兩個變數選入Dependent List框中,如下圖:

注意:如果有兩個以上變數,需要將所有變數都選入Dependent List框中。例如,還要檢驗變數CRP和TAG的正態性,如下圖:

(3) 點擊「Plots...」 鍵,顯示Explore:Plots對話框,如下圖。在此對話框中可以檢驗正態性。

(4) 選擇-Boxplots-區域的None,去掉-Descriptive-區域Stem-and-leaf前的勾選,並勾選Normality Plots with tests,此時如下圖:

(5) 點擊「Continue」鍵,回到Explore對話框。

(6) 勾選Display區域的Plots選項,可以使統計分析僅計算勾選的內容,如下圖。(本例中勾選「Statistics」 得到所有分析內容沒有必要)

注意:如果不用上述方法,而是用偏度和峰度判斷正態性,則Display區域應保持默認選項Both,此時默認生成所有統計量。

(7) 點擊OK鍵。

如果研究者不是十分熟悉其他統計量,或者樣本量較小,推薦使用Shapiro-Wilk檢驗來判斷正態性。檢驗結果可在Tests of Normality表格中查看,如下圖:

上表中展示了每個變數的Shapiro-Wilk檢驗結果。根據「Shapiro-Wilk」列下「Sig.」判斷是否有統計學意義,如下圖中紅框內:

「Sig.」值小於0.05則不符合正態分佈;如果大於0.05則符合正態分佈。這是由於Shapiro-Wilk檢驗的零假設是變數分佈符合正態分佈。拒絕零假設代表不能認為該變數符合正態分佈。

本例中,變數time_tv和cholesterol的「Sig.」值均大於0.05,即符合正態分佈。但是研究者注意即使變數符合正態分佈,但大樣本量(如50例以上)可導致出現有統計學意義的結果(即顯示不符合正態分佈)。因此,對於大樣本量,最好作圖判斷正態性。

在報告結果時應該報告正態性檢驗結果:根據Shapiro-Wilk檢驗(P>0.05),兩個連續變數均符合正態分佈;或者根據Shapiro-Wilk檢驗,某一個(或幾個)連續變數符合正態分佈(P>0.05),某一個(或幾個)變數不符合(P<0.05)。

檢驗正態性后,有兩種可能。如果兩個變數符合正態分佈,跳至計算Pearson相關係數步驟。如果變數不符合正態分佈,有三種選擇:

(a) 對不符合正態分佈的變數進行數據轉換生成新變數,並對其檢驗這些假設,如果滿足則計算Pearson相關係數;

(b) 採用非參檢驗,如計算Spearman秩相關係數;

(c) 由於Pearson相關係數對不符合正態分佈的情況具有一定的抗性,檢驗假陽性率較高,因此仍可計算Pearson相關係數。

(更多閱讀的:SPSS教程:判斷數據正態分佈的超多方法!SPSS詳細操作:正態轉換的多種方法

五、SPSS操作

計算Pearson相關係數的SPSS操作如下。

1. 點擊主菜單中Analyze >Correlate >Bivariate...,如下圖:

點擊后顯示Bivariate Correlation對話框,如下圖:

2. 按住鍵盤上Shift鍵選中變數time_tv和cholesterol。點擊鍵將兩個變數選入Variables:框中,如下圖:

注意:如果計算多個相關係數,則將這些變數都選入Varibales:框中。例如,同時選入變數CRP和TAG,如下圖:

3. 一般來說,Bivariate Correlation對話框中會默認勾選-Correlation Coefficients-區域的Pearson,不過操作的時候還是再次確認下。

4. Options,顯示Bivariate Correlation:Options對話框,如下圖:

5. 如果不需要,在Statistics區域可不勾選任何統計量。Missing Values區域勾選Exclude cases pairwise。

注意:只計算一個相關係數時,無論是成對刪除還是成列刪除,結果相同。

如果一次計算多個相關係數時,這兩種選擇得到的結果不同。如果選擇Exclude cases pairwise,任意變數有缺失值只會影響該變數有關的相關係數計算。例如,如果一個觀測的CRP值缺失,只有計算其他變數與CRP的相關係數時會受到影響。

如果選擇Exclude cases listwise,任意變數有缺失值會影響所有相關係數的計算。例如,如果一個觀測的CRP值缺失,計算任意兩變數間的相關係數都會剔除這個觀測,即所有的相關係數都會受影響。

6. 點擊「Continue」鍵,回到Bivariate Correlation對話框。

7. 點擊OK鍵,生成分析結果。

六、解釋結果

1. 首先,研究者要了解Pearson相關係數是衡量兩個連續變數間關係的大小和方向的。Pearson相關係數取值範圍在[-1,+1],-1代表負相關,+1代表正相關,0則代表不存在相關關係。

兩連續變數間相關的強弱沒有規定數值,Cohen(1988)提出了一個大概的準則。總的來講,相關係數越接近0,相關關係越弱;越接近-1或+1,相關關係越強。

下面將詳細解釋本例中看電視時間(time_tv)和膽固醇濃度(cholesterol)間相關關係強弱和方向。

查看Correlation表格可獲得Pearson相關係數值,如下圖:

上表以矩陣形式呈現,以對角線為線兩側結果對稱。研究者只需關注time_tv和cholesterol兩個變數間的Pearson相關係數,如下圖紅框內:

表中每行包含三方面信息,如下表:

本例中,Pearson相關係數,即r為0.371(「Pearson Correlation」行),且對應的P值小於0.05,說明看電視時間(time_tv)和膽固醇濃度(cholesterol)存在正相關關係,即隨著看電視時間延長膽固醇濃度增加。

注意:一些研究者可能會反對上述表達方式,認為這種方式提示兩個變數間存在因果關係,即看電視時間延長會導致膽固醇濃度增加。這種因果關係可能是真實的,但是其真實與否與是否存在相關關係無關,而是與理論有關係。因此研究者也可以表達為高膽固醇濃度與看電視時間長有關係。

Pearson相關係數的大小決定了相關關係的強弱。儘管沒有規定數值,Cohen(1988)提出了一個大概的準則,如下表:

此處|r|代表r的絕對值(|r|>0.5代表r>0.5或r

2)還能說明一個變數的變異被另外一個變數所能解釋的比例。本例中

r

2=0.3712=0.14。需注意

此處的「解釋」是指統計學意義上,而不是因果關係上

。此時可表述為「在統計學上,每天看電視時間能夠解釋14%的膽固醇濃度變異」。

2. 其次,判斷Pearson相關係數是否有統計學意義,即是否拒絕零假設。下面將詳細展示如何解讀雙側檢驗時相關係數的統計學意義,判斷兩個變數間(本例中為time_tv和cholesterol)是否存在相關關係。

本例中相關係數的P值顯示為0.000(「Sig.(2-tailed)」行),但這不意味著P值真的是0,而是P<0.001。因此本例中統計上兩變數間的相關係數不是0。請注意,P值不代表相關關係的強弱,只代表統計上相關係數是否等於0

結果表述可進一步修改為:「在45-65歲男性中,每天看電視時間與膽固醇濃度間存在中度的正相關關係,r=0.371,P<0.001」。本例共有100個觀測,自由度為N-2即98,結果還可表述為「在45-65歲男性中,每天看電視時間與膽固醇濃度間存在中度的正相關關係,r(98)=0.371,P<0.001」。

注意:切記不要使用提示因果關係的詞語,如「導致」等。以下為錯誤表達方式:「在45-65歲男性中,每天看電視時間可導致膽固醇濃度增加,r(98)=0.371,P<0.001」。

七、撰寫結論

報告結果時,研究者可以只報告主要結果,但最好也報告假設檢驗結果。接下來,將介紹如何簡明扼要地報告結果。另外,研究者還可以陳述零假設和備擇假設。最後在表格中展示多組相關係數。

1. Pearson相關分析結果報告如下:

本研究採用Pearson相關分析評價在45-65歲男性中膽固醇濃度和每天看電視時間的關係。這兩個變數間存在線性關係,根據Shapiro-Wilk檢驗符合正態分佈(P>0.05),並且不存在異常值。每天看電視時間與膽固醇濃度間存在中度正相關關係,r(98)=0.371,P<0.001。每天看電視時間能夠解釋14%的膽固醇濃度變異。

2. 零假設與備擇假設如下:

每天看電視時間與膽固醇濃度的相關關係有統計學意義,因此可以拒絕零假設,接受備擇假設。

3. 兩個以上變數以表展示結果

SPSS運行結果表格:

可以自行整理更簡明的表格:

相關閱讀

1. SPSS:單因素重複測量方差分析(史上最詳細教程)

2. 二分類Logistic回歸:SPSS詳細操作及模型預測

3. 【合集】23種統計方法的SPSS詳細操作

醫咖會微信

:medieco-ykh

關注醫咖會,輕鬆學習統計學~

有臨床研究設計或統計學方面的難題?快加,拉你進統計討論群和眾多熱愛研究的小夥伴們一起交流學習。如果想進群,添加小咖時請註明「加群」二字。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦