3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
正確認識數據是數據分析的第一步,雲途君帶你認識數據的4種分類和不同類別數據的解讀方法。以雲途君為例,對應四種不同類型的數據,可以這樣做自我介紹:國籍:-------- 定類數據(Nominal)健康狀況:良好---- 定序數據(Ordinal)體溫:36.2度------- 定距數據(Interval)體重:56公斤------ 定比數據(Ratio)以上的四個數據分別對應了4種不同類型的數據,每種類型的數據具有其自身的特徵也對應著不同的解讀方法。1、 定類數據(Nominal)用於代表不同類別的事物,各個類別之間沒有等級次序之分。 例如:顏色,紅色和藍色沒有優劣之分只是類別不同。這類數據通常使用字元或者數字代號標示,例如電話號碼區號010是北京的區號,021是上海的區號。定類數據在數據分析中較為常見的應用場景是用戶分群,將用戶數據標籤化,再按照不同的標籤對用戶進行分群,相同的標籤表明具有相同屬性的一類人群。例如不同支付方式的性別分群,男性有55人,女性有60人分別佔47.83%和52.17%,定類數據的類別較少時建議使用餅圖,且「餅圖」能表達出不同類別的佔比情況。但是「餅圖」不適用於類別較多的情況。例如要分析56個民族不同人群的支付方式就不適合使用餅圖,通常多個類別使用柱狀圖展示分析結果。如下圖是服裝零售商的商品類別統計圖:定類數據在數據分析中通常被視作維度是離散型數據,也就是我們常說的觀測數據的視角,用於對事物定性,並且對於定類數據只能進行計數運算,不能進行加減乘除操作。2、定序數據(Ordinal)不僅能夠代表事物的分類,還能代表事物按照某種特性的排序,各個類別之間存在等級次序之分,等級之間差距不易衡量。例如: 「健康狀況」,健康狀況「良」與健康狀況「良好」到底差距有多大,不太容易衡量,但是 「良好」肯定優於「良」。這類數據通常也是使用字元或者數字代號標示,仍然用健康狀況舉例,使用1代表好、2代表良好、3代表良,但是用1除以2得出的0.5並不代表任何含義。所以定序數據與定類數據一樣,他們只能進行計數操作不能參與加減乘除的運算。通常定序數據也被視為數據分析中的維度數據是離散型數據,分析方法與定類數據的分析方法基本相同。定序數據最重要的意義代表了一組數據中的某種邏輯順序。3、定距數據(Interval)沒有絕對零點,「0」是尺度上的一個點,不代表「不存在」,可以比較大小,兩個值的差有實際意義,通常以數值形式標示。例如: 「溫度」,0度不代表沒有溫度,雲途君的體溫36.2度,相對於37度,雲途君體溫低但依然是正常體溫。定距數據進行計算后,可衍生出一組新的定類數據,比如,百分制考試成績,分值之間的間隔設定為10分,即60~70分為一檔,70~80分為一檔,80~90分為一檔。定距數據只能進行加減運算,不能進行乘除運算。 例如,某同學的期末考試成績數學70分,物理80分,80除以70得出的數據是沒有意義的,但是我們可以說物理成績比數學成績高10分,這個數據是有意義的,至少代表了這次物理考試比數學考試考得好。定距數據在數據分析中通常被稱為度量,用於對某一維度的定量描述。思考一下全班期中考試的數學平均分是多少分,這個命題如何計算?其中,會用到哪些數據,這些數據都是什麼類型的數據?定距數據不能參與乘除運算為什麼還要計算平均數?4、定比數據(Ratio)有絕對0點,「0」表示沒有或者不存在,通常以數值形式標示是連續型數據,一般來說定比數據不可能取負值或零值。例如:體重、身高。體重50公斤與51公斤之間的差距是相對於1公斤進行放大的多少倍,所以在數據分析中,定比數據可以進行加減乘除運算,其天然的帶有倍數關係。例如下圖中的營業額和訂單量,同比的概念就使用了倍數關係。以上4個不同的數據之間可以通過運算進行相互轉換,但當數據具有絕對的某種數據特徵時要注意是否恰當的使用了某種運算對數據進行分析。此外,前文例舉的都是數據特徵較明顯的情形,但是在實際數據分析過程中某些數據的特徵辨識度較低,需要不斷的練習才能準確的對數據用恰當的方法進行分析。小結 定類數據: 有類無序,計數,離散,維度定序數據: 有類有序,計數,離散,維度定距數據: 數字,0有意義,連續,加減,度量定比數據: 數字,無0無負,連續,加減乘除,度量下一期,我們將使用多維分析法解答本文中思考題並使用對比分析法、分組分析法、結構分析法、平均分析法和交叉分析法來應用各種不同數據的數據做恰當的數據分析。關注云途數據公眾號(ID:yuntudata),打開數據分析的大門!

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦