Zi 字媒體

《大數據》精華連載2：大數據概念與應用

2021/12/25

大數據的出現開啟了大規模生產、分享和應用數據的時代，能讓我們通過對海量數據進行分析，以一種前所未有的方式獲得全新的產品、服務或獨到的見解，最終形成變革之力，實現重大的時代轉型。這就好比當我們感受浩瀚無垠的宇宙時，用望遠鏡只能看到宇宙的冰山一角，但更廣闊的區域都在表面之後，等待著進一步的探索。雲計算正是大數據探索過程中的動力源泉，通過對大數據進行檢索、分析、挖掘、研判，可以使得決策更為精準，釋放出數據背後隱藏的價值。大數據正在改變我們的生活及理解世界的方式，正在成為新發明和新服務的源泉，而更多的改變正蓄勢待發……

1.1 大數據之「大」

英特爾創始人戈登·摩爾(Gordon Moore)在1965年提出了著名的「摩爾定律」，即當價格不變時，集成電路上可容納的晶體管數目，約每隔18個月便會增加一倍，性能也將提升一倍。1998年圖靈獎獲得者傑姆·格雷(Jim Gray)提出著名的「新摩爾定律」，即人類有史以來的數據總量，每過18個月就會翻一番[1]。

從圖1-1中可以看出，2004年，全球數據總量是30EB[2](1EB=1018B=1024PB);2005年達到了50EB，2006年達到了161EB;到2015年，達到了驚人的7900EB;到2020年，預計將達到35000EB。

圖1-1 全球數據總量[1]

大數據到底有多大?下面列舉出一組互聯網數據展示給大家。

(1)互聯網每天產生的全部內容可以刻滿6.4億張DVD。

(2)Google每天需要處理24PB的數據。

(3)網民每天在Facebook上要花費234億分鐘，被移動互聯網使用者發送和接收的數據高達44PB。

(4)全球每秒發送290萬封電子郵件，一分鐘讀一篇的話，足夠一個人晝夜不停地讀5.5年。

(5)每天會有2.88萬個小時的視頻上傳到YouTube，足夠一個人晝夜不停地觀看3.3年。

(6)Twitter上每天發布5000萬條消息，假設10秒瀏覽一條消息，足夠一個人晝夜不停地瀏覽16年。

為什麼會產生如此海量的數據?主要有3個因素：一是大人群產生的海量數據，全球已經有大約30億人接入了互聯網，在Web 2.0時代，每個人不僅是信息的接受者，也是信息的產生者，每個人都成為數據源，幾乎每個人都在用智能終端拍照、拍視頻、發微博、發微信等。二是大量感測器產生的海量數據，目前全球有30億～50億個感測器，到2020年將達到1000億個之多，這些感測器24小時不停地產生數據，這就導致了信息的爆炸。三是科學研究和各行各業越來越依賴大數據手段來開展工作，例如，歐洲粒子物理研究所的大型強子對撞機每年需要處理的數據是100PB，且年增長27PB;又如，石油部門用地震勘探的方法來探測地質構造、尋找石油，需要用大量感測器來採集地震波形數據;高鐵的運行要保障安全，需要在鐵軌周邊大量部署感測器，從而感知異物、滑坡、水淹、變形、地震等異常。

也就是說，隨著人類活動的進一步擴展，數據規模會急劇膨脹，包括金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的各行業累積的數據量越來越大，數據類型也越來越多、越來越複雜，已經超越了傳統數據管理系統、處理模式的能力範圍，於是「大數據」這樣一個在含義上趨近於「無窮大」的概念才會應運而生[3]。

那麼，何為大數據?大數據又稱巨量數據，指的是無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

大數據已經滲透到每一個行業和業務職能領域，並成為重要的生產因素。目前工業界普遍認為大數據具有5V+1C的特徵：大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)、準確性(Veracity)和複雜(Complexity)[3]。

(1)大量(Volume)：存儲的數據量巨大，PB級別是常態，因而，對其分析的計算量也大。

(2)多樣(Variety)：數據的來源及格式多樣，數據格式除了傳統的格式化數據外，還包括半結構化或非結構化數據，如用戶上傳的音頻和視頻內容。隨著人類活動的進一步拓寬，數據的來源更加多樣。

(3)高速(Velocity)：數據增長速度快，同時要求對數據的處理速度也要快，以便能夠從數據中及時地提取知識，發現價值。

(4)價值(Value)：需要對大量的數據處理，挖掘其潛在的價值，因而，大數據對我們提出的明確要求是設計一種在成本可接受的條件下，通過快速採集、發現和分析從大量、多種類別的數據中提取價值的體系架構。

(5)準確性(Veracity)：即處理的結果要保證一定的準確性。

(6)複雜(Complexity)：對數據的處理和分析的難度大。

從大數據的特徵可以看出3個層次的內容。①海量的數據。數據獲取和用戶使用需求呈指數級增長，數量極其龐大。②數據複雜度高。其非結構化特徵非常明顯，傳統的數據處理方式無法來處理。③處理時效與分析得到的結果的可用性。數據海量加之結構複雜，對分析處理的技術要求相當高，數據的及時處理難度相當大;同時，從大數據中提取出來的規律或結果必須是真實的、有價值的、可用的。可見，大數據問題涉及從存儲、轉換、傳輸直到分析的每一個層面，運用傳統的數據處理工具和技術無法滿足實時處理大數據的需求。

《大數據》精華連載（1）

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點