search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

《大數據》精華連載2:大數據概念與應用

大數據的出現開啟了大規模生產、分享和應用數據的時代,能讓我們通過對海量數據進行分析,以一種前所未有的方式獲得全新的產品、服務或獨到的見解,最終形成變革之力,實現重大的時代轉型。這就好比當我們感受浩瀚無垠的宇宙時,用望遠鏡只能看到宇宙的冰山一角,但更廣闊的區域都在表面之後,等待著進一步的探索。雲計算正是大數據探索過程中的動力源泉,通過對大數據進行檢索、分析、挖掘、研判,可以使得決策更為精準,釋放出數據背後隱藏的價值。大數據正在改變我們的生活及理解世界的方式,正在成為新發明和新服務的源泉,而更多的改變正蓄勢待發……

1.1 大數據之「大」

英特爾創始人戈登·摩爾(Gordon Moore)在1965年提出了著名的「摩爾定律」,即當價格不變時,集成電路上可容納的晶體管數目,約每隔18個月便會增加一倍,性能也將提升一倍。1998年圖靈獎獲得者傑姆·格雷(Jim Gray)提出著名的「新摩爾定律」,即人類有史以來的數據總量,每過18個月就會翻一番[1]。

從圖1-1中可以看出,2004年,全球數據總量是30EB[2](1EB=1018B=1024PB);2005年達到了50EB,2006年達到了161EB;到2015年,達到了驚人的7900EB;到2020年,預計將達到35000EB。

圖1-1 全球數據總量[1]

大數據到底有多大?下面列舉出一組互聯網數據展示給大家。

(1)互聯網每天產生的全部內容可以刻滿6.4億張DVD。

(2)Google每天需要處理24PB的數據。

(3)網民每天在Facebook上要花費234億分鐘,被移動互聯網使用者發送和接收的數據高達44PB。

(4)全球每秒發送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不停地讀5.5年。

(5)每天會有2.88萬個小時的視頻上傳到YouTube,足夠一個人晝夜不停地觀看3.3年。

(6)Twitter上每天發布5000萬條消息,假設10秒瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年。

為什麼會產生如此海量的數據?主要有3個因素:一是大人群產生的海量數據,全球已經有大約30億人接入了互聯網,在Web 2.0時代,每個人不僅是信息的接受者,也是信息的產生者,每個人都成為數據源,幾乎每個人都在用智能終端拍照、拍視頻、發微博、發微信等。二是大量感測器產生的海量數據,目前全球有30億~50億個感測器,到2020年將達到1000億個之多,這些感測器24小時不停地產生數據,這就導致了信息的爆炸。三是科學研究和各行各業越來越依賴大數據手段來開展工作,例如,歐洲粒子物理研究所的大型強子對撞機每年需要處理的數據是100PB,且年增長27PB;又如,石油部門用地震勘探的方法來探測地質構造、尋找石油,需要用大量感測器來採集地震波形數據;高鐵的運行要保障安全,需要在鐵軌周邊大量部署感測器,從而感知異物、滑坡、水淹、變形、地震等異常。

也就是說,隨著人類活動的進一步擴展,數據規模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的各行業累積的數據量越來越大,數據類型也越來越多、越來越複雜,已經超越了傳統數據管理系統、處理模式的能力範圍,於是「大數據」這樣一個在含義上趨近於「無窮大」的概念才會應運而生[3]。

那麼,何為大數據?大數據又稱巨量數據,指的是無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

大數據已經滲透到每一個行業和業務職能領域,並成為重要的生產因素。目前工業界普遍認為大數據具有5V+1C的特徵:大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)、準確性(Veracity)和複雜(Complexity)[3]。

(1)大量(Volume):存儲的數據量巨大,PB級別是常態,因而,對其分析的計算量也大。

(2)多樣(Variety):數據的來源及格式多樣,數據格式除了傳統的格式化數據外,還包括半結構化或非結構化數據,如用戶上傳的音頻和視頻內容。隨著人類活動的進一步拓寬,數據的來源更加多樣。

(3)高速(Velocity):數據增長速度快,同時要求對數據的處理速度也要快,以便能夠從數據中及時地提取知識,發現價值。

(4)價值(Value):需要對大量的數據處理,挖掘其潛在的價值,因而,大數據對我們提出的明確要求是設計一種在成本可接受的條件下,通過快速採集、發現和分析從大量、多種類別的數據中提取價值的體系架構。

(5)準確性(Veracity):即處理的結果要保證一定的準確性。

(6)複雜(Complexity):對數據的處理和分析的難度大。

從大數據的特徵可以看出3個層次的內容。①海量的數據。數據獲取和用戶使用需求呈指數級增長,數量極其龐大。②數據複雜度高。其非結構化特徵非常明顯,傳統的數據處理方式無法來處理。③處理時效與分析得到的結果的可用性。數據海量加之結構複雜,對分析處理的技術要求相當高,數據的及時處理難度相當大;同時,從大數據中提取出來的規律或結果必須是真實的、有價值的、可用的。可見,大數據問題涉及從存儲、轉換、傳輸直到分析的每一個層面,運用傳統的數據處理工具和技術無法滿足實時處理大數據的需求。

《大數據》精華連載(1)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦