search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

分析:大數據價值挖掘的難點和重點

大數據分析和應用得到了各個行業的關注,人們試圖從大量數據中發現蘊含的模式和規律,進而產生更多的價值,「數據」作為分析對象在這個過程中所起到的作用是決定性的。本文對結構化數據、非結構化數據、數據結構、關係型資料庫、實體關係圖、數據模型等我們熟悉的概念進行剖析,說明它們之間的聯繫和區別。指出非結構化數據處理是大數據分析技術的難點和重點,是提升大數據價值挖掘深度的寶劍,在大數據的教學、研究、學習和應用開發中,圍繞非結構化數據處理應當成為核心和重點。

數據這個概念對於每個人來說,是再熟悉不過的,我們生活在數據的世界里,在將來智能發達的時代里更是一刻也離不開數據。然而在千變萬化的各種數據中,是否存在一些穩定不變的本質?在變化中尋找不變是科學探索的一條重要思維原則。

各種形式的數據可以歸結為結構化數據、半結構化數據和非結構化數據三大種類。它們的區別在於數據的表示是否存在預先定義好的數據模型,因此什麼是數據模型是深入理解大數據的關鍵。數據模型是一種抽象模型,用於表達數據含義的構成單元及其它們之間相互關係、數據與現實世界之間的對應關係。

數據模型包括三種相對獨立的層次上的模型。

一是物理數據模型,表示了數據在計算機中存儲的物理結構,通常是資料庫中的分區、表空間、段、文件等。

二是邏輯數據模型,表示了數據在計算機中進行計算處理的邏輯結構,通常是數據表、列、對象、符號、樹等。通常所說的數據結構是在計算機中高效存取和運算數據的一種表示方法,是邏輯數據模型的組織形式,選擇好一個數據結構能加快計算過程。

三是概念數據模型,表示了數據所表達的事實,即它們與現實世界的關係,通常是實體、屬性、實體關係等。有時候也稱為語義數據模型,是數據在現實世界的真實表示。

例如對於計算機來說,「圖書」只是一個字元串,如何讓計算機知道它所代表的現實含義,這就需要數據模型要能夠表達數據與現實世界的映射關係,由此,可能要告訴計算機出版社印刷的那種東西,進一步要告訴計算機什麼是「出版社」。

在邏輯數據模型方面,對於資料庫管理系統(SQL、NoSQL)來說,其實現的邏輯數據模型包括單表模型、層次模型、網路模型、關係模型等,后兩者分別對應於我們非常熟悉的圖資料庫、關係型資料庫。但是,不管是層次、網路、關係或其他類型的邏輯數據模型,都無法完全滿足數據的概念定義要求。這是因為它所能表達的範圍是有限的,並且偏向於DBMS所使用的實現策略。

在概念數據模型方面,實體關係模型是廣泛被接受的模型之一,用於軟體工程中表示結構化數據。通常使用圖形方式來表達,如圖所示是一個實體關係模型例子。

「圖書」作為一種邏輯數據模型,由「書名」、「作者」、「出版社」、「出版日期」等單元構成,「作者」、「出版社」也具有各自的實體描述。這種結構化數據形式可以轉化為關係型資料庫中的表,如book(name,author,publisher,publish_date),存儲到該表中的圖書具有統一的預先設定好的模型。不管是曾劍平編著的書,還是吳軍編著的書,最後都必須結構化為如下四元組的形式。

結構化數據:

(互聯網大數據處理技術與應用,曾劍平,清華大學出版社,2017)

(數學之美,吳軍、人民郵電出版社,2014)

而對於非結構化數據的表述方式,則不存在這樣的結構。由於缺乏統一的結構限制,同樣的含義就有不同的敘述方式,以下的文本表述就表達了同樣的含義。

非結構化數據:

「《互聯網大數據處理技術與應用》一書是由曾劍平編著,並由清華大學出版社於2017年出版。」

「曾劍平編著了《互聯網大數據處理技術與應用》一書,並於2017年由清華大學出版社出版。」

「清華大學出版社於2017年出版了曾劍平編著的《互聯網大數據處理技術與應用》一書。」

等等。

半結構化數據具有自描述的數據模型。

半結構化數據:

(書名:互聯網大數據處理技術與應用;作者:曾劍平;出版社:清華大學出版社;出版日期:2017)

這裡的書名、作者、出版社、出版日期就是自描述標籤。

可見,結構化數據、半結構化數據、非結構化數據的最主要區別在於是否存在預先定義好的數據模型,更確切的說是概念數據模型。結構化數據能夠用統一的某種結構加以表示,離開了這種結構,數據就沒有意義;非結構化數據沒有概念數據模型形式的限制,可以自由表達;而半結構化數據具有某種結構,但是數據本身帶有結構的含義。

非結構化數據包含了文本、圖象、聲音、影視、超媒體等典型信息,在互聯網上的信息內容形式中佔據了很大比例。隨著「互聯網+」戰略的實施,將會有越來越多的非結構化數據產生,據預測,非結構化數據將佔據所有各種數據的70-80%以上。結構化數據分析挖掘技術經過多年的發展,已經形成了相對比較成熟的技術體系。也正是由於非結構化數據中沒有限定結構形式,表示靈活,蘊含了豐富的信息。因此,綜合看來,在大數據分析挖掘中,掌握非結構化數據處理技術是至關重要的。

其挑戰性問題在於語言表達的靈活性和多樣性,具體的非結構化數據處理技術包括:

(1)Web頁面信息內容提取;

(2)結構化處理(含文文本的辭彙切分、詞性分析、歧義處理等);

(3)語義處理(含實體提取、辭彙相關度、句子相關度、篇章相關度、句法分析等)

(4)文本建模(含向量空間模型、主題模型等)

(5)隱私保護(含社交網路的連接型數據處理、位置軌跡型數據處理等)

等等。

這些技術所涉及的技術較廣,在情感分類、客戶語音挖掘、法律文書分析等等許多領域都有廣泛的應用價值。(來源 :《互聯網大數據處理技術與應用》編選:電子商務研究中心)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦