Zi 字媒體

[下]人工智慧，機器學習，數據挖掘，數據分析和深度學習到底是什麼？

2021/12/25

數據分析

數據分析更多的是指從歷史數據裡面發現有價值的信息，從而提高決策的科學性。數據分析更側重於通過分析數據的歷史分佈然後從中得出一些有價值的信息。

在對比數據分析和數據挖掘時，數據分析更像是對歷史數據的一個統計分析過程，比如我們可以對歷史數據進行分析后得到一個粗糙的結論，但當我們想要深入探索為什麼會出現這個結論時，就需要進行數據挖掘，探索引起這個結論的種種因素，然後建立起結論和因素之間模型，當有因素有新的值出現時，我們就可以利用這個模型去預測可能產生的結論。

因此數據分析更像是數據挖掘的一個中間過程。

以下給出一個通俗的例子來說明：

虛竹和段譽要決鬥了，有人找到星宿老仙，讓星宿老仙預測誰會取得勝利。

Case1：

星宿老仙做了個統計，發現兩人曾經共交手過6789次，其中虛竹贏了4567次。

另外，虛竹同喬峰交手，勝率是80%，段譽斗喬峰勝率是60%。星宿老仙得出決鬥的趨勢應該是虛竹贏。

因為星宿老仙假設這次勝利跟歷史有關，通過對歷史數據分析可以得到這裡決鬥虛竹勝利的概率更大。這就是數據分析。

Case2：

星宿老仙對收集了古往今來各大高手的個人信息和對戰數據，建立個人信息和對戰結果之間的模型，發現出身、教育、經驗、婚戀狀態四個因素是影響成敗的主要因素。

出身貧苦的孩子一般比皇親國戚功夫練得刻苦；
師父越厲害，傳授給徒弟的武功和功力越多，徒弟的功夫會更高；
對戰經驗豐富的人因為擅長利用環境而獲勝的機會更大；
單身的人在決鬥的時候無牽無掛，比非單身的人更放得開，更容易取得勝利。

於是星宿老仙輸入虛竹和段譽的個人信息，虛竹出身貧苦，遇到的名師不亞於段譽，而且打架經驗豐富，並且單身，所以這次打頭，模型預測的結果是虛竹勝。這就是數據挖掘。

深度學習

神經網路是機器學習的一個分支，而深度學習又是神經網路的一個大分支，深度學習的基本結構是深度神經網路。

深度神經網路與普通的神經網路最大的區別就是，普通的神經網路一般訓練代價較高，隱藏層層數較少，一般為3-4層。而深度神經網路由於採用了特殊的訓練方法，同時加上一些類似於卷積池化的技巧，使得隱藏層層數可以達到8-10層。因此深度神經網路能夠捕捉到數據中的深層聯繫和高層特徵，從而能夠得到更精準的模型，而這些聯繫是不容易被普通的機器學習方法所發覺的。

有關數據挖掘與機器學習聯繫與區別方面的更多知識，請參考周志華老師的《數據挖掘與機器學習》講義，私信作者，即可獲取下載鏈接。

文中若有表述錯誤的地方歡迎大家留言批評指正。

其實很多概念本身就是一些相互交叉的概念，作者只是為大家提供了一個理解的思路，在現實生活中大可沒有必要糾結於概念之間到底有什麼區別和聯繫，非要把概念區分的那麼清楚，只需由淺入深地慢慢學習，都後來很多概念自然而然的會被理解。

參考文獻

《機器學習與數據挖掘》周志華

《Python機器學習及實踐–從零開始通往Kaggle競賽之路》范淼

《神經網路與深度學習》吳岸城

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點