Zi 字媒體

數據湖被認為是一個包羅萬象的大數據

2021/12/25

多年來，在Apache hadoop等技術的支持下，組織一直在尋求構建數據湖——企業範圍的數據管理平台，允許以原生格式存儲所有數據。數據湖可通過提供給一個單一的數據存儲庫來打破信息孤島問題，整個組織都可以使用從業務分析到數據挖掘的所有東西。原始和不受約束，數據湖被認為是一個包羅萬象的大數據。

但是，商業智能(BI)軟體專家，金字塔分析公司的首席技術官Avi Perez說，他看到許多客戶的數據湖正在惡化為數據沼澤——完全無法接近終端用戶的大量數據存儲庫。

「資料庫真的很貴。」Perez說，「數據湖從根本上解決了這個問題。數據湖以及所有大數據方案，都來自於市場壓力，其次，現實世界的數據生成器會吐出大量的數據，你需要找到一個方法去存儲它們。」

但是，儘管許多世界上最好的公司都在他們的數據湖周圍建立了業務(谷歌就是一個很好的例子)，但很多公司在收集了數據之後卻沒有任何清晰的辦法來獲取價值。

「他們更像是在收集灰塵。」Perez說，「也可以說在收集垃圾，一些最終都會被拋棄的垃圾。最後，你為那些東西增加了預算，卻什麼都不做。」

這並不是說數據湖背後的想法是糟糕的。Perez確信，所有的公司最終都需要一個數據湖。但是如何創建一個數據湖，讓終端用戶真正從中受益，這是需要深思熟慮的。

為了避免在自己的數據湖中溺水，Perez建議採用以下三條原則：

1、只收集少量的數據，至少在一開始的時候。

Perez表示，組織所犯的最大的錯誤之一就是收集太多的數據，而其中原因僅僅是他們有這個能力。很多時候，個人也是這樣。細想一下，你手機里存了成百上千張圖片，有都少是自己真正想保存的很多人沒有刪掉多餘的圖片，只是因為手機容量夠大。

「你的手機上有10億張照片，其中99%就可能是垃圾，而且在刪除它們的時候還可能會有點兒捨不得。」他說，「用手機拍照很容易，基本上是免費的。你可能回想，『有一天我會去清理它』，但只要存儲容量仍然充足，就很少有人會這樣做。這就叫做收集了大量的信息，卻沒辦法有效使用它們。」

當你想要給某人看一張很有意思的照片時，就不可避免地需要往後翻閱很多張無關的照片。

Perez說，同樣的事情也發生在數據湖上。在Hadoop中存儲數據並不昂貴，甚至常會被認為是免費的。但是，大量累積的數據會讓你很難真正地訪問數據，來為自己提供有價值的信息。

「我認為，避免這種情況的方法實際上是把水龍頭給關掉。」Perez說，「基於這樣一種假設，僅僅是收集數據的成本很低，並不會讓使用數據變得更便宜。這可能真的很貴。所以，不要總想著無休止地收集信息。把它放在一個數據集中，制定一個具體的計劃，弄清楚自己該如何去挖掘它。」

2、採用機器學習戰略

即使有了一個集中的數據集，從大規模的數據中獲得有價值見解也需要自動化。

「你需要一個自動化的系統來清洗數據。」Perez說，「人工智慧、機器學習、深度學習，無論你想使用哪一種，都會是一個非常神奇的解決辦法。我認為，從你巨大的數據湖中獲取價值的最簡單的辦法就是，擁抱這一項新技術。」

Perez說，首先選擇一個數據集，然後通過一項機器學習技術來完成它。當然，新的技術意味著新的技能、人才需求，你可以對現有員工進行培訓，也可以聘請一些專業人士。

「機器學習是一門黑色藝術。」他說，「這並不容易做到，需要非常細分的技能。」

3、確定你想解決的商業問題

所有的事情都應該是完整的：你需要從一個清晰的視角來開始你想要解決的商業問題。有了一個客觀的目標，相對會更容易把你需要收集的數據和最好的機器學習技術應用起來。

例如，Perez說，可以將自己想象成一個大賣場，你決定去了解什麼樣的顧客會進入你的商店。你可以捕捉顧客進入商店的圖片，然後使用一個複雜的神經網路(CNN)——一種擅長於計算機視覺問題的深度學習神經網路——來處理圖像。CNN可以通過一個人的形象確定是男性還是女性，是孩子還是成年人，是年輕人還是老年人等等。

「一旦你完成了所有工作，就可以把它與一個商業計劃聯繫起來，並把它交給你的業務用戶。」Perez說，「這可以幫助你做出決策——『我們需要更多地向男性市場推銷，因為我們沒有足夠多的男性客戶』。你真的需要事先有一個明確的戰略，如果不這樣做，僅僅是對事物的收集就會對整個過程產生巨大的負面影響。」

一旦你在頭腦中建立了一個業務計劃，通常就可以迭代該功能，從而為業務提供更有針對性的解決方案。例如，一旦你確定是誰走進了你的商店，你就可以用同樣的能力來確定誰會走過你的化妝品櫃檯。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點