search
數據湖被認為是一個包羅萬象的大數據

數據湖被認為是一個包羅萬象的大數據

多年來,在Apache hadoop等技術的支持下,組織一直在尋求構建數據湖——企業範圍的數據管理平台,允許以原生格式存儲所有數據。數據湖可通過提供給一個單一的數據存儲庫來打破信息孤島問題,整個組織都可以使用從業務分析到數據挖掘的所有東西。原始和不受約束,數據湖被認為是一個包羅萬象的大數據

但是,商業智能(BI)軟體專家,金字塔分析公司的首席技術官Avi Perez說,他看到許多客戶的數據湖正在惡化為數據沼澤——完全無法接近終端用戶的大量數據存儲庫。

「資料庫真的很貴。」Perez說,「數據湖從根本上解決了這個問題。數據湖以及所有大數據方案,都來自於市場壓力,其次,現實世界的數據生成器會吐出大量的數據,你需要找到一個方法去存儲它們。」

但是,儘管許多世界上最好的公司都在他們的數據湖周圍建立了業務(谷歌就是一個很好的例子),但很多公司在收集了數據之後卻沒有任何清晰的辦法來獲取價值。

「他們更像是在收集灰塵。」Perez說,「也可以說在收集垃圾,一些最終都會被拋棄的垃圾。最後,你為那些東西增加了預算,卻什麼都不做。」

這並不是說數據湖背後的想法是糟糕的。Perez確信,所有的公司最終都需要一個數據湖。但是如何創建一個數據湖,讓終端用戶真正從中受益,這是需要深思熟慮的。

為了避免在自己的數據湖中溺水,Perez建議採用以下三條原則:

1、 只收集少量的數據,至少在一開始的時候。

Perez表示,組織所犯的最大的錯誤之一就是收集太多的數據,而其中原因僅僅是他們有這個能力。很多時候,個人也是這樣。細想一下,你手機里存了成百上千張圖片,有都少是自己真正想保存的 很多人沒有刪掉多餘的圖片,只是因為手機容量夠大。

「你的手機上有10億張照片,其中99%就可能是垃圾,而且在刪除它們的時候還可能會有點兒捨不得。」他說,「用手機拍照很容易,基本上是免費的。你可能回想,『有一天我會去清理它』,但只要存儲容量仍然充足,就很少有人會這樣做。這就叫做收集了大量的信息,卻沒辦法有效使用它們。」

當你想要給某人看一張很有意思的照片時,就不可避免地需要往後翻閱很多張無關的照片。

Perez說,同樣的事情也發生在數據湖上。在Hadoop中存儲數據並不昂貴,甚至常會被認為是免費的。但是,大量累積的數據會讓你很難真正地訪問數據,來為自己提供有價值的信息。

「我認為,避免這種情況的方法實際上是把水龍頭給關掉。」Perez說,「基於這樣一種假設,僅僅是收集數據的成本很低,並不會讓使用數據變得更便宜。這可能真的很貴。所以,不要總想著無休止地收集信息。把它放在一個數據集中,制定一個具體的計劃,弄清楚自己該如何去挖掘它。」

2、 採用機器學習戰略

即使有了一個集中的數據集,從大規模的數據中獲得有價值見解也需要自動化。

「你需要一個自動化的系統來清洗數據。」Perez說,「人工智慧、機器學習、深度學習,無論你想使用哪一種,都會是一個非常神奇的解決辦法。我認為,從你巨大的數據湖中獲取價值的最簡單的辦法就是,擁抱這一項新技術。」

Perez說,首先選擇一個數據集,然後通過一項機器學習技術來完成它。當然,新的技術意味著新的技能、人才需求,你可以對現有員工進行培訓,也可以聘請一些專業人士。

「機器學習是一門黑色藝術。」他說,「這並不容易做到,需要非常細分的技能。」

3、 確定你想解決的商業問題

所有的事情都應該是完整的:你需要從一個清晰的視角來開始你想要解決的商業問題。有了一個客觀的目標,相對會更容易把你需要收集的數據和最好的機器學習技術應用起來。

例如,Perez說,可以將自己想象成一個大賣場,你決定去了解什麼樣的顧客會進入你的商店。你可以捕捉顧客進入商店的圖片,然後使用一個複雜的神經網路(CNN)——一種擅長於計算機視覺問題的深度學習神經網路——來處理圖像。CNN可以通過一個人的形象確定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。

「一旦你完成了所有工作,就可以把它與一個商業計劃聯繫起來,並把它交給你的業務用戶。」Perez說,「這可以幫助你做出決策——『我們需要更多地向男性市場推銷,因為我們沒有足夠多的男性客戶』。你真的需要事先有一個明確的戰略,如果不這樣做,僅僅是對事物的收集就會對整個過程產生巨大的負面影響。」

一旦你在頭腦中建立了一個業務計劃,通常就可以迭代該功能,從而為業務提供更有針對性的解決方案。例如,一旦你確定是誰走進了你的商店,你就可以用同樣的能力來確定誰會走過你的化妝品櫃檯。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23299次喜歡
留言回覆
回覆
精彩推薦