search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【CIO早班車】大數據的關鍵技術及實例

大數據的關鍵技術和實例

來自IT經理世界

暫停幾分鐘,工作更輕鬆。

上周,我們談了一下大數據的應用,很多朋友都表示對這個話題非常感興趣。因此,今天,我們和各位CIO朋友們一起來更深入一步,聊一下「大數據」的關鍵技術。

在我們過去傳統的數據倉庫環境里,有一個ETL的關鍵技術,把數據從各個系統抽取上來,並做清洗,然後載入到數據倉庫的過程。那麼現在我們已經發展到了大數據時代,有很多開源的技術,支持技術人員把ETL在Hadoop上手工寫代碼來完成。我們是否還需要ETL的平台來完成這個動作?

回答這個問題,我們要回到最初ETL 產品的誕生談起。在上的世紀九十年代末,很多ETL的技術就誕生了,例如IBM的DataStage等等。他們誕生的原因,不是因為手工開發幹不了ETL的活,而是因為,手工開發來完成ETL 會帶來很多問題,從而使ETL的成本大大增加,而且不可控。首先,IT界的人員流動是很頻繁的,很多ETL的開發人員,寫了一大推的代碼,然後跳槽離開了。當數據集成的場景發生變化,需要修改ETL部分時,管理人員就會發現,需要新的人員來看懂其他人寫得代碼,並進行修改是非常困難的,往往耗時且費力。這時候,他們就想,如果有一個圖形化的工具平台,讓所有的人都能從圖形化的ETL流程中一目了然的了解ETL的開發,並能十分方便的修改維護,那該多好啊!ETL平台由此而誕生了。

大家發現,利用像IBM DataStage這樣的ETL平台, 不僅開發方便,易於學習,而且還易於調試,易於維護,大大提高的開發的生產效率,而且降低了後期維護的費用。作為ETL平台,DataStage與各種異構數據源的連接是他的強項,不僅有傳統的各種資料庫和文件系統,還包括最新的大數據平台Hadoop和Spark等。

所以說,在當今的大數據時代,ETL平台存在的原因並沒有消失。 如果在hadoop平台上,靠寫代碼來完成數據集成的工作,一樣會難以維護,一樣會成本很高。因此,我們可以說,大數據時代,對ETL的需求不是少了,而是更多了。所以在大數據的時代,還是需要有一個ETL的平台,才能更好地做到數據的收集,清洗和載入,同時保障了高可維護性和更優化的總體擁有成本。

在一個企業中,原來數據集成平台是用於各種數據源和數據倉庫或數據集市之間的數據集成,到了大數據時代,企業中又增加了hadoop的平台。對於企業的數據集成場景來說,不是變簡單了,而是更複雜了,有更多種的數據源,和應用場景。

數據集成平台,實際上是成為了一個企業數據交換的中樞,沒有這樣一個企業級的數據交換平台,企業數據間的各種交換和數據流將更難以掌控。數據集成平台要完成的工作,不僅是數據的抽取,清洗,轉換和載入,更重要的是數據的治理。通過數據集成平台內置的元數據管理,也就是Metadata management, 可以精確的掌控,每一個數據從哪裡來,到哪裡去,做了那些轉換和清洗,使企業數據治理有了基礎。可以說,到了大數據時代,企業對數據治理的需求是越來越強烈了,因此,一個功能完善的強大可靠的數據集成平台將會在企業IT的架構里,承擔越來越重要的角色。了解到這一點,我相信那些還在疑惑,大數據時代究竟需不需要數據集成平台的人,應該可以有自己的答案了。

我們有一個客戶,是一家國際知名的汽車品牌,也是最大的汽車生產商之一,使用了DataStage做為企業數據集成平台很多年,也實現了企業數據治理及元數據管理的架構,目前,他們也跨入了大數據時代,建立了基於Hadoop的大數據平台,他們繼續運用DataStage實現傳統數據源和大數據平台的集成,獲得了很好的效果。

一個優質的ETL平台,不僅能幫助CIO朋友們在大數據時代完成傳統的數據抽取,清洗,轉換和載入的工作,這樣的關鍵技術平台,還能夠幫助CIO們更有效地治理大數據,更好地把傳統數據源和大數據平台整合起來。

如果您希望了解更多的技術細節,請點擊「閱讀原文」提交您的聯繫方式,我們的CIO客戶專員為您提供相關資料。

往期精彩

解讀大數據的奧秘
掌控「新」「舊」數據的實際案例分享
如何掌控新舊數據?
數字經濟中的CIO使命

戳原文,更有料!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦