3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
下面小編給大家介紹一些比較讓從事大數據行業的工作者,一個令人糾結的問題? 身為大數據的從業人員大家對Hadoop和 Spark這兩個詞都很熟悉。我們其實也可以換種方式樣來表達,Hadoop也可以算是大數據的啟蒙者,憑藉Hadoop幫助讓企業步入大數據時代。但是最近幾年,Spark的人氣似乎超越了Hadoop。而且有一種聲音是Spark將會取代Hadoop成為大數據的領導者,但是真相就是這樣么? 直接比較Hadoop和Spark是比較有難度的,它們處理的任務在許多方面都是相同的,但是又在一些方面並不不是相互重疊。 舉個例子來說,Spark沒有文件管理功能,所以必須依賴Hadoop分散式文件系統(HDFS)。將Hadoop MapReduce與Spark作一番比較來得更明智更清晰,它們作為數據處理引擎更具有可比性。 Hadoop是Apache.org的一個項目,其實就是一種軟體庫和框架,便於使用簡單的編程模型,跨計算器大數據進行分散式處理。Hadoop靈活擴展,從單一計算機系統,到提供本地存儲和計算能力的數千個商用系統,它能很輕鬆的支持。Hadoop就是大數據分析領域的重量級大數據平台。 Spark開發人員聲稱它是「一種用於數據大規模處理的快速通用引擎」。相比較之下,Hadoop的大數據框架就好比是1000磅重的大猩猩,Spark就好比200磅重的獵豹。 其實就是Hadoop與Spark不存在衝突,因為Spark是運行於Hadoop頂層的內存處理方案,其實也就是目前部署Spark企業,都在現有的Hadoop集群中運行Spark。 主流的Hadoop例如Cloudera和Hortonworks將Spark列為他們Hadoop發行的一部分。可以說Hadoop和Spark都是大數據框架,都提供了執行比較常見大數據任務的工具。雖然Spark在一些應用場景下比Hadoop,但是Spark本身沒有一個分散式存儲系統,而是依賴於Hadoop的HDFS。 Hadoop和Spark根本不存在競爭關係,在前面的討論中,強調就是計算類型和應用場景,Spark比Hadoop要快。其實是Hadoop和Spark針對不同的應用場景。Hadoop將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲。同時,Hadoop還會索引和跟蹤這些數據,讓大數據處理和分析效率達到前所未有的高度。 Hadoop包含兩個最重要的組件。第一個是大規模儲存系統,叫做Hadoop Distributed File System。第二個是計算引擎,叫做MapReduce,能夠儲存在HDFS上的數據頂層運行大規模并行程序。 所以我們看到Hadoop包括存儲和計算兩個組件,而MapReduce計算組件可以被Spark替換的。Spark是一個基於內存計算的開源的集群計算系統,就是為了讓數據分析更加快速。 所以看明白了吧,Spark其實是對Hadoop計算組件的改進,也是對Hadoop的補充,可以在Hadoop文件系統中并行運行。因為Spark充分利用內存進行緩存,所以比較合適做迭代式的運算。 寫這大數據的文章很燒小編的腦袋,希望給需要的人看看吧如果感覺小編寫的不錯,請你們看小編在里發的第一篇文章,裡面有小編的聯繫方式,大家一個動作就可以完成,下面這個鏈接可以和小編取得親密接觸的機會,嘿嘿

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦