search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

從閱讀量看大數據技術關注熱點

十五早已過去,春節正式結束,而我們也早已在新的一年中工作了兩周。吾日三省吾身,為了發現過去本公眾號運營的不足之處,反思過去,以新的姿態迎頭趕上新一年的朝陽,我們決定對2016年內發表的各個文章進行總結,整理出從本公眾號開放以來到春節前發表的各原創文章閱讀量。我們用積極的態度去探索,用科學的數據分析手段進行信息挖掘,最終探測出了近期讀者對於大數據技術內容的喜好口味,迫不及待的想和大家分享。

統計一下閱讀量

2016年8月30日,「大數據開放實驗室」誕生,發布了其生命中的第一篇文章《開篇:寫給致力於大數據技術發展的志同道合者》。

2017年1月25號為止,本平台發表的原創文章共達23篇。這些原創文章不僅被發佈於本公眾號,還在其他五個渠道進行推廣。經統計,每篇文章在每個平台的平均閱讀量約達1900人次。我們整理出每篇文章在不同平台上的閱讀量,總結為如下的柱狀分布圖(某些文章未發表於全部平台,所以部分文章在個別平台的閱讀量顯示缺失):

接著將每篇文濃縮為一個關鍵字,把各關鍵字所出現的各文章的閱讀量進行平均作為其出現次數,然後利用星環即將隨TDH 5.0發布的報表工具Slim,對關鍵字繪製Word Cloud分析圖(註:Word Cloud圖中每個關鍵字的顯示尺寸和出現次數成正相關,出現次數越多顯示的字體越大)。

下面是Slim對於關鍵字繪製的Word Cloud統計圖:

直觀看去,該圖中有三個最明顯的關鍵字,分別是:SQL on Hadoop數據倉庫、Lambda、Docker+Jenkins;其次,技術棧、預測趨勢、SQL優化出現在第二梯隊,且差距不大;其餘關鍵字的關注度表現稍遜色。

下面是通過Slim分析得到的各話題在關注度中的具體佔比情況:

此處插播一則良心廣告:

Slim是一個豐富靈活的圖形化報表工具,星環實現了該平台同Inceptor的對接,只要用戶安裝了TDH,無需再額外安裝其他報表工具,就可以直接利用Slim對Inceptor中表對象進行可視化分析。

大數據技術熱點話題

除了話題關注度外,文章的閱讀量會受一些外在因素影響,例如推廣程度、受眾人群、標題的吸引力等,而且本公眾號文章覆蓋的技術話題也是有限的,即便如此,我們依然能夠從上面的統計結果中發現一些2016年大數據技術的關注熱點,下面是我們分析挖掘並整理出的幾點價值信息:

1. 三個熱點

Word Cloud圖反映出讀者對於SQL on Hadoop數據倉庫Lambda架構集群自動化部署技術這三個話題的濃厚興趣,映射了大數據發展的三個現狀:首先,SQL on Hadoop數據倉庫平台以它的強大表現力證明其自身實力,受到業界認可,得到有效推廣,並被市場充分接受,有著明朗的發展和應用前景;其次,Lambda架構獲得廣泛關注,說明越來越多的生產對於實時&批處理兩種業務場景的處理需求,使很多大數據從業人員希望掌握Lambda架構方式和原理;最後,Docker+Jenkins的關注度表現證明了Docker的火熱,以及把它同Jenkins相結合用於進行自動化運維部署的認可:開發人員提交代碼,測試人員用Docker做搭建環境,觸發Jenkins,就能創造新版本,用這樣方式來有效輔助並推動DevOps概念在開發流程中的滲入。

2. Lambda vs Kappa

Lambda和Kappa是把批處理和流處理進行整合的兩種架構方式,但Lambda的關注度明顯更高。在撰寫本文時,我們利用百度引擎進行搜索,發現關鍵詞「Lambda+架構」的結果有~414,000個,而「Kappa+架構」只有~5,400個,恰好也放反映了這一點。此結果和我們的預期有些出入,因為對於生產實踐而言Kappa確實比Lambda有更好的靈活性。所以只能這樣解釋,Kappa作為一種新的技術,還未在國內被廣泛熟知。任何好的新事物都需要一段過程來完善自我,進行價值傳播,以被更多人接受,所以我們的觀點是,依然看好Kappa的未來發展,相信它定會受到更廣泛的關注,提高知名度。

3. SQL優化

從上圖可看出SQL優化的關注度雖並非名列前茅但也處於中上,說明SQL優化也是一個小熱點,體現了分析型SQL性能的重要性。這是可以理解的,SQL作為數據分析的刀槍,其執行性能對於走在時間前端的管理者或者業務分析人員而言固然重要。分析人員在進行大量數據的OLAP複雜分析時,必須要節省時間提高效率,所以利用有效的優化手段讓SQL跑的飛起顯得格外重要。同時,用戶對分析型SQL查詢的要求越來越高,也暗示各個數倉供應商必須對SQL語法提供更加全面的支持,提供光速的SQL執行引擎,以及更高效的SQL優化工具。

4. 有活力的技術創新

從2010年以來,大數據逐漸成為關注熱點,大數據基礎設施技術逐年走向成熟。同時,仍然有很多年輕的創新技術不斷湧現,它們解決了以往技術存在的關鍵問題,並帶領市場走向更好的道路,例如業內呈現的MapReduce向Spark的架構演變,大數據同雲服務的融合等。這些日新月異的變化說明大數據依然處於朝陽,技術創新方面依然不乏活力。隨著大數據市場規模的逐年增長,作為世界重要的大數據市場,其中潛在的機遇數量是巨大的。讓我們對大數據的未來拭目以待。

新希望

最後分享一下運營公眾號的心得:好內容、好渠道、好標題,構成高閱讀量文章的根本。內容是文章的基石,它的受關注程度,新穎程度和質量決定了文章是否可以真正實現價值輸出,是否能夠保證下一篇文章的閱讀量;渠道是文章傳輸通道,它的好壞、是否全面,決定文章的終端受眾人數;標題是文章門面,它對文章閱讀量的高低有直接的影響。

目前,我們在以上三方面都仍有進步空間,所以會再接再厲,盡全力在每方面都做的更好。

運行公眾號實不易,感謝一直關注我們的訂閱者。丁酉年我們會繼續努力,和各位一起學習成長,研究開拓新技術,洞察大數據發展趨勢,和大家交流分享。

歷史文章

下面是對在本公眾號上發表的文章進行的分類。

Hadoop安全

如何讓Kafka集群免受黑客攻擊

Transwarp如何讓Hadoop集群免受黑客攻擊

技術分析介紹

公開課:大數據技術的發展概析

大數據基礎技術的未來演進趨勢預測

Kappa:比Lambda更好更靈活的實時處理架構

深入淺出解析大數據Lambda架構

微信自研生產級paxos類庫PhxPaxos實現原理介紹

Docker+Jenkins打造自動化測試以及部署升級環境

開篇:寫給致力於大數據技術發展的志同道合者

SQL相關

SQL優化:基於代價的優化方法的介紹與使用(下)

SQL優化:基於代價的優化方法的介紹與使用(上)

六種常見SQL場景及其在TDH中的優化策略

詳解Inceptor SQL的集合運算

從關係型資料庫到大數據,談談數據字典的故事

Hadoop平台中SQL優化的四個思路

大數據時代的SQL、NoSQL和NewSQL

星環的產品們

Transpedia的發布及其使用攻略

Inceptor任務的圖形化分析(三)

Inceptor任務的圖形化分析(二)

Inceptor任務的圖形化分析(一)

Hadoop集群上如何使用數據字典做元數據管理(應用實戰)

為Hadoop集群裝備上警報系統

Transwarp Data Hub中的指標監控利器

自動化分散式環境檢測工具——Koalas

一站式rJava自主開發的應用實現

從PageRank演算法入門Graphene

數據挖據演算法

面向程序員的數據挖掘指南——第四章:分類器

面向程序員的數據挖掘指南——第三章:隱式評價和基於物品的過濾演算法

面向程序員的數據挖掘指南——第二章:推薦系統入門

面向程序員的數據挖掘指南——第一章:簡介

————————

關於:此文由公眾號大數據開放實驗室原創

大數據開放實驗室由星環信息科技(上海)有限公司運營,專門致力於大數據技術的研究和傳播。若轉載請在文章開頭明顯註明「文章來源於微信訂閱號——大數據開放實驗室」,並保留作者和賬號介紹。

————————



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦