3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
DAliData本內容出自《大數據之路:阿里巴巴大數據實踐》,轉載請註明阿里數據。點擊閱讀原文獲取本章全部閱讀信息。大數據之路阿里巴巴大數據實踐 連載作者簡介阿里巴巴數據技術及產品部。定位於阿里集團數據中台,為阿里生態內外的業務、用戶、中小企業提供全鏈路、全渠道的數據服務。作為阿里大數據戰略的核心踐行者,致力於「讓大數據賦能商業,創造價值」。現在,阿里巴巴數據技術及產品部正通過技術和產品上的創新,探索全域數據的價值,將阿里在大數據上沉澱的能力對外分享,為各行各業的發展帶來更多可能性。01本章內容摘要 數據採集作為阿里大數據系統體系的第一環尤為重要。因此阿里巴巴建立了一套標準的數據採集體系方案,致力全面、高性能、規範地完成海量數據的採集,並將其傳輸到大數據平台。本章主要介紹數據採集中的日誌採集部分,阿里巴巴的日誌採集體系方案包括兩大體系:1)Aplus.JS是Web端( 基於瀏覽器)日誌採集技術方案;2)UserTrack是APP端(無線客戶端)日誌採集技術方案。本章從瀏覽器的頁面日誌採集、無線客戶端的日誌採集以及我們遇到的日誌採集挑戰三塊內容來闡述阿里巴巴的日誌採集經驗。02 (1)頁面瀏覽(展現)日誌採集顧名思義,頁面瀏覽日誌是指當一個頁面被瀏覽器載入呈現時採集的日誌。此類日誌是最基礎的互聯網日誌,也是目前所有互聯網產品的兩大基本指標:頁面瀏覽量(Page View,PV)和訪客數(UniqueVisitors,UV)的統計基礎。頁面瀏覽日誌是目前成熟度和完備度最高,同時也是最具挑戰性的日誌採集任務,我們將重點講述此類日誌的採集。(2)頁面交互日誌採集當頁面載入和渲染完成之後,用戶可以在頁面上執行各類操作。隨著互聯網前端技術的不斷發展,用戶可在瀏覽器內與網頁進行的互動已經豐富到只有想不到沒有做不到的程度,互動設計都要求採集用戶的互動行為數據,以便通過量化獲知用戶的興趣點或者體驗優化點。交互日誌採集就是為此類業務場景而生的。除此之外,還有一些專門針對某些特定統計場合的日誌採集需求,如專門採集特定媒體在頁面被曝光狀態的曝光日誌、用戶在線狀態的實時監測等,但在基本原理上都脫胎於上述兩大類。03無線客戶端的日誌採集眾所周知,日誌採集多是為了進行後續的數據分析。移動端的數據採集,一是為了服務於開發者,協助開發者分析各類設備信息;二是為了幫助各APP更好地了解自己的用戶,了解用戶在APP上的各類行為,幫助各應用不斷進行優化,提升用戶體驗。無線客戶端的日誌採集採用採集SDK來完成,在阿里巴巴內部,多使用名為UserTrack的SDK來進行無線客戶端的日誌採集。無線客戶端的日誌採集和瀏覽器的日誌採集方式有所不同,移動端的日誌採集根據不同的用戶行為分成不同的事件,「事件」為無線客戶端日誌行為的最小單位。基於常規的分析,UserTrack(UT)把事件分成了幾類,常用的包括頁面事件(同前述的頁面瀏覽)和控制項點擊事件(同前述的頁面交互)等。對事件進行分類的原因,除了不同事件的日誌觸發時機、日誌內容和實現方式有差異之外,另一方面是為了更好地完成數據分析。在常見的業務分析中,往往較多地涉及某類事件,而非全部事件;故為了降低後續處理的複雜性,對事件進行分類尤為重要。要更好地進行日誌數據分析,涉及很多方面的內容,如需要處理Hybrid應用,實現H5和Native日誌的統一;又如識別設備,保證同一設備上各應用獲取到的設備信息是唯一的。除此之外,對於採集到的數據如何上傳,以及後續又如何合理處理等,每個過程都值得我們進行深入的研究和探索。04日誌採集的挑戰對於目前的互聯網行業而言,互聯網日誌早已跨越初級的飢餓階段(大型互聯網企業的日均日誌收集量均以億為單位計量),反而面臨海量日誌的淹沒風險。各類採集方案提供者所面臨的主要挑戰已不是日誌採集技術本身,而是如何實現日誌數據的結構化和規範化組織,實現更為高效的下游統計計算,提供符合業務特性的數據展現,以及為演算法提供更便捷、靈活的支持等方面。這裡介紹兩個最典型的場景和阿里巴巴所採用的解決方案。點擊[原文閱讀]可閱讀本章全部信息。1.日誌分流與定製處理2.採集與計算一體化設計▲數據處理全鏈路《大數據之路:阿里巴巴大數據實踐》為2017年阿里巴巴數據技術及產品部集合了團隊內多位數據一線工作者彙編而成,全面系統介紹阿里巴巴大數據系統架構。回復:書籍,可以獲取相關購買信息。◆END阿里數據[AliData]_阿里數據中台官方賬號大數據 賦能商業 創造價值阿里巴巴數據技術及產品部阿里數據中台唯一官方賬號近距離了解數據在阿里的點滴進程

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦