search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

這家數據公司為什麼能成為數百萬企業的選擇?

今年年初,Oracle發布了一份大數據變化趨勢報告,報告中指出,越來越多的企業將用戶分析甚至是企業應用同大數據加以結合。從AI支持型應用到Megabox等數據流客戶端,各家企業都將迎來自己的大數據轉型及下一代數據驅動型應用。Oracle亞太客戶體驗策略及轉型部門總監Krisi Mansfield也表示:「預見並了解了客戶的意向,並相應地採取行動之後,就可實現個人化(Individualization)」

目前,國內一批大數據企業都開始致力於此項技術的研究和探索——即圍繞用戶的使用過程來打造一對一的體驗。從已掌握的、能體現用戶在某個特定過程的數據入手,釐清這些數據將在接下來的哪些互動環節提供支持與幫助,從而據此制定具體的互動體驗。因此,這一過程也將改變企業開展業務的方式——從反應式到主動式和預測式。

大數據在量級、實時性、多樣性三項維度上的進程

圖片來源:

但總的來說,該項大數據應用還面臨著許多較大的技術難題。隨著數據渠道來源的多樣化、量級的巨幅提升和對實時性效果的需求增強,各家大數據公司該如何規劃技術演進的具體細節、技術架構又該如何設計和搭建……帶著這些問題,我們採訪了第三方全域大數據服務提供商【友盟+】COO葉謙,他也以【友盟+】的發展和技術演進為例,分享了合併后統一技術架構的一些經驗,闡述了當下大數據行業的痛點、難點和未來大數據的發展趨勢。

【友盟+】COO 葉謙

1

為什麼叫「全域數據」?

「全域數據」是否意味著「線上」、「線下」數據概念的模糊化?從PC端到移動端,從線上數據到線下數據,數據在不斷擴張的渠道中逐漸變得分散,只有把這些數據有效打通,才能讓大數據發揮其價值。

在葉謙看來,大數據時代,大家越來越多的發現A場景下的一些數據,在B場景也非常有用,所以數據的範圍在延伸,意味著企業也要將探尋數據的觸角進行拓展。這是全域大數據的基礎。但大部分時候,某一家企業或某一個組織,只擁有一部分或一方面數據,因此又很難把多個方面的數據收集、串聯起來。

於是,如何多渠道收集數據、如何實現跨屏數據打通、如何解析更多形式的非結構化數據等問題,正使全域數據面臨著許多不言而喻的挑戰。

移動互聯網剛在國內興起之時,企業對數據的認知或需求還處於初級階段,大多數只關心諸如留存、日活、新增量這類數據,一些規模較大的企業可能會附加更多維度的分析需求,比如對「各個渠道所帶來的量是多少」、「日活人群都是哪些類型」等不同程度的用戶細分需求。發展到今天,企業在任何一個用戶分區的維度上都希望獲取針對其用戶的、更細粒度的數據分析,如年齡、喜好、訪問頻度、地理位置等一系列用戶屬性。因此,【友盟+】現在的趨勢也在由數據統計、數據分析逐漸拓展到數據智能分析和數據深度挖掘。

那它基於一套怎樣的模型實現?這裡我們以U-DIP(【友盟+】數據智能平台)的運作原理來舉例。

(點擊查看大圖)

目前,【友盟+】的數據源主要來源於PC端、移動端、線下數據這三支渠道,而每一支渠道採集的數據種類又不完全一樣。比如PC端數據會更多的聚集於頁面跳轉、瀏覽時長、瀏覽器信息等,移動端數據包括使用APP應用的各類信息,而線下數據更集中在地理位置、移動路線等。這些數據會作為原始日誌進入存儲平台中。第二步就是通過預定義的規則抽取數據中的特徵信息,這些特徵信息都和設備(或人群)相關,並能通過一個大ID關聯庫進行打通。

另一方面,【友盟+】從各類信息中(網站信息,社交網路信息,應用市場信息等)構建關於APP和網站的知識庫。這些信息在第三步「深度加工」時,被輸入到機器學習演算法模型中,得到各種類型的人口學標籤和興趣標籤。這個過程中,海量數據還可被利用,進行設備質量和用戶真實性的識別工作,例如判斷哪些設備是風險設備(非正常用戶使用的設備,可能是作弊設備或者是虛擬機)。

北京大學新媒體研究院教授劉德寰也曾提出過,現在存在的很多標籤實際上都是偽標籤,未來進行有效大數據運算會有兩種路徑:第一,未來數據分析就是分析人,完善人的緯度。第二個路徑,對物的緯度探測,基於人的認知習慣。

2

與業務並進,技術該如何更新?

在業務的演進和縱深的情況下,需要技術在背後予以很大的支撐,同時也需要技術能與業務並進。【友盟+】在以下三方面進行了技術上的調整和優化:

數據採集端的演進、後端計算的優化

在數據採集端的持續積累和演進上,它從之前較為簡單的採集方案、採集協議,演化成今天所具備的如虛擬機探測方案等較為完善的反作弊方式。同時,隨著數據量級的擴增,後端計算也經歷了類似的演進,從最初較小體量的計算,到擁有上千台機器的大規模Hadoop集群,再逐漸遷移到阿里雲的StreamCompute、MaxCompute大型雲計算平台上,【友盟+】根據數據量大、計算複雜等特定情況進行了大量優化和改造。

不斷發展的過程,數據量也開始呈現指數型增長態勢,每年平均會翻好幾倍,再加上計算任務複雜程度和任務個數的提升,導致了後端計算的巨大壓力。早期時採用的是當時較為成熟且使用廣泛的一些開源框架,比如Hadoop、Storm、Kafka、Spark、Elasticsearch等。隨著業務的擴展,【友盟+】更多的採用了阿里雲方案,由於穩定性和成熟度等優點,阿里雲技術體系也在逐漸取代其曾經的開源系統。

將數據挖掘結果用於技術方案的優化

在數據累積的過程中,【友盟+】開始將數據挖掘的結果用於其自身的計算體系及技術體系優化。針對採集的海量網頁內容,技術團隊建立了一套數據模型體系,來區分哪些設備、哪些網站和哪些流量存在異常,比如監測出涉及作弊作弊的流量和客戶端 。對於電商、支付平台、O2O及互聯網廣告系統來說,反作弊在本質上發揮著反欺詐、杜絕虛假買賣、保證廣告主利益等作用。但作為一項核心技術,幾乎所有的公司都會對自己的反作弊技術諱莫如深,研發一套反作弊規則和系統也需要很深的技術積澱。

這一點上,【友盟+】的母公司阿里巴巴在電商反作弊已形成了一整套監控預警、識別分析、處罰管控的多維度監管機制,特別是在對虛假交易的數據監控和演算法識別上就應用了大規模圖搜索技術。因而【友盟+】在這方面有一些技術優勢和先天基因。去年的雙十一當天,【友盟+】監測到的廣告投放量達34億多,通過反作弊進行流量過濾后識別出約七千多萬條的異常點擊。而這一過程也相當於為廣告主節省了三千多萬廣告投放費用(按照0.5元一次點擊計算)。

3

多條業務線同步推進的情況下,如何統一技術棧?

【友盟+】在業務方向和技術架構上做的規劃和統一,同樣具有一些借鑒意義。

葉謙說,2017年【友盟+】將主要在三個維度上做新的業務規劃,一是互聯網應用數據業務,二是拓展新零售數據業務,三是發力廣告營銷數據業務。 技術方面的調整則會圍繞著技術棧統一來展開,主要有四點:開發語言統一,開發框架的統一,通用技術組件的統一以及底層平台的統一。統一的結果不僅能使開發效率提升、穩定性增強、運維成本降低,同時也能在一定程度上縮減核心硬體成本。

以統一開發語言為例,之前所採用的開發語言非常多,比如Python、Java、Scala、Ruby、PHP等。而統一后,所有研發團隊會獨立使用Java。在葉謙看來,Java是這幾種語言中相對最成熟,因而也會圍繞Java開發語言來選擇較為成熟的開發框架。例如,會統一使用Spring Framework作為前端開發框架。另外,在技術組件的統一上,【友盟+】也選擇了經過阿里集團多年雙11檢驗的、能夠承載大數據量高吞吐和高併發,具有極高穩定性和較大可擴展性的通用技術組件。2016年雙十一期間就用到了阿里集團提供的能支撐龐大數據量的一些通用組件,如:阿里雲的MaxCompute。

但總的來說,統一技術棧這件事在任何公司都不可能一蹴而就、一帆風順。在這個過程中,各技術團隊勢必會經歷一定程度上的心理鬥爭。因為對於任何技術人而言,改變他所習慣的語言、開發框架,就是對其舒適區的挑戰。如何讓不同的團隊成員走出原有的固定模式,認可技術棧統一的價值,形成統一的認識,是推動技術向前、個人成長的一個最重要的契機。

葉謙認為,當大家逐漸認識到技術棧統一的價值之後,後續的研發推動才能順理成章,比如:大家一起來選擇更成熟技術方案、更成熟的技術體系和更成熟的組件等。

4

用數據為客戶提供真正的價值

談到未來大數據的趨勢,葉謙認為主要會圍繞三點來進行。一是數據與垂直行業越來越緊密的結合,二是數據放開程度會提高、數據交換量會大大增加。當然, 在這一點上還需先解決數據安全提取的問題,這也是目前困擾大數據行業的難點之一。三是與人工智慧的結合產出,會更多的基於歷史數據對未來進行預測。

這三點同樣是【友盟+】發力的主要方向。葉謙希望,不管自己和團隊能走多遠,還是要回到原本的初心上——真正能用數據為客戶提供核心價值,解決他們在利用數據時遇到的困難。

提起印象最深刻一件事的時候,葉謙說起在去年【友盟+】的一個客戶,其數據指標曾出現了5%的波動,雙方先進行了半個多月的排查和異地討論,工程師直接到現場和對方一起工作、找出可能的原因點,回來再跟內部人士圍繞可能的情況加深分析,才得出了那個細微的導致問題產生的根源。雖然流程之繁瑣,但葉謙始終奉信「使命必達」,即使問題再棘手、再特殊,也需要做到客戶第一,最大程度上解決他們的需求,從而才能反省和提升自我。

放在團隊中,葉謙也更多的在企業文化中植入工匠精神,有意識的在工程師群體培養「客戶第一」的理念,鼓勵每個人發揮自己的主觀能動性,能執著、專註、踏實的在行業耕耘。「越是多變、浮躁的互聯網,越需要對業務和技術深挖,把根扎深,這樣才能找到自己的核心競爭力。對企業而言,也是如此。」葉謙如是說。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦