Zi 字媒體

乾貨 | 一份來自大數據的自我介紹！

2021/12/25

yidianzixun

來源 | 艾瑞諮詢（ID:iresearch-）

人人都在說大數據

，可對於大多數公司來說，大數據仍有很強的神秘色彩。本文以「數據」為根本，講述大數據背後的秘密！

▌艾瑞諮詢數據產品總監肖嘉敏：多屏時代，解讀用戶畫像和標籤系統

數據的分析與管理以原始數據為基礎，同時需要培養數據感覺、建立數據思維，不同的定義及分析方向不同，造成的結果和數字也不盡相同，所以我們用最複雜而有效的多方交叉驗證方式，提供豐富的維度和科學的方法。

一、用戶畫像與標籤來源

一般而言角色不同，做用戶畫像的目的也不盡相同：

廣告公司是為精準營銷，電商是為用戶購買更多的商品，內容平台是推薦更感興趣的內容，提升流量再變現。

用戶畫像的基礎就是標籤體系，那麼市面上的這些標籤體系到底是怎麼做出來的？

根據處理過程與獲取方式的不同，可以分事實標籤、模型標籤、預測標籤。

首先基礎為原始數據，即"誰，什麼時間,訪問了哪一個APP，打開了多少時間",此時可以獲取到用戶信息、產品信息、設備信息等原始數據，對這些原始數據進行直接提取，經過統計后就可以拿到事實標籤。

常見方式一般是通過帳號系統獲取基本屬性：用戶賬號，手機號，Email,甚至身份證等。之後通過抽獎活動，要求用戶必須填寫姓名、年齡，地區、性別等其他社會屬性，進行信息補充。

另一種為產品的信息瀏覽、搜索，通過統計分佈也可以得到事實標籤。這些方式的重點在於如何細分、交叉。

除了事實標籤外，另一種為模型標籤。

模型標籤具有人口屬性，現在的註冊流程非常簡單，通過手機號碼驗證，即可註冊成功。如果填過多信息用戶會感覺麻煩，降低了註冊量。所以此時可能只有註冊賬號，不存在上述的事實標籤。此時就需要一些模型去預測屬性，例如性別，年齡，學歷等，這些即為模型標籤。

最後一種叫做預測標籤，是指根據行為數據預測，近期可能會有的需求以及消費能力。這樣的行為就叫做預測標籤。

二、培養數據感覺，多方交叉驗證

以人群規劃——大學生人群為例。例如某產品定位為大學生人群是2880萬。這時候需要去查驗這個概念是否正確，此時，可能相關的數據有:

今年大學畢業生可能是700多萬；
今年聯考，全國招生可能是650萬；
全國有2879所高校，北京有100所高校；
研究所有多少？如果研究所數據規模太小是否會對數據量產生作用？

從這個數字錶明，專科和大學部加在一起，2780萬的數字基本符合。但是當看到別人的人群規劃中，大學生人群可能會有近5000萬，其實也是可以存在的。因為各自定義不同。如果在規劃大學生人群時，把應屆生畢業生和准大學生的這一屆也加進去，就會多加1500萬。關鍵的問題是怎麼核對，核對之前要搞清定義，多方數據下相互驗證，才知道這個人群到底有多大，到底對與不對。

三、跨屏媒介分析與受眾管理

所以，基於標籤體系和人群我們打造了一款跨屏的媒介計劃產品xMediaPlanner(XMP)，

核心看點：跨屏多媒介(移動應用，移動視頻，PC網站，PC視頻)
核心內容：多維豐富的標籤體系(8大標籤維度，30個標籤大類，近1000個標籤)
核心目標：助力媒體公司更全面的發現自己的優勢; 幫助廣告公司更精準的廣告投放。

基於艾瑞海量終端用戶行為數據，用規則識別，機器學習等方法進行用戶屬性，習慣，興趣，偏好等的知識挖掘，形成強大的人群規劃用於用戶畫像與媒介計劃。以助力媒體公司了解自身、發掘商機，幫助廣告公司精準投放、高效變現。

XMP產品橫跨移動手機、智能電視、PC電腦三大終端，支持應用、視頻、網站媒介的跨屏分析，括8大標籤體系，30個標籤大類，近1000個標籤。

▌艾瑞諮詢產品總監李磊：數據能力共享

數據源、數據工程能力以及數據挖掘能力沒有哪個更為重要，三方相輔相成，同時也根據不同產品、不同定位隨需而變，艾瑞一直在努力嘗試滿足用戶多方位的需求。

人們一直在聊大數據、DT時代，我們發現除了數據寡頭，各級政府、一些相關的機構都積累了大量的跟我們生活中息息相關的海量數據資源。市面上有較多免費的基礎數據產品，但數據資源是稀缺的。

我經常會被問到「你認為數據源、數據工程能力以及數據挖掘能力，哪個是第一位的？」，這個問題對於不同的公司來說，答案肯定會不一樣。

我首先要強調一點，共享不等於免費。是什麼原因阻礙了數據能力共享的？

第一，在沒有相應法律政策引導下，從業人員會擔心數據共享引起的信息安全問題，數據泄密失控，對開放有恐懼。除了6月1號開始試行的《中華人民共和國網路安全法》之外，之前參考的更多是條例、辦法、規定。比如互聯網信息管理辦法以及互聯網個人信息保護規定。

這是一個非常現實的問題，從業人員都會有這個擔憂。對於數據共享或者數據的開放造成的影響是不可避免的。隨著進一步的媒體宣傳大家對於數據有了敬畏之心，看到第一反應是說「什麼事情我能做，什麼事情我不能做」，第二就是數據的壁壘。數據一旦出門就失去了壁壘，這樣的短線操作存在極大風險。這個擔憂當然是有道理的。這也是目前很多data bank , data broker 在不停嘗試努力並且要解決的問題。

除此之外，數據源五花八門，演算法能力層次不齊，如何實現數據對接也是重中之重。以畫像標籤為例，某家的年齡標籤是18-23，另一家是19-24，給你幾個不同數據源標籤畫像，怎麼使用？不同家標籤對接方式也不一樣。

關於數據對接，畫像系統輸入的先決條件大都以客戶提供ID包為主，每一個群體畫像查詢都應該有一個查詢主題。例如某服裝品牌的人群畫像、某部綜藝節目女性觀眾的的APP使用習慣等等。然而，畫像系統輸入條件是ID包，這也是很多用戶面對的難題之一。而艾瑞可以提供服務群體畫像的ID包，或者當客戶提供ID包時，我們可以ID-mapping.

當有多個數據源能力單元以及多個數據合作夥伴時，如何正確選擇準確的標籤，同時選擇性價比最高的標籤使用呢？

艾瑞會提供相同標籤不同源之間的評估，合併后輸出結果。

對於所提到的ID級數據，首先ID級不是輸出ID的，在這裡主要是強調和之前產品的一些區別，非配比、非推及、非調研的方式打造的ID級數據產品。不涉及配比的方式，不涉及推及的演算法。比如，APP活躍畫像標籤一定是第一步夠建的人群所對應的結果，而並不代表這些APP在網民的排名。

同時要了解的是，數據能力共享不是數據共享，不是把原始的數據生產資料發布出來。簡單來說，假設所有人能夠同時利用辨析畫像能力，以及其他的頭部數據源的畫像能力，進而，允許你去選擇所想要的標籤。即便如此，由於場景不同，還需要第三方去驗證每個標籤的質量，統一整合之後發布，這樣才會使得事半功倍、並且高效。

基於艾瑞提供的服務，即可無需冒著各種風險大量採購數據，也無需招人完成數據工程能力。艾瑞1000個ID起查，群體結果輸出，不涉及個人隱私。同時規避數據留存問題，群體畫像針對客戶所構建的人群實現一次性結果。

群體畫像能力共享的前提是艾瑞DMP提供多種方式構建人群。特別是傳統企業，除了CRM里的手機號，通常沒有其它可供分析的ID包。

而艾瑞將數據分IOS、安卓、PC端等；人群劃分出核心人群、競品人群、潛在人群、沉默人群等。同時，艾瑞支持的方式有：一方ID、預設人群、標籤DMP、APP定向，活躍域名，視頻人群，地理圍欄等方式構建人群。同時，內部研究團隊會根據不同情況，設定不同特殊人群。

綜上來說，艾瑞對於受眾管理和受眾洞察有完整及豐富的處理經驗。簡單來說，受眾管理在產品里的體現是利用艾瑞DMP構建目標人群，生成ID包；而受眾洞察在產品的體現是基於已構建的ID包，對接艾瑞以及數據合作夥伴的畫像能力去完成畫像服務。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點