search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

大數據應用之「畫像」

隨著大數據技術的備受關注,有關「用戶畫像」、「商品畫像」、「產品畫像」、「資產畫像」……的討論就不絕於耳。那麼,究竟什麼是畫像?又如何進行畫像建設與畫像分析呢?我們就從以下幾個方面,著重探討一下。

1、什麼是畫像?

用戶畫像,被定義為一種抽象出用戶信息全貌的手段。

舉個簡單的例子,某個客戶的特徵描述為:500強企業,媒體行業,旗下產品覆蓋網站、APP、微博、微信等埠,擁有受眾9億+,這就是一個典型的用戶畫像,我們據以便可以知道其存在大數據方面的需求。如果用一句話來描述,即:用戶信息標籤畫。

大數據的時代背景下,畫像被認作為企業應用大數據的根基,並直接跟企業經營能力、競爭優勢的打造聯繫在一起。

有評論指出,要看一家企業的數據化運營程度,首當其衝地要看其「畫像」構建情況:是否建設了「畫像」?「畫像」體系構建程度如何?針對什麼對象進行了畫像?構建畫像的各種標籤與指標情況如何?有沒針對已建立起來的」畫像」的應用?應用情況如何?等等

2、為什麼要進行用戶畫像

這跟用戶行為識別及數據應用直接相關。

各行各業都期待著,用戶能主動告訴我們,他們的行為偏好。然而,事實既總非如願,技術實現也非如此簡單:首先,用戶用以描述興趣的自然語言很難為自然語言理解技術所理解;其次,用戶的 興趣是不斷變化的,無法不停地提供興趣描述;最後,很多時候用戶並不知道自己喜歡什麼,或很難清楚描述出自己喜歡什麼。

於是,我們需要通過演算法自動發掘用戶行為數據,從用 戶的行為中推測出用戶的興趣,從而給用戶推薦滿足他們興趣的產品和服務,而畫像,就是其中最重要的應用之一。

畫像,通過為用戶打標籤的方式,使計算機能夠程序化處理與人相關的信息。

如用戶信息的分類統計:喜歡魅族的用戶有多少?喜歡魅族的人群中,男、女比例是多少?如用戶數據的挖掘工作:利用關聯規劃計算,購買該種商品的用戶還購買了什麼產品?利用聚類演算法分析,喜歡該種產品的人年齡段分布情況如何等等?

3、構建用戶畫像的關鍵是什麼?

從畫像與標籤的關係也可以窺見一斑,標籤是畫像建設的關鍵。同時,它也是大數據技術場景化的關鍵,因為如果沒有針對場景構建出來標籤,大數據的應用往往就很難「落地「。

一個標籤通常是人為規定的高度精鍊的特徵指標,如年齡段標籤:25-35歲;地域標籤:北京、上海;設備標籤:PC、移動;性別標籤:男、女等等。

標籤呈現出明顯的語義化與短文本的特徵:語義化,人能很方便地理解每個標籤含義,使得用戶畫像模型具備實際意義,能夠較好的滿足業務需求;短文本,每個標籤通常只表示一種含義,標籤本身無需再做過多文本分析等預處理工作,這為利用機器提取標準化信息提供了便利。

制定標籤要遵循一定的規則,既要涵蓋重要信息,又要方便機器做標籤提取、聚合分析。

案例:用戶的商品價格偏好標籤建設過程

以某公司構建用戶消費偏好畫像為例,我們需要根據具體場景下用戶的選擇行為,將用戶偏好畫像拆分成幾個不同數據標籤:

以價格偏好為例,也就是說用戶的在購物時候偏好於哪個價格帶的商品。對於價格帶的偏好,構建步驟如下:

取用戶歷史購買消費記錄,統計用戶歷史購買商品的價格,然後對價格進行區間劃分。看用戶購買的價格帶主要集中在哪個區間中(價格帶偏愛應該是一個相對動態的標籤,更新頻率可能一個月需要定期更,而且選擇的時間段也應該是過去某個時間,不應該選擇過長時間段。大家想想為什麼?)。如何進行價格區間劃分?

方法一:按統計學的方法

1、按分位數進行。例如:25%,50%,75%

2、按等箱原則。劃分幾等分

3、看數據的分佈。

4、……

方法二:按業務知識經驗

把價格帶按業務經驗,行業經驗進行劃分。

通過數據統計出來,我們可以看用戶是否商品單價是否集中的某個區間範圍內。例如,某用戶購買的商品價格主要集中在30到40這個區間內,根據歷史顯示可以說,用戶可能偏好於購買這個價格帶的商品。當未來我們需要做促銷商品推薦的時候,可以向該用戶重點推薦打折后在這個價格區間的商品。

通過用戶購買的價格區間,以及結合商品所歸屬的品類,可以看這個價格區間在這個品類中屬於什麼級別的。可以進一步給用戶打上:注重品牌、注重高性價比等標籤。

例如:如果某個品類商品的價格範圍是(5,40],該用戶購物商品主要集中(30,40]這個商品價格區間,用戶在這個品類的消費上都是最高價格區間,說明這個用戶在購買這個品類主要購買的高端商品。這樣又可以為這個用戶打上在這個品類的消費特徵標籤:品類高端用戶。

4、構建用戶畫像的方法

從上面案例中,我們可以抽象出構建用戶畫像的方法,即用戶畫像模型的構建方法。

一個事件模型包括:時間、地點、人物三個要素。每一次用戶行為本質上是一次隨機事件,可以詳細描述為:什麼用戶、在什麼時間、在什麼地點、做了什麼事。

其中用戶的屬性識別關鍵在於對用戶的標識,用戶標識的目的是為了區分用戶、單點定位。時間的屬性包括兩個重要信息:時間戳和時間長度,時間戳指的是標識用戶行為的時間點,通常精確到秒;時間長度指的是標識用戶的停留時間。地點的屬性也就是用戶接觸點,在互聯網上,用戶的接觸點就包括了網址和內容兩個重要信息。

用戶行為屬性有不同的類型,結合接觸點的內容產生的標籤信息,具有不同的權重。用戶畫像的數據模型可以概括為這樣一個公式:用戶標識+時間+行為類型+接觸點(網址+內容),某個用戶在某個時間、某個地點做了什麼事情,就會被打上一個既定的標籤。而用戶標籤的權重可能隨時間的增加而衰減,因此定義時間為衰減因子,行為類型、網址決定了權重,內容決策了標籤,可以認為公式轉變為標籤權重=衰減因子×行為權重×網址子權重。

通過這樣的計算才能夠構建用戶畫像模型,進而能夠逐步細化模型,從而最終製作出一個精準的用戶模型。而每一個精準的用戶模型都能夠根據用戶不斷調整的互聯網行為進行更新,從而精準把握用戶心理,為每一個用戶提供最完美的精細化服務,全面提升客戶感知,最終實現客戶滿意度的不斷提升。

<END>

更多大數據技術乾貨,公眾號(ID:9z營銷大數據)不容錯過!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦