Zi 字媒體

講堂| 謝幸：用戶畫像、性格分析與聊天機器人

2021/12/25

yidianzixun

你離成為人工智慧專家，還有多遠的距離？

近日，四位來自微軟亞洲研究院的AI大咖在科技大學進行了一場以「開啟智能計算的研究之門」為主題的前沿分享。這四位嘉賓分別是：

● 首席研究員劉鐵岩——人工智慧的挑戰與機遇

● 首席研究員童欣——數據驅動方法在圖形學中的應用

● 首席研究員曾文軍——當機器學習遇到大視頻數據

● 資深研究員謝幸——用戶畫像、性格分析與聊天機器人

在接下來的一周里，我們會陸續在本賬號中發布這四位研究員的演講視頻及精彩內容，希望這些關於前沿技術的思索能夠開啟屬於你的智能計算研究之門，敬請期待吧！

昨天我們發布了劉鐵岩博士的演講——人工智慧的挑戰與機遇。

第二位與大家分享的是謝幸博士的演講——用戶畫像、性格分析與聊天機器人，全文如下（文字內容略有精簡）。

我今天講的題目叫用戶畫像、性格分析與聊天機器人，看起來這三個辭彙好像互不相關，但其實它們有很強的聯繫。而這三個詞也總結了我們微軟亞洲研究院社會計算組最近幾年所做的一些研究工作。

首先，之前講了很多大數據，大數據裡面有一類很重要，那就是用戶產生的大數據，什麼叫用戶產生的大數據呢，就是我們每天的行為都會被用數字的方式記錄下來。比如手機的各種APP，手機上定鬧鐘等等，這些都會記錄下手機上的一些行為。再比如坐計程車、坐公車，也都有一些記錄，這些軌跡可以用在後續的一些改善服務，或者用在一些數據挖掘裡面。

再比如用社交網路，在社交網路上，給商家、餐館或者商店寫的評論，打的分，或者給電影、書籍寫的評論，這些都會被記錄下來，可以用來分析一個人的興趣愛好，從而做一些推薦。

大家可以想象，當用戶數據越來越多的時候，實際上我們可以非常全面地去了解一個人。過去幾年我們一直在做用戶畫像，用戶畫像可以有很多維度，比如個人屬性，年齡性別等。還有性格，性格有很多種分法，實際上我們也是在想怎麼通過用戶的數據去看用戶是什麼樣的人。當然，有很多人是研究用戶興趣，興趣直接就可以用來做推薦，做廣告。還有，比如用戶當前的狀態，用戶的社交關係，用戶未來的計劃，我們可以做一些預測。

用戶畫像可以做很多維度，而每個維度又可以做很多事情。當然，要做這樣一個用戶數據的研究，首先需要有用戶數據，到底從哪裡去獲取用戶數據，大概四年前，我們在中文的社交網路上搜集了一個比較大規模的用戶數據集，叫LifeSpec，很多跟我們合作的學校的老師們都已經用這個數據集和我們做過一些聯合的研究。

LifeSpec包括比如照片、評論、用戶自己填寫的個人屬性，或者簽到過的地點等。但這裡強調的是我們試圖把同一個用戶在不同網站上的數據連接到一起，如果可以聯繫到一起，那麼就可以非常完整地去了解這個人。我們搜集了大概140萬個用戶的數據集，要求一個用戶至少有一個跨網路的數據。

通過這樣一個數據集可以做很多以前做不了的事情。比如做一些跨網站的用戶畫像，看豆瓣上的信息，是不是能猜到用戶在微博上的行為，或者通過地點來推測個人屬性等。這個以前做是比較困難的，因為這樣的數據並不存在，但現在就可以做這樣的事情。這個數據大概有5000多萬條，有社交關係的有300多萬條，還有將近4000萬條位置數據。

這個表展示了在不同城市的數據，因為用戶填寫了很多城市，有了這個數據集，就可以做很多研究。比如做位置預測，位置預測本身並不是一個新的問題。而我們關注的是分析用戶，如果是遊客或者是本地人，他們有什麼樣的區別，通過這個數據我們發現了不同，甚至還可以用這些不同來猜測一個用戶是不是真正的本地人。因為在人口的遷徙是非常多的，這樣一個遷徙所帶來的人的行為變化，很多時候反應了一些社會問題，所以之前有很多媒體十分關注我們的這個研究，而這還可以做很多下一步的研究。

如果有這麼多用戶的位置數據，我們是不是能夠通過用戶的位置數據來給用戶畫像呢？實際上這個工作在之前做的比較少，因為這樣的數據並不多，所以沒法來評測演算法好不好。而我們這個數據集就可以用來做這件事情，我們可以去看這些位置的簽到和用戶的屬性之間到底有什麼樣的聯繫。

比如有兩個人，第一個在中關村上班，他住在機場附近的別墅，經常出沒於美國。第二個人經常在街邊的小餐館吃飯，又經常去圖書館，周末可能還去KTV，那麼第二個人可能更像是一個學生。這樣的區別，我們實際上是可以通過數據來發現的。也就是說我們希望通過用戶去過的地點，來把用戶的屬性猜測出來，比如年齡，性別，甚至教育程度。

這裡其實我們就關注三點，第一，我們可以知道用戶的移動規律，移動規律就是用戶每天早上去哪，晚上去哪，周末去哪，平時去哪等，這樣的時間規律對於區分用戶很有用。

第二個，是地點的規律性，每個人都有一些常去的地點，大部分人的常去地點是家，另外一個是工作單位。當然，還有經常去的商場、餐館，通過常去的地點以及時間也可以來對用戶進行分類。

我們又加上一些額外的知識——位置知識，就是去過的這些地點，如果只把它當作一個地圖上的點來看，信息量太少了，但把這個地圖本身的知識加進去，比如前面講的，住在機場附近，或者工作的地點在中關村等等，這個信息量很大，我們可以用這些信息來幫助做判斷。最後把這三方面的信息結合起來，就可以更準確地判斷用戶的各種屬性。

我們之前做了很多用戶畫像的工作，比如，通過用戶的數據，我們能不能進一步知道用戶的性格。要了解性格首先要有一些用戶，我們能夠知道他的性格，又有他的數據，而這件事情在過去很難獲取，因為很少有這樣規模的數據。

為了做這件事情，首先我們去看到底什麼叫性格。性格的分類科學存在於心理學，我們了解到2000多年前，古希臘有一個醫學家開始研究性格，他認為人體是由四種體液構成，包括血液，黏液，黑膽汁和黃膽汁，而這四種液體的分佈決定了人的性格。他基本上把性格分為兩個維度，一個維度是外向、內向，另外一個維度是情緒化和不太容易情緒化。

到了100多年前，近代的心理學家們從語言出發來研究人的性格。他們發現如果要研究性格，首先這個性格一定要能用語言來描述，這個叫做辭彙學假說。比如說一個人是否非常健談，是否非常冷靜，冷靜或者健談這樣的辭彙實際上就是一個很概括的性格的一種分類。

通過查看詞典，心理學家找到了4500個可以描述人性格的詞，並在此基礎上進一步縮減、歸類，總結成五個維度，叫大五人格。

大五人格的五個維度，每個維度可以再細分成六個小的維度。要了解一個人，一般來說會先邀請這個人來做問卷調查，之後通過答案去計算他的大五人格是什麼。但問卷調查的方式很多時候很主觀，有的用戶他也不知道自己是不是比較健談，有的比較外向的人，會謙虛說自己比較內向，所以其實很不準確。

怎麼樣能做到準確呢？實際上，用觀測的方法，比如別人的評價，或者基於很多數據的評價，因為觀測和自己的理解是不太一樣的。

前面我們講，我們已經有很多用戶數據了，通過這些用戶數據其實就可以來觀測一個人，通過這些觀測再來算出人的性格實際上是可行的。

最近幾年有一些這樣的工作，2013年微軟和劍橋大學合作的一個工作，當時就通過Facebook上的數據集來計算Facebook上點贊這個信息和用戶性格之間的關係。

我們進一步做了研究，發現用戶的數據有很多來源，不光是點贊，還有文本的信息、圖像，尤其是用戶自己上傳的頭像，還有喜歡用的表情符號、對話聊天的規律，以及用戶自己填寫的個人屬性，因為這些數據在我們LifeSpec數據集裡面都有，我們就可以把它聯合在一起來做這件事情，而不只用某一個角度的特徵。

所以針對每一種類型的數據，我們都用了一些最新的方法來做計算特徵，最後用集成學習的方式來得到最後的結果。

舉幾個例子，針對文本當然可以做很多事情，前面講了有大五人格，我們可以看這些文本跟每個維度的關係。

外向性高的人喜歡在微博里寫青春、自我、突然，而外向性低的人會寫面對、特別、失敗、做好。我們可以發現他們用的詞的確很不一樣。

再來看用戶的頭像，我們發現頭像和性格之間也有一定的聯繫，比如外向性高的人頭像會有卡通，或者表情很誇張。外向性低的人，會用下面這些頭像，但這只是一些典型的例子，並不是說所有人都用這個頭像。這裡面其實也可以用到很多人臉識別或者物體識別的技術。

第三部分就是聊天機器人。我們做聊天機器人是在想用戶畫像還有性格分析這樣的結果到底有什麼用途。我們發現現在聊天機器人都有一個特點，它很多時候是用群體的數據來訓練的，最多能做到像一類人，但是不能像一個具體的人。

怎麼才能夠讓它像一個具體的人呢？這裡面首先的難點是某一個人的數據很難獲取。我們需要這個人的聊天數據，如果我們能獲取某一個人的數據，那麼實際上我們就可能訓練出跟他很類似的一個聊天機器人。

在《黑鏡》的第二集里就講到一個未來的人工智慧公司用聊天數據和社交網路數據訓練出了一個跟死去的人一樣的機器人。2016年，一位俄羅斯的創業者用他已故朋友的8000條簡訊訓練了一個聊天機器人。

但是如果數據不夠多，那麼是不是能通過具有某種特點的一群人的數據集來訓練出具有一類人特點的機器人，比如兒童，學生或者詩人等，讓人感覺到這個機器人具有某一種性格或者特點。這個工作是我們最近在研究的。另一方面，我們也在關注到底做這樣的聊天機器人有什麼用途，其中一個應用就是心理治療，為什麼關注這個，實際上也是受啟發於50年前的項目。

1964年，有一個很有名的項目叫Eliza，很多人講人工智慧的時候都會提到這個項目，Eliza就是一個很早期的聊天機器人，在當時它的效果非常好，以至於很多人都認為是真人在背後操縱。

Eliza實際上做的就是心理諮詢師，也就是說這個聊天機器人可以跟人聊天，試圖幫助緩解心理問題，它當時採取的一個心理治療的方法叫羅傑斯流派的方法，比較強調傾聽，所以這個機器人很多時候是在聽你說什麼，而不是在回答問題，它一直在引導人說話。這件事情相對來說比回答問題要容易，但是效果非常好。

基於這個項目，我們受到了啟發，想結合最新的技術來做這件事情。首先我們也是試圖去引導對話，讓用戶更多來說自己的事情，這其實是很多心理諮詢裡面很重要的一點。

當然，在這個基礎上，我們進一步去研究，包括通過聊天的數據，也通過用戶本身，如果能獲取其他的數據，研究用戶的心理特質和精神的一些問題，來看看將這些數據結合到一起更準確地做出判斷。

再進一步，我們想除了傾聽，是不是還可以通過聊天的方式幫助用戶緩解問題。比如採取最新的認知行為療法以及正念療法等心理學的技術，把它集成在聊天里，這也是我們最新的一些嘗試。

總結一下，今天講的是我們社會計算組裡面最近主要做的幾個方向，我們從用戶畫像到性格分析，也做了很多情感的分析，也試圖把結果用在聊天裡面，看看能不能讓聊天機器人具有自己的性格和特點；再來，我們希望聊天機器人也能用在一些心理諮詢的場合。當然這裡面涉及到很多跟其他領域學者的合作，包括心理學，社會學以及認知科學。我們社會計算組是一個跨學科的領域。希望未來可以和更多學科交流，獲得更多研究上的靈感和創新。

謝謝大家！

你也許還想看：

演講|謝幸：如何讓機器擁有像人一樣的思維？
觀點|謝幸：尋找人工智慧研究中的結構洞
觀點|宋睿華：好玩的文本生成

觀點|張富崢：也許沒有人比人工智慧更懂你？

感謝你關注「微軟研究院AI頭條」，我們期待你的留言和投稿，共建交流平台。來稿請寄：[email protected]。微軟小冰進駐微軟研究院微信啦！快去主頁和她聊聊天吧。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點