search
【數說】47萬微信群、2億微信用戶,背後數字規律揭秘

【數說】47萬微信群、2億微信用戶,背後數字規律揭秘

錢塘號官網:

本文作者:新智元

微信群已經進入到我們的日常生活中,成為社交關係的主要紐帶。但微信群有自己的規律,長期群能存活很長的時間,臨時群則轉瞬即逝。來自清華大學、康奈爾大學、騰訊公司和香港科技大學的研究人員採用了機器學習演算法分析了47萬+的微信群、2億+微信用戶、6億+的好友關係和200萬+邀請記錄,揭秘微信群背後的數字以及 9 大規律。

論文首先分析了474,726個群樣本的生命周期分佈。由於數據收集日期處於2015年7月26到2015年8月28日,在觀察期內一個群可以擁有的最長生命周期是34天。

微信群九大規律

1.每一天,約有 230 萬的微信群新創建。

2.大約 25% 的微信信息,來自於群對話。

3.微信群的生命周期,很大程度取決於設立時候的社交目的:例如事件驅動的群組相對於經常聚會的朋友群,有更高消亡的可能性。

4.微信群可以分為長期群和臨時群。其中 40% 的群在一周之內變得默默無言,30% 的群能夠存活超過 30 天。

5.長期群往往擁有較大的規模,而臨時群的規模往往在 100 人以內。

6.儘管臨時群會在某個時刻停止信息互動,但是群成員仍然會發展友誼。在稍長的時間內,對潛在朋友網路結構產生影響。

7.長期群相比臨時群,長期群10% 的邀請出現在至少第 3 層的關係;對於臨時群而言,只有 1% 的邀請出現在第 3 層。

8.微信群的邀請對時間高度敏感。80% 的首次邀請發生在邀請人入群的 5 天之內,80% 的連續邀請發生在 2 天的時間間隔。

9.30% 長期群的節點,有超過 10 個子群的大小;而只有 10% 的臨時群的節點有超過 10 個子群的大小。

摘要

社交即時信息服務,作為人與人之間日常生活聯繫與交流的一種變革形式,它的出現作為社交群形成的催化劑,為人們帶來更強的社交體驗。然而,研究團體對社交信息背景下群的形成與發展情況知之甚少-群的生命周期,基礎結構的不斷變化,以及發展新會員的傳播過程。

在本文中,我們對來自微信群信息平台-最大的獨立信息交流服務平台-每日使用日誌進行了分析,力求弄清楚社交信息群如何形成,發展新成員及不斷發展的過程。具體來說,我們發現了群與群之間所存在的很明顯的生命周期兩分法,充分考慮群層面廣泛的特徵之後,開發了一個可分離模型,證明了長期群與臨時群本質上的不同。我們也發現了信息群組的生命周期大大取決於它們在用戶日常社交體驗及特定目的上所起到的社會職責與功能。在長期群與臨時群存在明顯可分性的前提下,我們進一步解決了困擾我們對成功社區進行早期預測的問題。

除了從群層面來對群的成長與發展進行建模,我們也研究了群成員個人層面的屬性,學習了群發展新成員的傳播過程。通過充分考慮成員的歷史履約行為及所處在的當地社交網路結構,我們開發了一個成員級聯模型,展示了模型的有效性,實現了邀請人預測95.31%的AUC及受邀人預測98.66%的AUC。

引言

即時信息服務的出現與興盛已經塑造並改變著人與人或一群朋友之間聯繫及溝通的方式,為用戶帶來了多樣化、無處不在的體驗,這是傳統以文字為基礎的簡訊服務(SMS)無法企及的。例如,WhatsApp是全球最流行的信息服務商,擁有每月超過9 億的活躍用戶(MAUs);微信是最大的信息服務商,擁有6 億的活躍用戶(MAUs))。透過圖片、視頻、位置信息、音頻及文字信息,這些工具已經豐富了人們的溝通方式。更重要的是,它們也促進了社交群組的形成,較傳統短訊信息而言,為人們帶來了更強烈的社交感受。

雖然過去的研究已經對群組形成及發展的動態性進行了大規模的學習,但是大多數的研究受到所處的社交網站的在線社團體背景的限制,這與我們所看到的以社交信息為背景的團體有著本質上的不同。之前的研究[12]表明,就絕大多數社交工具使用者而言,在他們的生活中,即時群信息的發明與使用,相較其他群層面的社交形式更頻繁,更習慣性的發生著。從生命周期角度來看,社交信息群有著較短的生命周期,從幾個小時到幾個月不等。這與Reddit[8] 及臉書(Facebook)[29] 等社交網站上所看到的存在數年的網上群組情況恰恰相反。此外,所有聊天群的默認設置是只對群內成員可見,並以只接受邀請入群的形式不斷發展。例如,受邀入群的新成員一定是位於群網路邊緣(現有群成員的直接鄰居)用戶,因此成員級聯過程更加具有本地依賴性,現有群成員是單向性傳播的主要力量。這非常不同於早前文獻提及的在線團體傳播與成長模型,雖然用戶不是現有任何群成員的朋友,但是可以自主決定是否加入其中。

研究人員最近已經開始從社交科學的角度來解釋群聊行為和過程,儘管不能從現有文獻中得出行之有效的實證測量與說明。大部分挑戰源自恰當數據集的匱乏,我們需要收集擁有足夠時間變數的海量信息群,以便我們能夠對信息群的出現、成長及消亡過程不斷進行追蹤。另外一項挑戰是去制定一個有效的模型來對群不斷發展的多樣化複雜過程進行描述及量化。這導致了研究人員對諸如生命周期,基本結構的改變,以及發展新成員的級聯過程等社交信息知之甚少。

為了解決這些問題,本文中,我們分析了來自微信群聊平台每日使用日誌-由騰訊開發的最大獨立聊天溝通服務-為了實現理解社交信息群的形成、發展新會員以及逐漸演變的過程。據我們所知,這是迄今為止對聊天群動態性進行的最大規模的分析。微信允許用戶通過互聯網時時發送及接受多媒體信息。微信最重要的特徵是任何用戶都能夠創建一個新的群並邀請朋友加入,請注意,這樣的群只接受邀請,這意味著如果沒有收到來自群的邀請,其他用戶(朋友)不能夠申請入群。群組在微信中發揮著至關重要的作用。據數據顯示,大約有25%的微信信息是群對話產生的。另一方面,群是非常動態性的。

每一天,約有2,300,000的新群被創建,有約40%的新創建的群在一周之內變的默默無言。我們會在第3部分闡述關於微信數據集及微信的機制的詳細信息。

目前的工作:社交信息群中的生命周期兩分法

在本文中,我們致力於透過觀察及從生命周期角度對兩類型群(長期群及臨時群)進行概念上劃分,來對社交信息平台的演化過程進行研究。我們的實證分析表明,有超過40%的群在一周之內停止互動。另一方面,我們也觀察到30%的群能夠在相當長的事件內存活下來(30天)。聊天群的強大生命周期兩分輪為我們帶來了自然生命周期模型與預測的問題-在考慮到結構與社交行為特徵情況下,如何分離長期群與臨時群?為了解決這個問題,通過研究數百萬個群快照,我們建立了一個可分離模型,我們也展示了長期群與臨時群之前很明顯的區別-用很廣泛的特徵來測量,包括潛在的群網路結構,會員級聯樹特徵(例如樹的大小與深度)以及群成員的人口統計信息,例如性別,年齡以及區域等。

我們也從社交消息平台在用戶日常社交體驗所起到的職責與功能方面,對生命周期兩分法現象進行了討論。這為我們帶來了一個問題,社交信息群的生命周期與成長模式如何與其提供的社交功能相關連?事實證明,信息群已經被普遍接納為同時與小團體進行聯繫的最簡便方式。信息群的生命周期很大程度上取決於設立時候社交目的-例如,我們通常可以做出這樣的預測,事件驅動的群組較用於經常聚會的朋友群而言,有著更高消亡的可能性。另外,在長期與臨時群之間存在明顯分離性的前提下,與成功群設計相關的根本問題是:我們能否通過分析群在初期所展現的結構與行為模式來對社交群能否在長時間內成長並延續做出預測?我們把其稱之為一個與群壽命早期預測相關的問題。通過群所展示的多種功能的透鏡,我們驗證了我們能獲得明顯的預測結果,即使只是根據一天的群記錄也是如此。

目前的工作:群成員級聯與預測

除了對來自群層面的增長與發展進行建模以外,我們更近一步的研究了群成員的個人層面特徵,對群發展新成員的級聯過程進行了研究。具體而言,在已知群歷史行為與本地社交結構前提下,我們如何對莫群的那些用戶更有可能是活躍用戶進行預測?在邀請新用戶進入聊天群后,他們又會把入群邀請發給哪些人?我們需要對用戶歷史履約行為以及該用戶所屬的本地社交網路結構進行細緻的檢查。為此,我們開發了一項會員級聯過程模型,該模型考慮了邀請人與被邀請人的特徵,邀請人是指群成員中發邀請給朋友的人,而被邀請人則為位於邀請人交際圈,收到入群邀請的個人。我們的邀請人預測模型使用了所有特徵,通常有高達95.31%的AUC,而被邀請人預測模型實現了98.66%的AUC。

此外,我們也試圖分析: 隨著群的不斷發展,新加入的成員如何能夠導致基本社交網路結構的改變?為了解決這個問題,我們快照記錄並選取了在設立時刻的抽樣群集,與相同抽樣群一個月之後的情況做了比較。有意思的是,我們觀察到,儘管長期群與臨時群都有相同的增量特徵,例如閉合三角形,長期群所展現的閉合三角形增量更顯著的。

結構

本文的其他部分配如下。第2部分描述了與分析群形成與發展的相關工作。在第3部分,我們介紹了微信社交聊天群資料庫。第4部分展示了對群生活周期兩分法的討論以及早期預測模型。第5部分研究了成員級聯過程。最後,我們在第6部分做出總結。

數據

準備

在對資料庫進行詳細描述之前,我們首先對我們本次研究的中心微信群聊功能進行簡要概述。儘管微信有很多其他重要的功能,例如朋友圈,作為朋友雷達的尋找附近的人以及表情包等等,但是需要著重強調的是這些功能並不是本文研究所涉及的內容。在微信上面,每個用戶都會擁有一個簡要的個人介紹,其中包括了人口統計信息(例如:性別、年齡及地域等)以及用來存儲用戶朋友聯繫方式的通訊簿。我們使用多元組合(u,v,T)來表示朋友的關係記錄,如果用戶u與用戶v在時間節點T成為好友。微信上的一個聊天群可以被比喻作一個社區,在這裡一個人可以與幾個朋友一起聊天。用戶有兩種方式能夠加入到一個聊天群。圖1舉了一個例子說明了微信用戶邀請好友加入群聊的界面。當用戶v在時間截點T收到用戶u邀請加入群C,那麼(u,v,C,T)就被視為一個成功的邀請。

某位用戶在成為聊天群成員之後可以向整個群組發送多種形式的信息(例如:問題、圖片及聲音)。我們使用多元組合(u,C,T)來代表用戶u在標記時間T向群組C發送了一個群聊天記錄。

數據收集及清理

本研究的所有數據來自收集於2015年7月26日到2015年8月28日之間完整的群信息活動匿名日誌。我們首先收集了所有230萬在2015年7月26日產生的群組作為我們感興趣的群組集合。我們對數據進行了預處理:忽略少於5個聊天日誌的群組,例如:我們只考慮那些並非一出生便死亡的群組;我們也過濾掉了一些擁有特定用戶的群組,這些用戶在每月垃圾用戶(MSU)或每月不活躍用戶列表上面榜上有名。微信會每月定時維護及更新該列表。所有被考慮的最初群組至少由三名群成員組成。

數據描述

經過對最初群組集合進行預處理之後,我們剩下了474,726個群組用於進一步分析。然後,我們收集了四個感興趣的數據集,如下。表1總結了用於本次學習的數據集統計數據。

群組活動記錄G: 包括了所有臨時群組每一個抽樣群組活動記錄(u,C,T),T運作的時間區間是在2015年7月26日至2015年8月28日之間。

用戶集合U: 包括於2015年8月28日所有歸屬於抽樣群組及其單跳鄰居的所有成員。需注意的是,我們也去除了所有MSU或MIU列表裡的用戶集合。

邀請記錄 I: 包括了多元組合(u,v,C,T), 在數據收集期間,用戶u成功邀請v在時間T加入群組C。

友誼記錄F:包括所有多元組合(u,v,T), u與v(u,v 2 U)在T時間成為朋友。微信里朋友關係是非定向的,我們同時有(u,v,T)2F及(v,u,T) 2F。

我們之前提出過一個問題,社交信息群組如何隨著時間的推移而成長及演變-他們的生命周期及結構的動態性。作為一個高級特徵,社交信息群組可以有相對較短的生命周期-從幾個小時到幾個月不等,這與Reddit [8] 及臉書(Facebook)[29] 等社交網站上所看到的存在數年的網上群組情況恰恰相反。在本節,我們首先對生命周期兩分法現象進行討論,該現象是我們從群活動臨時數據中觀察到的。要做到這一點,我們對一個社交消息群的生命周期定義如下。定義1.群生命周期。我們將其定義為某群成立時間節點到該群沒有群成員發送任何聊天信息的時間節點間的持續期間。

我們首先分析了474,726個群樣本的生命周期分佈。由於我們數據收集截止日是2015年8月28日,在我們的觀察期內,一個群可以擁有的最長生命周期是34天。圖2(a)及圖2(b)分別示了群生命周期的的分佈及累計分佈函數(CDF)。從結果中總結出的一個顯著的現象是群生命周期的直方圖是有兩個峰值所主導的:一個出現在左翼(臨近幾個小時),而另一個則出現在右翼(臨近1個月)。

這意味著,就群的生命周期而言,群中存在著很明顯的兩分法。我們能夠據此得出兩個群組概念上的差別。

  • 臨時群:這類型的群出現及消亡速度非常之快,通常生命周期從幾小時到幾天不到。例如,圖2(b)展示了大約有40%的群在一周之內停止了互動。

  • 長期群:這類型的群較臨時群而言,能夠生存較長一段時間。圖2(b)展示了約30%的群歸屬於這一類別,能夠維持30天以上

生命周期兩分法的現象也為我們帶來了這樣的問題,社交信息群的生命周期及成長方式如何與其服務的社交功能想關連?為了解決這個問題,我們人為的檢查了100個隨機挑選的群,其中長期群有60個,臨時群有40個。我們根據手頭上有的群的社交功能來對群進行分類並在表2中羅列了詳細信息。有意思的是,我們發現大多數臨時群是由事件驅動的(例如:旅遊團,會議群及吃飯群),而長期群更多是由關係驅動的(例如:家庭群,同事群及好友群)。

4.1 群結構的動態性

在本節中,我們繼續研究信息群潛在結構的不斷變化。我們研究了幾種具有代表性的結構特徵(例如:開放三角形,封閉三角形及連邊密度),以及計量分析這些功能如何在不同模式的長期組與臨時組中發展。

三角形數量。社交網路[18]的傳遞性學說表明,社交網路的本地結構能由三角形數量來表示。在微信群中,我們嘗試對長期與短期群能否展示不同的傳遞性模式。我們根據朋友網路的抽樣結構,同時考慮了開放三角形與封閉三角形的數量。

微信群。為了說明這一點,圖3(a)展示了一個小型微信群盆友網路的例子,其中節點A, B及C形成了一個封閉三角形。節點A, C及D則形成了一個開放三角形。

連邊密度。我們也考慮到群的內部連邊密度特徵,該特徵是指群組內有的邊緣與當群完全連接在一起時候所有可能邊緣的佔比。

為了了解這些結構特徵如何不斷變化的,我們對群進行了兩次快照:一個是在群剛建立的時候(在本研究中,我們選取了10分鐘),另一個則是建立后的一個月。我們分別考慮了長期與臨時群,為了研究兩者之間結構模式的不同。我們也注意到,儘管臨時群可能會在某個時刻停止信息互動,群成員在享有群會籍時候仍然有可能去發展友誼,因此有可能在稍長時間內,對潛在朋友網路結構產生影響。

圖3(b), 圖3(c)及圖3(d)分別展示了開放三角形數量,封閉三角形數量及連邊密度的特徵動態性結果。需注意的是,如果群結構並沒有發生變化,我們預測可以看到圍繞著對角線y=x(標準化后)的散點圖。從可視化結果中,首先觀察臨時組與長期組所展現的不同的發展模式是一件有意義的工作-長期群就潛在朋友結構特徵而言展示了顯著的動態性,而臨時群不大可能去不斷建立友誼。

我們推斷這樣結構動態性的兩分法與設立社交群時的社交職責與功能想聯繫。例如,一個用於長期交流的同事群更有可能去開發群成員之間的社交聯繫,這與設立用於一些特定社交事件的群情況恰恰相反。

4.2 級聯樹模式

除了對友誼結構進行學習,我們還討論了群行程的過程,即研究群成員邀請級聯數結構。我們首先以定義如下群級聯數為出發點。

定義2。群級聯樹。一個有向圖,其中每一個群成員代表一個節點,如果u(邀請人)成功邀請v(受邀人)入群,那麼一個從u到v的有向邊界將會被創建。這棵數的起點是創建群的用戶。由於邀請人總是比受邀人更早加入群,所以不可能出現循環的情況。

為了展示長期群與臨時群在級聯數結構上的不同,圖4(a)與圖4(b)以及表4(b)為我們舉了兩種類型的微信群級聯數的兩個例子。我們發現,長期群往往表現出更多分支的更深層次的樹結構,而許多臨時群級聯樹顯示出的是大多數成員作為根節點的一種類似於星圖結構。為了對這個差別進行量化,我們留意到與級聯樹結構相關的四種典型特徵。

級聯大小。首先,我們檢查級聯數上的總分支的數目(例如群大小)來分析對級聯樹進行分析。圖5(a)展示了兩種群的級聯樹標準化分佈。我們發現,長期群往往會擁有較大的規模(默認數為至少500個),而臨時群的規模則縮減為100個左右。這是理所應當的,因為長期群在擴展人員方面更具優勢,也有更長時間跨度去發展。

邀請是級聯深度的函數。測量長期群與臨時群在級聯數上不同的一個很自然的方法是檢查邀請發生時候級聯深度分佈。我們對我們觀察期內所發生的每一個邀請深度進行了測量,邀請深度定義為級聯樹上從根部到群成員的步數。表5(c)展示了我們數據集內所有邀請的級聯深度標準分佈。我們觀察到,長期群較臨時群而言,更多邀請出現在離根部較遠的地方。例如,10%的長期群邀請出現在至少第3層深度;而對於臨時群而言,只有不到1%的邀請出現在至少第3層深度。

邀請作為子樹大小的函數。最後,我們通過測量級聯數每一個分支的子樹大小來對長期群與臨時群在級聯數結構的差異進行了測量。圖5(b)中,我們合併所有抽樣群后,展示了屬於級聯樹的每個節點的子級聯樹分佈。再次,我們觀察到長期群與臨時群顯著的差異。例如,約30%的長期群上的節點有超過10個子群的大小,而只有10%的臨時群上的節點有超過10個子群的大小。

結構性病毒。通過測量級聯數結構性病毒,我們能夠量化級聯樹。結構性病毒,有名Wiener指數,對於消除淺構造,類似散布的傳播結構及深度分支結構很有幫助。

Wiener指數被定義為級聯數上任何兩個節點的平均距離。例如,圖4(a)與圖4(b)中的級聯樹Wiener指數值分別為3.99及1.83。圖5(d)中,我們展示了長期群與臨時群級聯樹Wiener指數的分佈。我們觀察到,超過99%的臨時群的Wiener指數值小於2,這意味著大多數成員級聯以散布方式發生,以根節點居多。

4.3 群生命周期的預測

群生命周期及結構相互作用方式的明顯兩份論為我們帶來了一個自然的模型與預測問題-在考慮了結構,行為及人口特徵后,長期群與臨時群間有多分離?我們能否通過分析群在早期階段所展現的結構與行為模式,來預測是否一個社交群組長遠來看能夠增長及存在?在本節中,我們通過結合廣泛的特徵來分析數以百萬計的群快照,用以解決這兩個問題。

4.3.1 可分離模型

我們嘗試通過使用包括潛在群網路結構,成員級聯數性質及群成員的統計信息無序程度等特徵來對一個群屬於長期群或臨時群進行預測。特徵的全部清單已總結在表4中,需注意的是,我們只使用了群層面的特徵。

為了訓練可分離模型,我們把生命周期少於5日的群標註為反面例子,把生命周期多於25日的群標註為正面例子,藉此來創建訓練數據集。我們用一個特徵向量來代表每一個群,該特徵向量是建立后一個月的群中抽取的。緊接著,我們使用10倍交叉驗證的支持向量機(SVM)來對數據集進行更進一步的訓練。

表3對預測結果進行了總結。我們發現通過使用全套特徵,我們能夠得到最高級別準確性(66.62%AUC)。通過每次只考慮一組特徵,我們進一步研究了每一組特徵(例如:結構,級聯及人口統計信息)如何影響訓練的表現。我們發現結構特徵組自身可以產生高精度的預測,這一結果再次驗證了臨時群與長期群結構中所存在的顯著區別。

4.3.2 對群生命周期的早期預測

介於長期群與臨時群之間所存在的明顯分離性,我們就此提出了一個基本問題,我們如何能夠根據早期所展現的特徵來更好的對群的成長與維持進行預測?

我們應用早期預測模型的方式,除了在較早時間節點提取的一些特徵的細微差別以外(參閱表5群層面特徵),與之前的分離模型相類似。具體來說,對於我們訓練集合里的每一個群,我們會對1小時,1日,5日,10日,20日以及1個月時期的群進行快照並相應對特徵向量進行計算。對於不同時間節點提取的特徵,我們重複類似的過程來訓練數據集。表4展示了在不同階段預測表現的結果。我們發現,群設立后一天的特徵可以獲得高達65.08%AUC準確性,這幾乎與採用1個月時間節點提取的特徵來做預測的66.62%準確性相若。

早期預測模型的結果再一次確保了社交信息群在未來的成長的可能行可以在非常早期時候(例如1天)就能夠很好的做出推斷。這樣的預測性與早前對在線社交社區的研究不同,後者需要幾個月的特徵來做出短期預測,數年的特徵來做出長期預測,部分原因是由社交信息群與網上社區不同的生命周期特質決定的。

我們已經從團體層面對社交信息群的成長與發展進行了建模。在本節中,我們將接觸集中於個人層面的問題,並對群發展新成員的成員級聯過程進行研究。

首先,我們引入了一個群成員級聯模型,如圖6所述。該模型捕捉了兩個重要的職責:邀請人-向朋友發送邀請的群成員,受邀人-在邀請人個關係網中,收到入群聊邀請的個人。例如,圖6中大虛線包圍了一個群內所有現有成員。每個發出的邀請有兩個重要過程:1)某個群內的某個成員是活躍成員(如圖6中藍色所示)以及2)活躍成員選擇朋友(如圖6紅色所示)進入聊天群。

5.1 成員級聯模式

5.1.1 行為模式

為了更好的了解成員級聯模式,首先最重要的是要去研究群成員的行為模式。例如,一個令人感興趣的問題將會是,當某人成為群成員之後邀請朋友入群的頻率為何?換一個表述,成員級聯在社交信息群發生的頻率為何?在本節中,就用邀請間隔及首次邀請延遲來測量成員邀請行為的模式,我們提供了一些實證研究結果。

定義3.邀請間隔的是指來自同一群成員任意兩個連續邀請的時間間隔。此外,首次邀請延遲是指末用戶加入某群的時間點與該用戶首次邀請其他朋友進入相同群(經某些現有成員邀請)的時間點間的間隔。

直觀來說,對某群成員的首次邀請行為研究是十分有用的,它標誌著該成員對現有群有多好的適應力,以及對現有群的有多大相關意識。

為了解決上述問題,在整合了每個群的每一位成員之後,我們得到了邀請間隔及首次邀請延遲的分佈。圖7(a)與圖7(b)展示了首次邀請延遲及邀請間隔的累積正太分佈函數。我們觀察到,微信群的邀請是對時間高度敏感的。一方面,當某人受邀進入某個群,該用戶傾向於不久就邀請其他人入群。例如,約80%的首次邀請發生在邀請人入群后的5天之內。另一方面,我們發現成員會遭遇到這樣的通常情況,他們發出期首次邀請所延遲的時間比邀請間隔要長。例如,超過80%的連續邀請發生在2天的時間間隔之內。

總結

本文中,我們研究了在社交信息背景下微信群的成立與發展,包括:微信群的生命周期,潛在結構的不斷變化,以及發展新會員的擴散過程。我們使用了大量收集自微信群聊天平台的匿名數據,通過持續追蹤不同時刻群的出現,成長與消亡,提供了對數以百萬計的群進行的多樣化分析。

我們發現了就群生命周期而言所存在的很明顯的兩分法,據此定義了兩類型群,即長期群與臨時群。首先,我們充分考慮了很廣泛的群層面特徵,從而開發了一個有效的分離模型,證明了長期群與臨時群本質上的不同;其次,我們發現了聊天群的生命周期取決於為成員提供日常社交體驗與特定目的的群職能與功能。具體來說,事件驅動的群通常擁有較短的使用周期,這與其他以聯繫為目的的友誼群情況恰恰相反。在長期群與臨時群之間存在的明顯分離性的前提下,我們進一步解決了早期對群壽命預測問題,證明了我們可以得到很明顯的預測結果,甚至對只有一天歷史的群同樣適用。

除了從群層面對成長與發展進行建模,我們也探索了群成員個人層面上的特徵,研究了群發展新成員的傳播過程。在認真思考過用戶的歷史履約行為及用戶所嵌入的當地社交網路結構,我們開發了一個成員級聯過程模型。我們實現邀請人預測模型95.31%的AUC及受邀人預測模型98.66%的AUC,充分展示了模型的有效性。

未來研究。我們的研究結果為未來的研究提出了許多不但意義深刻,也很重要的未決問題。首先,我們設計的成員級聯模型能被用作群成員推薦,也有被整合到現在微信平台的潛在可能性。這能夠激發起人們對進行線上實驗,探索用戶是否有採用群成員建議的可能性,以及在什麼情況下有可能的研究。這些研究也將會為我們帶來更好的群聊設計及更有效的吸引用戶。

掃碼進入知識分享社群

不錯過任何乾貨

往期熱文:

華為內部好文,一篇文章讀懂大數據

麥肯錫報告:人工智慧的未來之路

【推薦閱讀】如何用大數據構建精準用戶畫像?

楊學山:工業大數據是什麼?為什麼?怎麼辦?

「預言帝」凱文·凱利:未來25年八大技術發展趨勢

往期PPT、報告下載:

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23305次喜歡
留言回覆
回覆
精彩推薦