search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

用Python統計新浪微博各種表情使用頻率

用新浪微博API積累了微博廣場的1.4萬條數據,我選擇了21個欄位輸出為TXT文件,想用Python稍微處理一下,統計一下這1.4萬條微博裡面表情使用情況,統計結構在最後。

無聊的時候用了下新浪JAVA版的API,對JAVA還不熟悉,但是稍微改一下還是沒問題的,數據保存為TXT文件,再用Python處理,JAVA部分很簡單,Python部分只涉及到表情的正則提取,都不好意思寫出來了。

1、調用新浪JAVA API下載微博廣場數據

步驟思路:

初始化API的Weibo類,設置Token后,設置下載間隔,然後重複調用getPublicTimeline函數就可以了,下面是主要類的代碼:

這個不是完整的代碼,沒有初始化暫停間隔,可以掠過,很簡單。

要取得數據就是微博內容,先練一下手玩玩。

3、Python處理數據

目標:查看微博用戶表情使用情況,暫時只分性別,如果積累了合適的數據后可以分析各個時間段人們愛用哪種表情。

步驟:

$ 讀取TXT文件,遞歸處理每一行

$ 單獨提取出微博欄位,正則提取表情欄位,同時把性別提取出來,放到一個dict裡面,dict的格式是:表情/女性使用頻率/男性使用頻率,遞歸處理,累積頻率

$ 把結果寫入到文件

注意:Python正則提取中文部分,先解碼成unicode編碼,再正則提取,表情的標誌是,雖有誤差,但無大礙。

代碼:

__collection函數是處理函數,返回處理結果(dict)





熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦