3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
用新浪微博API積累了微博廣場的1.4萬條數據,我選擇了21個欄位輸出為TXT文件,想用Python稍微處理一下,統計一下這1.4萬條微博裡面表情使用情況,統計結構在最後。無聊的時候用了下新浪JAVA版的API,對JAVA還不熟悉,但是稍微改一下還是沒問題的,數據保存為TXT文件,再用Python處理,JAVA部分很簡單,Python部分只涉及到表情的正則提取,都不好意思寫出來了。1、調用新浪JAVA API下載微博廣場數據步驟思路:初始化API的Weibo類,設置Token后,設置下載間隔,然後重複調用getPublicTimeline函數就可以了,下面是主要類的代碼:這個不是完整的代碼,沒有初始化暫停間隔,可以掠過,很簡單。要取得數據就是微博內容,先練一下手玩玩。3、Python處理數據目標:查看微博用戶表情使用情況,暫時只分性別,如果積累了合適的數據后可以分析各個時間段人們愛用哪種表情。步驟:$ 讀取TXT文件,遞歸處理每一行$ 單獨提取出微博欄位,正則提取表情欄位,同時把性別提取出來,放到一個dict裡面,dict的格式是:表情/女性使用頻率/男性使用頻率,遞歸處理,累積頻率$ 把結果寫入到文件注意:Python正則提取中文部分,先解碼成unicode編碼,再正則提取,表情的標誌是,雖有誤差,但無大礙。代碼:__collection函數是處理函數,返回處理結果(dict)

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦