search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

趣讀丨暴挖337萬字,大數據告訴你郭敬明和韓寒的小秘密!

有人的地方就有江湖,有江湖的地方就有潛規則。武術圈如此,作家圈亦是如此。

作家郭敬明又上熱搜了,雖然又不是什麼好事。文字君從昨天開始就收到不少留言,求八卦一下郭敬明其人其作

本著看熱鬧不嫌事兒大的心態,乾脆連他的「老對手」韓寒也一起拉下水。今天文字君從數據角度對兩人十幾年的寫作生涯進行多維度解析,找找他們筆下的趣聞與秘密。

/ 一個尷尬的同框 /

在郭敬明的微博認證信息上,寫著:作家、導演、出版人、主編

在韓寒的微博認證信息上,寫著:作家、賽車手韓寒

兩人雖然都在名利場沉浮多年,鱗爪涉及不少領域,特別是近年來在電影界大有作為。但二人不約而同地選擇作家作為自己第一身份。

文字君整理了兩位作家出道以來所出版的小說和文集,如圖所示:

/ 作品信息來自搜狗百科,僅收錄小說及文集 /

除去各種抄襲、代筆的糾紛不談,二位都是實打實的高產寫手。但你知道以上作品熱度幾何嗎?兩人究竟誰更受讀者關注?

為了直觀地比較兩位作家的作品熱度,文字君分別在搜狗搜索引擎輸入「作品名+作者名」,記錄其反饋的數據結果。

註:為減少誤差,系列小說記為一個作品。例如《臨界·爵跡Ⅰ》《臨界·爵跡Ⅱ》關鍵詞設置為「爵跡 郭敬明」。

隨後,文字君對兩組數據取平均數,郭敬明作品的平均熱度為17421,韓寒作品的平均熱度為26518。

如此看來,韓寒的作品熱度更高一點,這似乎與大家印象里「郭敬明更火」的判斷有所不同。

大家的留言中,紛紛討論到郭敬明的三觀問題。一般來說,一個人經常使用的文字,會暴露他對社會的認知傾向。

文字君搜集了二位出道以來的主要作品,試圖進行一番全面的文本挖掘,以此窺視他們的內心秘密。

由於時間跨度大、政策限制等因素,部分書籍已經難以找到例如韓寒的《脫節的國度》、郭敬明的《迷藏》等書籍),最終文字君共找到30部作品,總字數約為337萬字。

其中郭敬明12本,174.4萬字;韓寒18本,162.9萬字。

/ 郭敬明部分作品集 /

/ 韓寒部分作品集 /

在確定文本資料后,文字君要對這337萬字進行量化處理

經過一番苦戰之後,共拿到87310個字詞。刪除「我說」「覺得」「東西」等無意義詞,分別兩人的TOP500關鍵詞生成了肖像詞雲圖:

/ 郭敬明與韓寒的肖像詞雲圖 /

如圖所示,兩人十餘年的寫作生涯似乎都濃縮在這兩張看似簡單的詞雲圖中。看不清?沒關係,貼心的文字君會為大家抽幾個重點一一解讀。

正所謂「語言是思維的外殼,思維是語言的內核」,我們對兩人作品中字詞的使用頻率進行統計,可以從側面對兩人的性格情感進行畫像。

/ 顏色篇:郭濃烈,韓冷淡 /

在兩人的作品中,對顏色的詞語提及量有巨大的差異。

在郭敬明的文字世界中,世界是豐富多彩的,充滿黑白紅這樣的奪目色彩。

而韓寒對顏色類辭彙的使用非常吝嗇,他似乎在追求一種純凈的、幾近透明的感官世界。

/ 季節篇:郭愛春,韓厭夏 /

文字君發現,在最喜歡的季節上,兩人不約而同地選擇了生機盎然的春天。

但在討厭的季節上,兩人的選擇卻不同。相對而言,郭敬明比較討厭秋天,而韓寒討厭夏天。

/ 時刻篇:都是夜貓子 /

我們再來分析一下時間韓寒和郭敬明分別喜歡一天中的哪個時辰呢?

通過觀察詞頻,文字君產生一個疑問:是不是所有的故事情節都喜歡發生在月黑風高之時

特別是韓寒,「晚上」這一詞的提及量竟然高達398,比排名第二的「下午」高了近4倍。不知道現實中二位作家是否也是夜貓子呢?

/ 時態篇:郭懷舊,韓盼新 /

曾經有一篇文章分析了民謠歌手是在向前看還是在向後看,是寄希望未來還是緬懷過去。結果特別有趣,大部分民謠歌手都是歌唱明天,而不care當下。

那麼對韓郭二位來說,他們的情感寄托在哪裡?

如圖所示,除了遙遙領先的「今天」之外,在「昨天」和「明天」的選擇上,兩人剛好相反。似乎看來韓寒喜歡暢想未來,而郭敬明更留戀過去

/ 情感篇:郭奔放,韓保守 /

最後是對兩人情感的分析。兩人筆下的痴男怨女們都有著怎樣的情感世界呢?

文字君羅列出代表「喜怒哀樂愛惡欲」七種情感的辭彙,並計算這些詞在文章中的提及量。

在去除「喜樂」人名這樣明顯屬於干擾的辭彙之後,文字君得到了這樣一幅圖:

從圖中可以看到,在表達哀、樂、喜三種情感上,兩人有較大差異。這是為什麼呢?

原因出在了「笑」「哭」這兩個字上。「笑」在郭敬明的作品中出現了2861次,在韓寒作品中出現了1118次。「哭」在郭敬明的作品中出現了755次,在韓寒作品中出現了211次。

看來,郭敬明的喜怒哀樂七情六慾都比韓寒強烈得多。

同樣,一位作家的寫作風格,也是他性格和情感世界的作用體現。

/ 分段篇:郭瑣碎,韓完整 /

首先,我們從最簡單的段落數開始分析。文字君把兩人作品分別放置到Excel表格中,每一段落記一行。

在去除低於5個字元的段落後(若段落字數低於5個字,則極大可能是無意義段落),統計得出:在這337萬字中,韓寒共有17778個段落,郭敬明共有24707個段落。

比較有意思的是,儘管兩人的作品總字數相差只有12萬,但段落數上卻有巨大的差異。我們也可以順便計算出每段的平均字數:韓寒平均每段有91.6個字,郭敬明平均每個段落有70.5個字。

如此看來,韓寒更喜歡用大段大段的文字來表述自己的觀點,而郭敬明熱愛分段,文風較瑣碎,表達更感性。

/ 句子篇:郭愛長,韓愛短 /

然後是對於句子的分析。文字君在段落統計的基礎上,通過Excel表格對兩人作品中的所有段落進行分列處理,每個句子記作一行。

同樣在去除影響因素后,結果顯示,韓寒的作品約有45000個句子,平均每個句子35字;郭敬明的作品約有44000個句子,平均每個句子39字。

/ 對話篇:郭話癆,韓話少 /

分析完了段落和句子之後,文字君決定再對兩人作品中的對話進行分析,看一看誰更像話癆呢。

對話的數量可以通過對引號的使用次數進行預估。

根據文字君的統計,在韓寒作品中,共出現對話6420次,佔總句子數的14.1%;在郭敬明作品中,共出現對話10093次,佔總句子數的22.7%。

如此看來,結果似乎不言而喻了——郭敬明筆下的人物要健談得多。

/ 作品篇:三重門vs小時代 /

以上是對兩人共計337萬字作品的分析,如果我們把範圍縮小到某一部小說,結果會不會更有趣呢?

文字君通過對兩人所有小說搜索熱度的統計,挑選出最具代表性的兩部作品:《三重門》《小時代》

/ 《三重門》高頻詞詞雲圖 /

/ 《小時代》高頻詞詞雲圖 /

仔細分析了上面兩幅詞雲圖之後,文字君發現一個很有意思的現象:

我們甚至不用看原著,僅從這些高頻辭彙中,就可以大致猜測到小說在講述什麼

例如在《三重門》中,故事是圍繞「林雨翔、羅天誠、馬德保、Susan」等人發生的,因為他們的名字提及次數最高;

故事主要發生在校園,因為「學校、老師、校長、寢室」這樣的詞提及次數比較高;

主要人物應該很喜歡寫作或者有不錯的文學才華,因為「文學社、文學、社長、文章」這樣的詞提及量也很高。

/ 電視劇《三重門》片段 /

至於《小時代》,我們可以猜測它的故事情節會比較複雜,因為它出現的人物很多:唐宛如、顧源、顧里、林蕭、南湘、Kitty、周崇光、袁藝、簡溪……

小說對人物心理情感及動作神態的刻畫非常細膩,因為「表情、眼睛、眼神、目光、輕輕地、望著」等詞頻繁出現;

另外,我們還能夠看出,這本小說的主要關注對象是女性。因為除了主要人物名字多是女性之外,「穿著、精緻、模特、衣服、漂亮、尖叫」等和女孩子相關性比較強的詞出現的頻率也很高。

/ 電影《小時代》主人公群像 /

文字君的大數據就玩到這裡,結尾簡單跟大家聊幾句韓郭二人。

同為80后代表性作家,文風卻大相徑庭,二人屢屢被拿來對比參照,由此衍生的恩怨情仇成為長盛不衰的話題,只要其中一個上了熱門,另一個就難免躺槍。

/ 一個尷尬的同框x2 /

這些年,韓寒從田字格中跳出,選擇了賽車道,又從賽車道跑到了電影;郭敬明的生意以從小說做到雜誌,最後也扎進電影業。兩人一路「折騰」,似乎又殊途同歸

/ 文字君互動時間 /

你對韓郭二人看法如何?

歡迎留言告訴文字君

月 度 熱 文

被字典招安的錯音土姓污姓取名指南

文青撩妹金句原諒綠是什麼梗

關注分享,總有一個在路上~



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦