search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

非法信息消除指南|大象公會

各網路公司既要確保消除非法信息,又要避免影響用戶正常使用,怎樣同時實現這兩個目標?

文|吳松磊

許多互聯網公司對自己的內容審核部門有著複雜的感情,因為其他業務可以賺錢,審核則和法務、合規一樣會增加經營成本,但它就像安全帶對司機一樣必不可少。

隨著互聯網用戶和內容的激增,審核技術也需與時俱進。今天,網民規模已達 7.13 億,社交網路滲透率達 85.8%,僅用黑名單和禁詞表遠不能勝任日益複雜的網路環境,各大互聯網公司都需要投入更多的資源,才能應對層出不窮的挑戰。

▍1997 年至 2012 年東亞及各地區的互聯網滲透率變化(圖片來自:hanteng,wikimedia)

消失的非正常內容

儘管 1987 年就已成功對外發送第一封電子郵件,但直到 1996 年 1 月,公用計算機互聯網(CHINANET)建成,互聯網才正式進入民用市場。

同年二月,國務院發布的《計算機信息網路國際聯網管理暫行規定》就已有相關規定,當時的方式還比較傳統,如屏蔽非法網站、人工審核門戶網站新聞等。

禁詞表第一次介入網民生活,是因為即時通信應用的快速發展。

1999 年,騰訊仿造美國軟體 ICQ 開發併發布了 QQ 前身 OICQ,並在競爭中勝出,僅兩年後就擁有了 100 萬最高同時在線用戶,四年後達到了 1000 萬。

▍2000 年至 2010 年騰訊 QQ 最高同時在線用戶數

和今天主要用於熟人通訊不同,早期互聯網是陌生人社會,人們在 QQ 上通過聊天室認識新朋友。非法信息第一次擁有了大規模傳播的可能性,因此禁詞表應運而生。

作為最原始的非法信息攔截方法,禁詞表的規則相當粗暴——只要文本內容包含禁用詞,則文本無法發送,或發送后僅自己可見。由於部分醫療健康類內容很容易因為關鍵詞被判為色情內容,它們除了站方主動發布,基本不可能個人發送張貼傳播。

直到今天,微信也仍然沿用這一規則:無論是私聊、群聊還是朋友圈,只要命中該詞,則該內容只有自己能看見。好在微信環境相對封閉,內容審核級別並不高,根據多倫多大學的研究者在 2016 年 11 月發布的報告,他們只發現 178 個禁詞,且僅針對用大陸手機號碼註冊的微信號。

但禁詞表很快就力不從心了。隨著 Web 2.0 時代的到來,任何信息都有可能一夜間傳遍全網。博客、論壇、社交網路開始成為互聯網主流,在人人都能成為創作者和傳播者的理念下,無論是用戶、內容還是非法信息的傳播風險,都出現了指數級增長。

▍在 Web 2.0 時代,分享互動行為佔據了主導

這樣的背景下,傳統禁詞方案的缺陷開始暴露出來。

首先,完善詞庫就很考驗水平。因為官方並不提供標準的禁詞表,每家公司只能獨自摸索設置哪些關鍵詞才能有效屏蔽非法信息。這就要求詞庫建立者必須有非常廣闊的視野,密切跟蹤各類非法信息傳遞方式的升級,隨時更新詞庫。

另一方面,詞庫只能做到精準匹配,對原詞的同音近型替換或詞義演繹則很難處理。例如「泡麵」等詞就顯然無法進入禁詞表,否則將誤傷大量正常內容。

除此之外,許多需要清除內容也並非單個詞,而是事件,需要多個詞同時出現,才能觸發機制。

以「金正男機場遇刺」為例,則需要「機場」、「金正男」、「遇刺」其中兩個詞同時出現才能觸發清除機制。這就給了其中單個詞相當大的替換空間,例如「機場金大胖」、「胖熊機場一日游」,都可以讓人聯想到該事件。

▍同時,「2001 年金正男在日本成田機場被遣返」這樣的老新聞也會被誤傷

面對這些複雜情況,互聯網企業不得不聘請大量專員來人工處理。他們相比機器,不僅成本高昂,且效率低下。於是,各種計算機演算法被研究了出來。

進擊的演算法

在程序員的眼中,中文天生就比英文等表音書寫語言有更高的識別難度。

除了在傳統禁詞規則下會出現「一台獨立伺服器」被識別出「台獨」等低級錯誤外,如果要對文本進行分析,必須先對其進行分詞處理。這是因為中文單字與整句含義差別極大,只有成詞,才能理解和判斷文本傾向,避免把正常的生理衛生知識識別為色情信息。

▍正確斷句是國小語文老師就開始強調的內容

而英文等表音書寫系統則不存在此問題,因為其文本必須通過分詞確定發音的首尾,否則難以閱讀,所以英文自帶分詞。而中文作為意音語言,每個字都獨立發音,則沒有在文本上分詞的動力。

實現分詞的基礎是字元匹配,如傳統的「正向最大匹配法」即是從左到右掃描文本,與機器詞典進行匹配,再將匹配成功的詞切分,直到無法匹配為止。

但這種方法並不可靠,如「一台獨立伺服器」就還是會被分為「一/台獨/立/伺服器」。為解決歧義問題,則需要對大量真實語料進行統計,計算每個詞的出現概率,再計算不同分詞方案下的總概率。

在之前的例子中,因為「立」作為詞的出現概率極低,因此「一台/獨立/伺服器」的概率將明顯高於「一/台獨/立/伺服器」。更進一步,還可計算兩個詞同時出現的概率,以得到更精確的分詞結果。

今天的分詞演算法可以成功識別插入特殊符號的非法信息。而配合擴展詞表,也可以處理以同音字或拼音替代的信息。但對於聯想類詞語和事件類內容,還是需要其他演算法的加持。

貝葉斯方法就是其中之一。1763 年,英國學者托馬斯·貝葉斯生前的一篇關於「逆概論」文章中提出了貝葉斯公式。

▍貝葉斯公式

貝葉斯方法的核心在於通過已知事件的概率(先驗概率)計算未知事件的概率(后驗概率)。以「金正男機場遇刺」舉例,假設抽取十萬條包含「機場」的文本,其中七萬條為正常內容,三萬條為需要清除的非正常內容。

即正常評論的概率 P(g)=70%,非正常評論的概率 P(b)=30%。

再對所有文本進行分詞,計算每個詞出現的概率。假設「遇刺」在七萬條正常內容中,有七十條包含該詞;而在三萬條非正常內容中,有三百條包含該詞。則「遇刺」一詞出現的概率 P(W)=0.37%,在正常內容中出現的概率 P(W|g)=0.1%,在非正常內容中出現的概率 P(W|b)=1%

那麼,一條提到了機場的內容里出現了「遇刺」,該內容是非正常內容的概率 P(b|W) 是多大呢?根據貝葉斯公式 P(b|W) = P(W|b)P(b) / P(W) = 81.1%。

按此方法可以計算出每個詞的非正常概率,再根據下公式就可以計算出該文本為非正常內容的期望,在根據實際情況設定閾值進行處理。

公式中 p1-pN 指的是該文本中每一個詞的非正常內容概率

以「金大胖在機場遇刺」為例,假設這幾個詞的非正常內容概率分別為 P(b|金大胖)=0.9,P(b|機場)=0.3,P(b|遇刺)=0.8,則可算出文本是非正常內容的概率為 93.9%。

而「1963 年 11 月 22 日下午,他在機場聽到了肯尼迪遇刺的消息」,則會因為「1963 年」、「肯尼迪」等詞大大降低該文本的命中概率。

貝葉斯方案的缺陷是需要大量語料數據作為其先驗概率的支撐,因此在許多規模較小的互聯網社區並不普及。

多媒體內容的挑戰

非法內容不僅僅只有文字。隨著智能手機的普及和帶寬速度的提升,大量的圖片、音頻和視頻開始被製作上傳,成為互聯網主流內容。

對於這些新形式,應該如何處理?

最常被審核的是圖片里的文字。此時,中文對英文的識別難度又一次體現了出來。識別圖像中文本的演算法被稱為 OCR(光學字元識別技術)。這項早期用於幫助盲人閱讀的的技術發展至今,對於常見的書寫系統已經實現高於 99%的準確識別率。

儘管如此,仍然可以用模糊、變形、粘連、添加干擾符號等方式讓 OCR 難以正確識別。因為中文字元數量遠超英文字元,而每個字元都可能成為 OCR 演算法的潛在錯誤選項。

一項對 5 個中文 OCR 軟體的測試結果(2015 年 6 月)

但深度學習技術的快速發展,正在改善中文 OCR 的問題。

深度學習(Deep Learning)可以追溯到 1958 年的感知機演算法,但直到 2010 年後,才開始在語音和圖像識別取得重大突破。通過從「邊緣—部分—全體」的分層特徵提取,深度學習可以做到遠超傳統演算法的識別精度。

對於 OCR 演算法最頭痛的預處理階段,通過千萬量級的文本圖片對模型進行訓練,可以有效的實現文本的降噪和分割。對色情類圖片和視頻也是如此,今天的鑒黃應用準確率已經達到了 99.95%,其訓練方法和 OCR 唯一的不同在於,色情內容訓練庫難以自動生成,需要依賴大量的人工標註。

相對比較棘手的情況是特定人物頭像和人物表情包。因為許多人物並沒有足夠豐富的圖像資料用來訓練,因此目前的人臉驗證演算法還是相對傳統:校正圖片—提取初始特徵——計算兩張人臉的相似度。

▍人臉相似度計算流程

非色情類視頻的鑒別難度也在於此,因為不像色情內容一樣能夠擁有龐大數據用以訓練,且惹事原因也五花八門,難以統一共性。

因此,此類視頻的清理相當粗暴——直接封禁視頻文件的 MD5 值。MD5 演算法是一種加密散列函數,對任意字元串都能生成一段對應且唯一的 32 位十六進位數字串,即 MD5 值。因此,每個文件都有其獨一無二的 MD5 值,這也意味著只要封禁一個文件的 MD5 值,則該文件的所有複製版本都無法觀看。

當然,躲避 MD5 封禁也很簡單,只要稍微修改文件,MD5 值即會發生改變。

除了傳統社交網路的多媒體內容,語音問答和視頻直播等新內容創業公司更需要保持警惕。2016 年 8 月,某風頭正勁的語音問答平台突然無法訪問,直至48天後才重新上線。不進增加了舉報功能,其所有語言回答都需要經過審核后才能發布。

而直播平台涉黃被約談整頓的新聞更是屢見不鮮。在競爭激烈的業態下,甚至有直播公司安插人手去敵台色情直播。好在面對強烈的業務需求,各大雲服務公司都建立了完整的直播審查系統,面對色情內容可以做到秒級響應。

▍某雲服務平台提供的直播審查系統

在深度學習演算法逐漸成熟的今天,再也沒有什麼內容是無法識別的,距離完美安全的網路世界,差的只有更多非法信息的樣本,只要敏感詞和敏感圖片源源不絕,清除網路非法信息的能力就會在它們的考驗和訓練下不斷提高。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦