search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

每周學點大數據 | No.50 眾包應用舉例

本文為燈塔大數據原創內容,歡迎個人轉載至朋友圈,其他機構轉載請在文章開頭標註:

「轉自:燈塔大數據;

編者按:燈塔大數據將每周持續推出《從零開始學大數據演算法》的連載,本書為哈爾濱工業大學著名教授王宏志老師的扛鼎力作,以對話的形式深入淺出的從何為大數據說到大數據演算法再到大數據技術的應用,帶我們在大數據技術的海洋里徜徉~每周五定期更新,歡迎來做客呦!

在上一期中我們學習了維基百科的策略體現的「眾包演算法」思想,現在我們看一下除了維基百科之外,眾包還有哪些應用。

No.50期

眾包應用舉例

小可:那除了維基百科之外,眾包還有哪些應用呢?

Mr. 王:其實眾包在業界的應用還是非常廣泛的。大量的公司和網站都使用了眾包演算法,

有些眾包演算法是顯性的任務分配和任務處理,也有些眾包演算法是隱性的。比如這種特殊的驗證碼:

小可:哦,驗證碼還是很常用的,只是這個驗證碼中有兩個單詞。在登錄網站時,為了防

止一些自動的腳本攻擊網站,會將一個機器難以識別而人容易識別的圖像文字放在登錄窗口中,只要把相應的文字輸進去就可以登錄了。

Mr. 王:不錯,但是這個驗證碼比較特殊,之所以使用了兩個單詞,是因為它有另一個用途。

在這兩個單詞中有一個是真的驗證碼,用於鑒別正在登錄的是不是一個真正的人,這個真正的驗證碼和其他驗證碼並無兩樣;而另一個則是網站希望識別的一個模糊的或者字體比較特殊的單詞,比如從古書上、破舊的文章中截取的文本片段。正由於它是比較迷糊的,如果用機器來做文本模式識別的話,就會比較困難,錯誤率會比較高;但是作為一個人來說,看清楚這個單詞還是非常容易的。網站巧妙地利用了這一點,在用戶輸入驗證碼的同時,還幫助網站進行了圖像文本識別。

小可:真是一舉兩得啊,而且其充分發揮了用戶的力量,讓用戶不知不覺間就幫助網站完

成了文本識別工作。

Mr. 王:這是一個圖像文本識別的例子。在機器翻譯中,眾包也有很好的應用。時下,機

器翻譯的質量還沒有達到一個非常高的水平,我們常用的翻譯平台雖然能夠將單詞翻譯對,但是句式結構往往處理得不夠好,語序顛倒的情況時有發生。另外,對於一些意思很多的辭彙來說,在特定的語境下識別一個詞的意思就很困難了。目前,不僅機器翻譯仍然面臨著一些困難,而且用機器對人工或者機器翻譯好的文章進行翻譯質量評價也是很困難的。

小可:嗯,不僅翻譯難,而且評價也難。所以,我們就要發揮人的力量,讓人進行翻譯和評估。

Mr. 王:沒錯,語言之間的翻譯具有一個特點,就是翻譯專家和母語的非專家對一個翻譯

過來的句子的認識是差不多的,畢竟不是專家的人也可以憑藉其對母語的了解和熟悉去評價一個句子是不是通順等。所以不妨將機器翻譯或者翻譯評價的工作交給那些非專家、網路上的人來做,通過對母語的語感他們就能夠很好地評價翻譯效果,讓人來執行通常會比機器來做好得多。

Mr. 王:其實在圖像識別中,眾包的例子也有很多。比如我在網上掛一個圖,問這是不是「哈工大校園」。

這樣的工作讓機器來做其實很麻煩,因為哈工大校園裡面有各種各樣的風景,圖像模式非

常多,甚至在天氣陰晴、季節、相機曝光度和拍攝角度等不同的時候,完全相同的風景都會呈現出不同的效果,讓機器來識別難度就非常大。但如果由人來做,就容易多了,不論是什麼季節,不論是白天還是夜晚,只要是哈工大的學生或者是去過哈工大的人往往就可以非常容易地辨識出這個圖景是不是屬於哈工大校園,這種識別的準確度要比機器高很多。

Mr. 王:另外,還有一個很有趣的例子,如果讓計算機來識別兩張照片是不是同一個人,

可能難度就比較大。當今雖然人臉識別技術已經日趨成熟,但是由於光線角度不同、人所處的環境不同,或者是髮型、妝容變化等,甚至一張是人年輕時的照片,另一張是中年時的照片,都會給計算機識別帶來很大的麻煩。

小可:嗯,沒錯,看看兩張照片是不是一個人,對人來說還是挺容易的。即使是年輕和年

長時的照片,我們也可以通過觀察一些特徵,分辨出他們是不是一個人。

Mr. 王:嗯,眾包還可以應用在圖片分類上。比如這張圖片:

小可一眼就認出了圖片中的車,說:這不是大眾的邁騰嘛!

Mr. 王笑著說:你看,如果讓計算機來識別這張圖片的話,它可能充其量會告訴你這是一

輛汽車的圖片,但是如果眾包出去,比如交給你,你不僅能看出這是一輛轎車的圖片,連它具體是什麼品牌、什麼型號都可以識別出來,識別的信息精確程度遠大於計算機的能力。在實際應用中,眾包分類系統可能就會問用戶,這是不是一種交通工具啊?用戶就會回答「是」;這是不是一輛汽車啊?用戶回答「是」;是什麼牌子的車啊?……,在這個過程中就像是一棵決

策樹一樣,通過非常簡單的步驟,利用人的知識和識別能力,有效地完成了對圖像的識別分類任務。

在計算機視覺方面,眾包也是有很多應用的。比如給出兩張繪畫的圖片,這兩張圖片的差

異很大,但是我們希望知道這兩張圖片的繪畫風格是不是一樣的。

對計算機來說,識別兩張圖片的顏色是不是一致、描述這兩張圖片裡面的是不是同一件東

西或許做起來還可以,但是對於繪畫風格這樣的概念,是很難讓計算機實現的,因為繪畫風格這種東西的確很抽象,兩張使用不同的色彩、完全不同的繪畫,可能同屬一個繪畫風格,或者出自一位畫家之手。

小可:的確,這樣的工作由人來做的確可以相對輕鬆地完成,畢竟人對這種抽象概念的認

識還是要強於計算機很多的。如果這個人略懂藝術的話,那麼對於繪畫風格這樣的抽象概念也就可以在很短的時間內進行很有效的分辨。

Mr. 王:其實在資料庫中,也有眾包的例子。比如模糊匹配問題。假如有一個人叫張三,

在有些資料庫記錄中,可能被記作「張三」「、Zhang San」「、San Zhang」「、S.Zhang」「、Zhang,San」等,即使兩個名字是不同的形式,他們也可能是同一個人。在一些情況下讓計算機來做匹配也是有難度的,計算機往往會通過一些形如字元串匹配這樣的方法來判斷兩個名字是不是一個人,這樣仍然不夠準確。另外,很多名字相同的人,反而不是一個人,不過如果人參與識別的話,判斷兩條記錄是不是一個人,就可以通過比較名字、在現實世界的一定範圍內是不是有重名的人,或者是看看各關鍵字相關的記錄,比如頭銜、住址這樣的信息進行匹配。這些內容有時也是模糊的,比如同一個地址的描述方式有很多,但人依然容易識別它們,可以通過各種模糊邏輯處理方法來解決匹配問題。所以有些系統會藉助人的力量來完成這種工作,讓人參與到資料庫記錄的匹配和連接中去,實現更高精度和更好效果的連接。在這方面典型的例子是CrowdDB,如果你感興趣,可以查閱關於CrowdDB 的一些論文。

下期精彩預告:

經過學習,我們了解了一下了解眾包在業界的應用。在下一期中,我們將進一步研究一下眾包的一些特點。更多精彩內容,敬請關注燈塔大數據,每周五不見不散呦!

內容來源:燈塔大數據

文章編輯:柯一

每周學點大數據 | No.49 維基百科的策略中體現的「眾包演算法」的思想

每周學點大數據 | No.48 計運算元圖同構

每周學點大數據 | No.47 BSP 模型下的單源最短路徑

每周學點大數據 | No.46 MapReduce 平台的局限

每周學點大數據 | No.45 基於路徑的圖演算法

每周學點大數據 | No.44 MapReduce 圖演算法概述

每周學點大數據 | No.43 相似連接的可擴展性

每周學點大數據 | No.42 Hash join

每周學點大數據 | No.41 join 操作

每周學點大數據 | No.40單詞共現矩陣應用

...

【燈塔大數據】微信公眾號介紹:電信北京研究院通過整合電信自有數據、互聯網數據和線下數據,創建了業內領先的「燈塔」大數據行業應用平台,致力於與行業合作夥伴共同打造大數據行業應用生態圈。

【人工智慧】獲取人工智慧時代的發展思考 ppt

【半月刊】下載大數據瞭望半月刊

【網路安全】獲取國民網路安全報告全文

【23個理由】下載《大數據讓你興奮的23個理由》電子書

【思維導圖】下載12種工具的獲取方式

【 燈塔 】 查看更多關鍵字回復

閱讀原文了解更多詳情



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦