Zi 字媒體

碼隆科技獲得大規模視覺理解競賽WebVision第一名 | 將門投資企業

2021/12/25

2017 年 7 月 26 日，CVPR 2017 研討會「超越 ILSVRC」將正式宣布 ImageNet 競賽結束。然而，這並不代表著領域對圖像識別興趣的消退。實際上，相關的關注度正在走高。

ImageNet 競賽對計算機視覺尤其是圖像識別技術的發展起到了很大貢獻，其中，擁有大規模人工標註數據集這一點十分關鍵。但是，收集由人工精心標註的數據用於訓練成本高昂。很多實際領域，如商業、金融、醫療等，面臨的問題不是缺少數據，而是數據缺乏專家標註和標註不統一。因此，越來越多的研究者開始關注利用低成本數據（比如不含人工註釋的數據）來訓練圖像識別系統。

在不同的解決方案中，從互聯網抓取數據和使用網路作為學習深度表徵的監督來源在各種計算機視覺應用中都顯示出了很強的實用性。

今年上半年，蘇黎世聯邦理工大學聯合谷歌蘇黎世研究院等機構發布了一個名為 WebVision的大規模 Web 圖像數據集，用於視覺識別。基於此數據集，他們還舉辦了一個視覺理解挑戰「Challenge on Visual Understanding by Learning from Web Data」，也即 WebVision 競賽。

接棒 ImageNet 的 WebVision 競賽：難度更高，更貼近實用

WebVision 競賽由蘇黎世聯邦理工（ETH）、Google Research、卡耐基梅隆大學（CMU）等共同組織，被譽為接棒 ImageNet 的競賽。ImageNet 和 WebVision 皆專註於物體識別，使用相同的 1000 個物體類別進行識別競賽；但兩者數據的純度和平衡度有根本差異。

WebVision 所用數據集直接從互聯網爬取，沒有經過人工標註，數據含有很多噪音，且數據類別的數量存在著極大不平衡，相較於 ImageNet 比賽數據都屬乾淨數據（完全人工標註），WebVision 難度提高許多，但同時也更加貼近於實際應用中的場景。

據悉，WebVision 資料庫涵蓋了直接從網路收集到的 240 萬張圖像，包括來自谷歌搜索的 100 萬張，以及來自 Flickr 的 140 萬張圖像。

此次WebVision資料庫有極大的不平衡性

這次全球有超過 100 個團隊註冊參加 WebVision 競賽，並因為參賽團隊過多一度將比賽截止日期延期。一些團隊在比賽后選擇匿名並不公開結果，在公開提交結果的團隊中，SnapChat、清華大學、上海科技大學、UCF 等來自世界各國的頂尖學術和研發機構均榜上有名。

全球有超過 100 個團隊註冊參加此次 WebVision 競賽

有越來越多的觀點認為，最近兩屆的 ImageNet 挑戰賽更多比拼的是人力與機器算力，而不是演算法本身。 ImageNet 的既定資料庫已經很難催生突破性深度學習技術。或許，這也是 WebVision 競賽有眾多團隊參與的原因之一。WebVision 更加複雜和不平衡的資料庫更具有演算法挑戰性，也會驅動演算法的創新。

冠軍團隊技術分享

值得一提，來自的初創公司團隊碼隆科技取得了這次 WebVision 競賽的第一名，他們提交的五次識別結果正確率，佔據了全部識別結果正確率排名的前五名，並且最佳結果（94.78%）比第二名高出 2.5%，這在計算機視覺的技術競賽領域是很大優勢（去年 ImageNet 圖像識別比賽第一名只比第二名高出 0.04%）。

碼隆科技的演算法工程師在接受新智元採訪時表示，由於 WebVision 和 ImageNet 相比，主要挑戰是數據沒有經過人工標註，含有大量的噪音，所以他們採用了半監督學習的方式。

研究人員首先利用所有的元數據訓練一個粗模型，利用這種粗模型對所有元數據提取一種特徵表示。然後，引入課程學習（curriculum learning），設計了一種聚類演算法，將每一個元數據類別聚成了不同層次的類別，其中有一個類別屬於比較乾淨的類別。然後，利用這個這組乾淨的數據訓練一個精細模型。通過逐步增加雜訊數據的數量，提升模型複雜度和泛化能力。

對於獲勝得到的最大啟發，碼隆演算法團隊表示：

「這個比賽最大的目的就是如何利用非人工標註的數據來訓練一個更好的深度模型。在比賽初期，我們通過仔細審查的舉辦方的數據，發現數據裡面有非常大比例的數據標註是錯誤的。於是，我們摸索了一種針對含有雜訊數據的訓練策略，該訓練策略第一次將半監督學習（Semi-Supervised Learning）與課程學習（curriculum learning （2009 年由 Y. Bengio 等提出）這種學習方式引入到大規模的雜訊數據訓練中。

「新設計的演算法策略有效地抑制錯誤標註的負面影響。最重要的是，這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性，同時讓所訓練的模型比用 ImageNet 人工標註數據所訓練的模型具有更好的泛化能力，具有更強的通用性，能夠更好的遷移到其他相關任務。」

WebVision 競賽結果表明，現代深度學習技術可以不完全以人工標註數據為基礎，為今後研究通用的半監督和無監督學習打開了一扇門，也為弱人工智慧到強人工智慧的發展邁出重要一步。

超越 ILSVRC：側重圖像學習和理解的 WebVision 競賽

摘要

我們提出 2017 年 WebVision 競賽，這是一項公開的圖像識別挑戰賽，旨在基於網頁圖像進行深度學習，而無需人手工對實例進行標註。此前的計算機視覺挑戰賽，如 ILSVRC、Places2 和 PASCAL VOC，通過提供大量的註釋數據，用於模型設計和標準化的基準測試，為計算機視覺的發展發揮了關鍵作用。為了延續它們的精神，我們在本屆 CVPR 2017 舉辦研討會，進行一項基於大規模網路圖像數據集的公開競賽。WebVision 數據集包含從互聯網上用爬蟲收集的 240 多萬的網路圖像，方法是使用從 ILSVRC 2012 基準中的 1000 個語義概念生成的查詢（query）。元信息（Meta information）也包含在內。

此外，WebVision 數據集也提供檢驗數據集和測試數據集，這些數據集中的數據都帶有人手工標註的標籤，從而便於演算法的開發。2017 年 WebVision 挑戰賽分為兩類，一是在 WebVision 測試數據集上進行圖像分類，以及在 PASCAL VOC 2012 數據集上進行遷移學習。在本文中，我們描述了數據收集和註釋的細節，突出了 WebVision 數據集的特點，並介紹了相關評估指標。

想和WebVision冠軍一起探索深度學習世界嗎？碼隆科技演算法團隊海景辦公室招募 Research Scientist, Research Engineer and Research intern，歡迎投遞簡歷至[email protected]！

-END-

將門招聘

將門創投正在招募編輯、運營類全職/實習生崗位，工作地點在北京三元東橋附近，期待熱愛技術的你到來，和我們一起見證技術創新的傳奇！

歡迎發送簡歷至>>[email protected]

詳情>>將門招聘 | 如果你也和我們一樣，相信技術是引爆下一輪商業變革的核武器

將門是一家專註於發掘、加速及投資技術驅動型創業公司的創業服務和投資機構。

將門創業服務專註於為技術創新型的創業公司連接標杆用戶和落地行業資源。

將門技術垂直社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容。

將門投資基金專註於投資通過技術創新激活商業場景，實現商業價值的初創企業。關注領域包括：機器智能、物聯網、自然人機交互、企業計算。

獲取將門投資>>[email protected]

將門創投

讓創新獲得認可！

[email protected]

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點