search
李飛飛協同斯坦福、CMU帶來全新成果:從網路嘈雜的視頻中進行學習

李飛飛協同斯坦福、CMU帶來全新成果:從網路嘈雜的視頻中進行學習

李飛飛作為人工智慧領域鮮有的活躍女性學者,不知道這一次她又帶領著團隊做出了怎樣的貢獻呢?趕緊隨雷鋒網()AI科技評論來看看吧。這項研究是李飛飛團隊在今年CVPR上的一項最新工作,該方法提出了一種模型用於自動標註網路中巨量的嘈雜視頻。

以下內容是雷鋒網AI科技評論根據論文內容進行的部分編譯。

論文摘要

人類行為多種多樣,而要如何才能讓機器理解具有多樣化和細粒度的人類行為,則是計算機視覺領域中的一個關鍵性的開放問題。通過手工的方式標註訓練視頻,對於少數的動作類型是可行的,但是這種策略無法完整覆蓋豐富多樣的所有動作。

圖一,該論文中的模型使用一組標註數據來學習如何為新的沒有見過的動作類別進行標註的策略。這樣可以學習特定領域的專有知識,以及如何在避免語義漂移(Semantic drift)的同時選擇不同的範例。比如,該模型可以從訓練數據中進行學習,如圖所示,其中人的動作線索對正確動作分類的幫助更大(比如「騎馬」),而不是動物的外形。在測試期間,這種知識可以被應用於標記一些全新類別的嘈雜數據,比如「飼養動物」,而傳統的半監督方法則是基於視覺相似(Visual similarity)性進行標註。

當前,解決這一個問題的一個可能有效的策略是,使用半監督(Semi-supervised)或者「網路監督(Webly-supervised)」的方法,利用來自網路檢索所產生的嘈雜數據來學習新的動作。然而,這些方法要麼通常無法學習到特定領域的知識(Domain-specific knowledge),要麼依賴於需要不斷迭代的手工調整的數據標籤策略(Hand-tuned data labeling policies)。據雷鋒網了解在這項研究中,李飛飛她們團隊提出了一種基於增強學習(Reinforcement learning-based)的方法,該方法能夠從嘈雜的網路檢索結果中篩選出適合於訓練分類器的樣本。

圖二,模型框架圖。該模型使用從網路搜索所得的候選示例集,為特定的視覺概念學習分類器。在每一個時間節距(time step)t,模型通過Q-learning的智能體來選擇樣本(比如Dk),並將該樣本加入到已經存在的正樣本數據集Dt-1中構成訓練樣本。然後該訓練樣本被用於訓練視覺分類器。分類器將同時更新智能體的狀態st+1並提供一個獎勵rt。然後在測試期間,經過訓練的智能體能夠用於從任意的全新的視覺概念的網路檢索結果中,自動選取出正樣本。

該方法的核心思想是,使用Q-learning來學習一個小型標籤訓練數據上的數據標籤策略,然後再利用該模型來自動標註嘈雜的網路數據,以獲得新的視覺概念。

據雷鋒網了解,為了驗證該方法,研究員們在當前最富有挑戰性的動作識別數據集Sports-1M上進行了實驗,實驗內容包括動作識別基準、細粒度和新動作類別預測。通過實驗證明了該方法能夠為嘈雜數據學習到足夠好的標籤,並且使用這些標籤能夠學習到準確的視覺概念分類器。

Via Learning to Learn from Noisy Web Videos

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860316篇文章,獲得23299次喜歡
留言回覆
回覆
精彩推薦