search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

大規模3D數據集ScanNet:讓機器人理解真實世界

雷鋒網按:國際計算機視覺與模式識別頂級會議CVPR 2017於 7 月 21 日—7 月 26 日在美國夏威夷召開。雷鋒網記者團也特赴夏威夷為大家帶來一手報道。在會上,許多傑出的青年學者都將介紹自己的研究和論文,雷鋒網也會對部分內容作介紹。

Angela Dai 是斯坦福大學的一名博士生,在 CVPR 上有一個 Spotlight talk,主要介紹 ScanNet,一個擁有標註過 3D 室內場景重構信息的大規模 RGB-D 數據集。

她最初的想法是,推動數據匱乏的機器學習演算法的發展,特別是在 3D 數據上。3D 數據包含更多信息,比如比如大小和物體之間的距離。但 3D 數據更難獲取,為其添加標註也更難,現在 3D 數據並不多。

Angela希望用 ScanNet 建立一個可擴展數據採集框架。他們首先需要收集 3D 重建數據,然後用有效的方式對數據進行標註,以便收集更多數據。目前團隊已經收集約 1500 個 RGB-D 的視頻序列,通過 iPad 應用加深度感測器而收集的。然後視頻會被上傳到伺服器,並被自動重建。然後,視頻會被給到亞馬遜 Mechanical Turk,將標註工作眾包出去。

數據標註是在一個給定的 3D 場景中,繪製出物體,例如,繪製一個椅子、桌子或者計算機,從而了解什麼是什麼,以及所在位置。每個圖像通常需要 5 個人來標註。所得數據可以在做物體分類這樣的訓練任務時,作為標準參考。

ScanNet 數據集可以幫助直接在 3D 數據上訓練演算法。例如,如果有一個機器人在房間移動,它需要識別房間里有什麼對象,而且不僅需要識別遠處有一個物體,還要確定這個物體是什麼。

Angela 和團隊還在現實數據上做了幾個場景理解的基準測試。因為現在已有的大型 3D 數據集都是合成的,這與現實世界收集的 3D 數據有很大不同。

通常情況下,如果你通過合成資料庫來訓練演算法,當演算法用於真實數據時效果不會太好,因為計算機並沒有學習到現實世界的數據特徵。現實中有很多噪音,很難觀察到一個對象的全部特徵。基準測試表明,計算機在真實數據中的訓練效果,比在合成數據中的訓練效果要好得多。真實數據以後會有更大的需求。

Angela 以前一直在研究 3D 重建,開發實時的 3D 重建系統,但她後來發現很難運用於實踐中,因為缺少對於場景的語義理解。在一個場景中,人們會希望知道物體在哪個位置,到底是什麼物體,這樣還可以有虛擬助手或聊天機器人一樣的東西,幫助做場景的交互。這也是她開發新的數據集的原因。

另外,除了眾包標註任務,他們也希望能眾包場景重建任務。除此之外,在語義理解方面還要做很多工作。但他們現在的任務是,解決物體識別。3D 場景數據未來還會有更多有趣的應用。

Angela 還很感興趣於將真實世界的數據與合成的 CAD 模型相結合,相關聯起來。這麼做的一個好處是,合成數據比較容易獲得而且易於操作,如果合成數據與真實數據建立了聯繫,那就可以讓在模型上訓練的系統,更容易遷移到真實數據上。

當然,更重要的任務是給 3D 數據賦予語義解釋,這有利於使機器人更好地理解世界。

關於ScanNet的論文,在這裡下載



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦