Zi 字媒體

大規模3D數據集ScanNet：讓機器人理解真實世界

2021/12/25

雷鋒網按：國際計算機視覺與模式識別頂級會議CVPR 2017於 7 月 21 日—7 月 26 日在美國夏威夷召開。雷鋒網記者團也特赴夏威夷為大家帶來一手報道。在會上，許多傑出的青年學者都將介紹自己的研究和論文，雷鋒網也會對部分內容作介紹。

Angela Dai 是斯坦福大學的一名博士生，在 CVPR 上有一個 Spotlight talk，主要介紹 ScanNet，一個擁有標註過 3D 室內場景重構信息的大規模 RGB-D 數據集。

她最初的想法是，推動數據匱乏的機器學習演算法的發展，特別是在 3D 數據上。3D 數據包含更多信息，比如比如大小和物體之間的距離。但 3D 數據更難獲取，為其添加標註也更難，現在 3D 數據並不多。

Angela希望用 ScanNet 建立一個可擴展數據採集框架。他們首先需要收集 3D 重建數據，然後用有效的方式對數據進行標註，以便收集更多數據。目前團隊已經收集約 1500 個 RGB-D 的視頻序列，通過 iPad 應用加深度感測器而收集的。然後視頻會被上傳到伺服器，並被自動重建。然後，視頻會被給到亞馬遜 Mechanical Turk，將標註工作眾包出去。

數據標註是在一個給定的 3D 場景中，繪製出物體，例如，繪製一個椅子、桌子或者計算機，從而了解什麼是什麼，以及所在位置。每個圖像通常需要 5 個人來標註。所得數據可以在做物體分類這樣的訓練任務時，作為標準參考。

ScanNet 數據集可以幫助直接在 3D 數據上訓練演算法。例如，如果有一個機器人在房間移動，它需要識別房間里有什麼對象，而且不僅需要識別遠處有一個物體，還要確定這個物體是什麼。

Angela 和團隊還在現實數據上做了幾個場景理解的基準測試。因為現在已有的大型 3D 數據集都是合成的，這與現實世界收集的 3D 數據有很大不同。

通常情況下，如果你通過合成資料庫來訓練演算法，當演算法用於真實數據時效果不會太好，因為計算機並沒有學習到現實世界的數據特徵。現實中有很多噪音，很難觀察到一個對象的全部特徵。基準測試表明，計算機在真實數據中的訓練效果，比在合成數據中的訓練效果要好得多。真實數據以後會有更大的需求。

Angela 以前一直在研究 3D 重建，開發實時的 3D 重建系統，但她後來發現很難運用於實踐中，因為缺少對於場景的語義理解。在一個場景中，人們會希望知道物體在哪個位置，到底是什麼物體，這樣還可以有虛擬助手或聊天機器人一樣的東西，幫助做場景的交互。這也是她開發新的數據集的原因。

另外，除了眾包標註任務，他們也希望能眾包場景重建任務。除此之外，在語義理解方面還要做很多工作。但他們現在的任務是，解決物體識別。3D 場景數據未來還會有更多有趣的應用。

Angela 還很感興趣於將真實世界的數據與合成的 CAD 模型相結合，相關聯起來。這麼做的一個好處是，合成數據比較容易獲得而且易於操作，如果合成數據與真實數據建立了聯繫，那就可以讓在模型上訓練的系統，更容易遷移到真實數據上。

當然，更重要的任務是給 3D 數據賦予語義解釋，這有利於使機器人更好地理解世界。

關於ScanNet的論文，在這裡下載。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點