Zi 字媒體

杜克大學研究讓機器人擁有真正的3D視覺

2021/12/25

為了讓機器人能夠勝任更複雜的工作，機器人不但要有更好的控制系統，還需要能更多地感知環境的變化。如今的機器人可以深入核電站進行調查、清理海洋石油泄漏、組建無人軍隊、探索火星表面……但神通廣大的它們甚至無法像人類一樣簡單地喝一口茶。

今年5月，AlphaGo與柯潔對弈時曾在己方一側起手落子，這違反了對弈的禮儀，引發了激烈爭論。事後據DeepMind工作人員解釋，計算機無法分清上下左右，那只是無心之失。即使聰明如AlphaGo，它也分不清2D圖像的方位，對於其他機器人來說，擁有能感知到水壺、方糖、牛奶的能力，更是遙不可及。

當人類從一個特定角度看物體時，他們往往能直觀地知道它是什麼，甚至可以立即繪出物體的俯視圖、正視圖、側視圖，這裡有一種「想象」（聯繫經驗）的能力。不同於人眼，機器人利用感測器和相機，能輕易捕捉到物體的圖像，甚至是3D圖像，但在只有一個角度圖像的情況下，機器人是無法一眼判斷出物體的原型的，這還是目前機器視覺研究的一個難點。

在7月12日召開的「2017機器人：科技和系統大會」上，杜克大學的研究所本·比奇費爾（Ben Burchfiel）和布朗大學教授George Konidaris展示了他們的科研新成果——一種針對機器3D視覺的演算法。根據這個演算法，機器人能在只看到物體的一面，甚至是一部分的情況下，準確地推測出它的3D模型。

左側為提供的3D模型，右側為實際3D模型，中間為機器人預測模型

研究人員選取一些常見的家居物品進行了4000次完整的3D掃描。掃描獲得的3D圖像被切割成一個個體素，像樂高積木一樣堆疊在一起。該演算法通過梳理每個對象的示例，並使用一種名為「概率主成分分析」的技術了解它們的變化以及它們如何保持不變。舉個例子，就是當機器人觀察一張床時，它只需根據特徵體素比對就能知道面前的物品是床，而不必從各個方向搜集圖像構建完整模型。

為了測試這種演算法，研究人員又對10種相同的物品進行了掃描，共獲得908幅俯視圖。實驗證明，機器人在大多數情況下能準確猜出對象是什麼，並繪製完整3D模型（包括隱藏部分）。它的用時為一般機器人的75%，正確率在50%以上。

當然這個演算法也存在缺陷。機器人「猜物」依據的是系統提供的掃描圖，但許多明顯不同的物品在某些角度會呈現相同的形狀特徵，如普通箱子的俯視圖和桌子一樣是方形的，在這樣的情況下，機器人會被「迷惑」。因此這個演算法還在實驗階段，並不能馬上被產品化。

Burchfiel表示，接下來研究團隊的研究方向是演算法效率的提升，他希望機器人能在短時間內識別成千上萬種物品。同時，重建3D圖像（「想象」）也是一個主攻方向，未來機器人將突破「視覺」盲點限制，更準確地呈現物品原貌。

原文：Helping robots learn to see in 3-D

; Email：[email protected]歡迎投稿，歡迎分享，轉載請註明聲明：本文發表僅是出於傳播信息需要，並不代表本平台觀點

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點