Zi 字媒體

WRC 專題論壇演講實錄丨薛建儒：無人車場景計算與自主運動的研究進展

2021/12/25

由人工智慧學會、電子學會聯合主辦的「智能機器人產業發展專題論壇」於8月23日上午在北京亦創國際會展中心的二層會議室C成功舉行。

本論壇邀請了中外產、學、研、用等領域的知名專家學者參與，圍繞國內外機器人和智能科學的發展熱點和轉型支點，聚焦智能機器人的智能裝備和核心技術，共同探討智能機器人發展的創新與變革。

來自西安交通大學教授、長江學者薛建儒教授，在他的《無人車場景計算與自主運動的研究進展》的報告中，給參會人員帶來了他關於無人駕駛的多年的研究成果，主要介紹了自主智能技術在無人駕駛上的運用，並提出未來無人車的計算框架可能就是一個深度學習＋GPU這樣的一個計算模式。

以下是薛建儒教授的演講實錄：

薛建儒，西安交通大學教授,長江學者

薛建儒：感謝陳老師陳教授的邀請，我今天報告的題目是無人車場景計算與自主運動的研究進展，我來自西安交通大學，我從四個部分來給大家彙報一下我們在無人車方面所做的一些工作。首先對無人駕駛做一個簡單的概括性介紹。因為無人駕駛這個事情現在非常熱，剛才也有人提問無人駕駛。這是美國自然雜誌2015年刊登的一篇特稿，描繪了無人駕駛廣泛應用的願景及展望，作者認為2020年無人駕駛車將廣泛使用，將徹底顛覆我們未來的出行模式。表現為三個方面的巨大變化，一是更安全，二是更綠色，三是車輛共享，將來停車場就極大的縮小，節省出來很多的空間。

從技術角度看，無人駕駛技術有兩條主要的技術路線，一個是自主智能，通過多感測的融合感知和魯棒優化的運動控制使車能夠適應交通場景。一個是互聯智能，也就是通過車和車之間、車和交通設施之間的聯網通訊來適應交通場景。這兩條技術路線其實最終都會匯合在一起。我今天報告主要集中在無人車的自主智能。自主智能要解決的問題就是形成從感知和運動的閉環。因此必須解決兩個核心問題，一個是場景感知與理解，二是駕駛決策、規劃和控制。我們可以把這兩個問題歸結為兩個方面：一個方面是場景計算，我們要將從多個感測器的場景感知數據轉化為自主運動的決策依據。一個方面是自主運動，就是在場景理解的基礎上做行為決策、局部運動規劃，然後通過反饋控制來自主的運動控制。

場景感知系統用到三大類感測器：可見光相機、激光雷達和毫米波雷達，這三類感測器的感知範圍、作用距離都不一樣，不同的感測器可用於不同的駕駛任務。這個表的左邊給出來輔助安全駕駛的功能。大家可以看到視覺幾乎可以用在所有的自動駕駛任務中。但是目前計算機視覺在自動駕駛中所發揮的作用與人類駕駛員相比，幾乎可以忽略不計，造成這種現象的原因很多，後面我會講到。

我們知道要實現自主運動首先要規劃路線，這個可以離線來完成，剩下的三個需在線實現。根據給定的路線在路段裡面，要左轉右轉車道保持這是行為決策。確定行為決策以後要讓車沿著規劃的路徑或者軌跡來運動，這是局部路徑的規劃。最後就是要實現反饋控制，通過控制方向盤、油門和踏板使車沿著預期規劃好的路徑行駛。

以上是無人車的基本概括。下面第二部分介紹無人車的場景計算。無人車場景計算就是分析處理多感測器的場景感知數據，提取兩個方面信息，第一個幾何度量信息，也就是車所在的位置和車道線和道路邊界，以及和其他車之間的相對位置關係到底是什麼。第二個要根據周圍車輛和行人的運動意圖推測將來一段時間無人車如何實現安全行駛。因此，我們可以把場景計算的任務分成三個層面。第一個層面是獲得場景的三維信息和運動信息，在這個基礎上我們要形成對場景的拓撲結構的一種表示，也就是說現在周圍有幾個車，我所在車道在哪裡，然後道路的邊界在哪裡。第二個層面，是要理解交通標誌、需要遵守的交通規則是什麼。第三個層面的計算是需要做出推理和判斷，這個時候要車道保持還是要換道，還是前方路口要左轉還是右轉。所以場景計算就是要實現從幾何度量到推理預測的轉變。

我們來看看場景計算的具體實現。其實可以把它進一步分解成兩個方面。第一方面就是從靜態角度來看場景，只考慮場景的靜態部分，不考慮運動的車輛和行人，從幾何拓撲結構，比如道路邊界，這個路有多寬，有幾個車道，車道線在哪裡，車道線到底是黃線、虛線還是實直線。解決這些問題需要把地圖和感知數據結合起來，形成場景中交通要素的幾何度量，並且把它們的拓撲結構要提取出來。從動態角度，主要考慮交通參與者，比如說車輛、行人所佔據的車道和空間，它們的運動軌跡以及對它們將來一段時間的運動預測。動態場景理解必須把交通規則和障礙物的檢測跟蹤結合起來。由於運動規劃是對將來運動的規劃，所以要基於當前的感知要推測將來的運動。

靜態場景的第一個問題就是基於幾何度量的定位。常用方法是用GPS+地圖，但是GPS並不是每個時刻都有，而且現有的地圖都是給人看的，它的解析度及對場景的描述能力並不適合無人車用。對於無人車來講要實現車道保持，定位精度必須到10厘米以內才可以。所以這就引出來一個高精度地圖構建的問題。高精度地圖在地圖裡嵌入了感知數據以提解析度和對場景的描述能力。這種離線創建的地圖實際上把很多視覺數據、激光數據的結構化信息放到地圖裡面來提高地圖的表徵能力。地圖創建與定位是耦合關係，位置本身就測不準，地圖創建的時候又要依賴於位置的信息。

這個演示是我們的無人車如何自主從地下車庫開出來。無人車先離線建立一個地下車庫的地圖，然後基於地圖+感知數據的定位方式，無人車從這個地下車庫開出來。剛才講的地下車庫是一個非結構化的場景。車所行駛的環境並不是每個地方都有車道線，沒有車道線的地方就是一個非結構化場景，非結構化場景就需要建立地圖。在結構化場景裡面我們需要把車道線和道路邊界信息一起放到地圖裡面，這裡面解決的問題是多源感測數據的時空對齊，比如我們不能單純靠視覺，要通過激光和視覺融合來構建場景地圖。要解決配准問題，因為多感測器的採集頻率不一樣、尺度也不一樣。我們提出了一個方法高效的高維點集配准演算法。

有了度量地圖以後，環境感知對於路口的車道引導、對於特定區域感知以及對交通信號燈的識別變得就非常可靠。特定區域，例如收費站就是一個非結構化的場景。交通燈的識別在計算機視覺領域裡面大家都覺得非常簡單，但是在實際應用中我們會發現這個交通燈的識別單純靠圖像識別很難做到非常可靠。我們在地圖裡面加入了交通燈位置信息，這樣就可以根據當前車輛位置預測交通燈出現在圖像的什麼地方，減小搜索範圍，虛警率會降低很多。

對動態場景而言，我們要在障礙物比如行人和車輛檢測和跟蹤的基礎上，解決預測運動意圖問題。這種運動意圖的預測必須要結合交通視覺知識。怎麼來實現視覺知識表示與學習，就要用到機器學習方法。我們要標註場景的感知數據，通過檢測跟蹤得到位置序列，對位置序列來學習進行預測他的運動意圖。這裡面的難點就是魯棒可靠的檢測與跟蹤，重點是學習路口區域的車輛和行人通行的行為模式。以往的對障礙物的檢測、跟蹤與識別研究都是分開去做的，但是在實際應用裡面其實這三個問題耦合在一起，是一個問題。靠單個感測器是不行的，視覺目標檢測中，比如行人檢測、車輛檢測目前只能做到80%的檢測率，所以需要把激光和相機融合起來，這裡面要解決的一個問題就是兩個感測器之間的標定。我們有個工作是把激光數據映射到圖像裡面去，比如把四線的激光數據映射到圖像裡面。因為激光相對來說是比較可靠的，所以它可以給我們很多先驗知識，有利於提高檢測跟蹤和識別的準確率。相機與激光雷達的標定誤差會隨距離發生非線性變化，對於車輛往往要求我們檢測範圍在100米左右，這樣的情況下誤差變得非常大，所以我們需要把圖像裡面的結構化裡面與激光的深度結構信息對應，這裡我們用深度邊緣和圖像邊緣來對應，成功將三維激光點雲數據映射到圖像上，然後實現可靠的障礙物檢測和識別。這裡的視覺檢測框架就是Faster RCNN，一種很好的深度神經網路，在視覺檢測結果上用三維點雲再去做一次校驗，可以把虛警降低很多。

這是我們最終實現的用於無人車的視覺主導的場景計算框架。我們解決了一個多感測信息的跨尺度的時空配准，構建了場景集成計算框架，這個框架從2010年一直做到現在，在智能車上進行真實交通環境的實地驗證，一直不斷地在改進。這個框架不僅僅是把多感測的信息對齊配准，而且我們把地圖的信息也放進來，這樣它的定位和對行駛移動環境的理解變得能夠滿足無人車的自主運動的需要。

剛才講到的是場景的計算要解決的主要問題，下面我彙報第三個部分內容。有了交通場景的結構化描述以後無人車如何實現自主運動？我們知道從感知到運動的環路是無人車自主運動的基礎。這裡面我們要考慮場景感知和運動控制裡面都存在不確定性，比如場景感知的定位會有隨機誤差，另外在無人車的運動控制也有隨機誤差，比如說我們讓它的速度到40公里，那它可能到39.5公里，這也存在不確定性。這兩方面的不確定性在車輛運動的規劃的時候必須同時考慮。

運動規劃是在位形空間中搜索最優路徑。具體來說，就是把場景的結構化信息要映射到無人車的位形空間裡面去。無人車的狀態描述有六維，XYZ和它的三個角度，在這六維空間裡面尋找一個無碰撞的車的位置和姿態序列，這個序列是我們進行運動控制的一個期望的輸入。這裡主要是解決優化問題，也就是說我們形成的位置序列應該是光滑的，是應該能夠適應車輛的運動約束。因為我們車的運動不像機器人可以360度隨便轉，它有一個非完整性的約束，比如它有轉彎半徑，有速度極限，怎麼在滿足這個約束的情況下得到最優的路徑，這是運動規劃的問題。路徑和軌跡兩種運動規劃的結果，路徑是幾何描述，軌跡幾何信息基礎上增加了時間信息，也就是說每一個時刻車不僅僅有位置約束，而且對它的速度也有約束。

運動規劃的方法比較多，我們提出了一種高效的快速擴展隨機樹演算法。剛才我講到，交通場景是由結構化場景和非結構化場景混雜在一起，對於結構化場景來講，路徑規劃可用幾何曲線，比如車道保持，只要行駛在車道中間。要換道就是從這個車道中間換到另外一個車道中間，但是對於路口，對於收費站等等這樣非結構化要用隨機搜索演算法。但是怎麼尋求一種能同時用於結構化和非結構化環境的運動規劃演算法？我們把非結構化環境的運動規劃演算法進行了擴展，使得它同時能夠適應結構化的運動規劃的問題。這裡面有兩個視頻，一個其實在2015年的無人車比賽裡面，經過一個野外的路徑，還有晚上在城區環境裡面自主行駛的一個視頻。

場景理解的研究中已經有大量深度學習技術，在無人車自主運動裡面，機器學習也大有用武之地。比如說可以用強化學習，通過車輛跟環境的交互來學會自主駕駛。輸入場景圖像序列，得到運動控制序列，這叫端對端的學習。從場景理解到運動控制有很長的技術鏈路，端對端的學習希望輸入感知數據，輸出車輛的方向盤轉動量、油門和踏板的控制量，目前有很多人在做這方面的研究，基本思路就是把深度神經網路和強化學習結合起來，來實現端對端的自主駕駛策略學習。

最後，我做一個總結和展望。我們團隊從2009年開始做無人車。2009年國家自然科學基金委啟動了視聽覺信息認知計算的重大研究計劃，這個重大研究計劃把無人車作為物理載體來驗證視覺信息的認知計算的模型和演算法。每年舉辦一次無人車的比賽。我們團隊從2009年到現在連續八年每次都參加，這些是參加比賽的一些視頻。我們可以展望一下無人車技術的未來發展趨勢。無人車的場景計算和自主運動的框架都被認為是深度學習+GPU，也就是車載計算平台肯定是要用GPU的，因為我們要用到深度學習。英偉達也推出一個深度學習的車載計算平台PX2。特斯拉的新車上已搭載了PX2。深度學習在場景圖像的語義標註上取得了很好的結果，對每一個像素到底屬於天空、道路，是行人還是車輛都可以標註出來。這種場景語義對於車做更加智能的決策和規劃會起到一個很好的支撐作用。

最後一個問題就是如何測試無人車安全性。我剛開始講的時候提到大家都預測2020年無人車會得到大範圍的應用，其實這裡面有一個概念不清的問題，自動駕駛並不等於無人駕駛，無人駕駛是自動駕駛的最高階段。從自動駕駛到無人駕駛仍然有非常長的距離。比如安全性測試。剛才也有聽眾在問我特斯拉自動駕駛導致的交通事故，其實導致這個事故的根本原因就是視覺識別出現了錯誤，因為特斯拉走的是一個比較激進的技術路線，他是要降低車輛的成本，所以他只用視覺，沒有用激光和雷達，當然他現在把雷達加進去了，但是激光仍然沒有加進去。安全性測試實際上是要解決一個小概率事件問題。我們在實驗室裡面能夠想到的交通場景是有限的，真實的交通場景變化是無窮的，我們不可能窮盡所有可能。

真實環境的無人車測試和實驗室的測試都必不可少。我們國內已經新建了好幾個無人車的測試基地。測試的模式都是實地測試+模擬+雲端。也就是說特斯拉的車輛的行駛過程的實際行駛數據都會上傳到雲端，雲端有對模型演算法的更新然後再來升級車的自動駕駛性能。其實這種測試模式也是目前無人車發展走向實際應用必須經過的一條路徑。

我的報告就到這裡，謝謝大家！

主持人陳小平：感謝薛教授的報告，有沒有問題？薛教授是做了一些前沿研究，而且在無人車上，把整個無人車作為一個平台開發出來，然後長期的做研究和測試。

聽眾：謝謝薛老師的報告非常精彩，我可能問題比較寬泛一點，因為無人車現在得到非常廣泛的關注，全世界大汽車製造廠，包括研究機構都在關注這個領域。那麼就是說我們國家在計劃上也有這一塊，就是我們國家在無人車自動駕駛這個方面，您覺得我們的優勢或者是特色是什麼？

薛建儒：這個問題我只能談一談我個人的粗淺的看法，因為我們在做無人車實際上是在基金委他的資助下，主要是強調視聽覺信息，比如說我們無論是在場景的計算還是在自主運動方面強調視覺信息，因為視覺信息其實應該是無人車實現的一個最低成本的技術方案。當然現在你看現有的無人車裡面，視覺在裡面起的作用還是非常有限的，比如特斯拉，還有現在目前百度，還有美國DARPA無人車比賽裡面他的無人車主要是依賴於激光和毫米波雷達再加上GPS。但是現在大家都認為視覺它是一個非常有前景的技術路線。

CAAI原創丨作者薛建儒

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點