search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

CVPR2017精彩論文解讀:效果更顯著的模型壓縮演算法和泛化優化演算法

雷鋒網 AI科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是優必選悉尼AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮演算法》和《利用奇異值界定提升深度神經網路訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。

基於低秩稀疏分解的深度模型壓縮演算法——On Compressing Deep Models by Low Rank and Sparse Decomposition

深度學習極大地促進了人工智慧的發展,同時也帶來了新的挑戰:深度神經網路往往需要消耗巨大的存儲和計算資源。這極大地限制了深度學習在計算能力有限的平台(如移動手機)上的應用。深度模型壓縮旨在挖掘並去除深度神經網路中參數和特徵的冗餘信息,從而達到減少網路參數,降低存儲和計算量的目的。以往的很多壓縮演算法基於低秩分解法和剪枝法,但是壓縮效果還有待繼續提升。這篇論文通過對參數矩陣的可視化觀察和研究,發現參數矩陣往往同時具備低秩與稀疏的性質。如圖1所示,低秩部分包含了大量的光滑分量,而稀疏部分含有諸如方向的重要信息。因此,優必選悉尼AI研究院提出了基於低秩稀疏分解的壓縮演算法。

圖1:參數矩陣的低秩稀疏分解,低秩與稀疏矩陣參數數目減少至原始矩陣的1/4

為了解決最終精度急劇下降的問題(如圖2),這篇論文進一步提出了一種非對稱的特徵重建方法,該方法使得壓縮網路的最終輸出與原始網路的輸出接近,從而降低精度損失。

圖2:逐層的分解近似造成誤差累積

另外,這篇論文提出了一種新的GreBdec演算法,該演算法極大地加速了分解運算。它還顯著地降低了經過參數矩陣近似后的網路的精度損失(圖3)。同時,在精度損失很小的情況下,將AlexNet和GoogLeNet分別壓縮至原來的1/10和1/4.5(如表1)。

圖3: 重新訓練前的壓縮率與精度對比,新的方法優於剪枝法和奇異值分解

表1:重新訓練后的壓縮率與精度對比

利用奇異值界定提升深度神經網路訓練效果和識別精度——Improving training of deep neural networks via Singular Value Bounding

深度學習是近年來圖像識別、語音分析、自然語言處理等人工智慧領域取得突破性進展的關鍵技術。但是,目前主流深度學習模型還是基於隨機梯度下降進行優化的。在優化過程中,對深度模型參數(權重矩陣)解的性質並沒有明確的認識和目標。基於以上考慮,本工作通過對深度線性網路的理論分析及深度非線性網路的實驗分析,大膽推斷在深度模型的整個優化過程中保持權重矩陣(近似)正交(如圖4所示),從而更有效地實現學習目標,提升網路的精度和泛化能力。同時,本工作進一步提出奇異值界定(Singular Value Bounding)的演算法,在不增加或少量增加計算量的情況下近似而快速地實現了權重矩陣的正交約束。

圖4:深度網路權重矩陣流形優化示意圖(左);本工作提出奇異值界定(Singular Value Bounding)演算法,近似而快速地實現了權重矩陣的正交約束(右)

批量標準化(Batch Normalization)是實現現代超深網路有效訓練的關鍵性技術,但其具有使得網路各層高維特徵空間各個方向信息(前向和後向)傳遞不均衡的潛在風險。基於與上文類似的考慮,本工作進一步提出了有界批量標準化(Bounded Batch Normalization)演算法,從而有效實現批量標準化技術和奇異值界定演算法的無縫連接。

本工作提出的奇異值界定和有界批量標準化演算法能夠用於包括卷積網路、殘差網路(ResNet)、寬殘差網路(Wide ResNet)、稠密連接網路(DenseNet)等在內的各種主流網路架構。在CIFAR和ImageNet等圖像識別標準評測資料庫上,奇異值界定和有界批量標準化演算法能夠對這些網路進行顯著且穩定的精度提升,並在CIFAR資料庫上取得目前世界領先的識別準確率。

圖5:基於寬殘差網路(Wide ResNet),本工作提出的奇異值界定(Singular Value Bounding)和有界批量標準化(Bounded Batch Normalization)演算法取得在CIFAR圖像識別標準評測資料庫上領先的識別準確率

CVPR 2017有兩個Workshop,對應了兩個機器視覺的競賽,分別是ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)和VQA(Visual Question Answering)。

ILSVRC 2017就是著名的ImageNet的競賽,今年是最後一屆。其中任務三是視頻物體檢測(Object Detection from Video)競賽,包括四個項目:給定訓練數據條件下的視頻物體識別、額外訓練數據條件下的視頻物體識別、給定訓練數據條件下的視頻物體識別/追蹤,以及額外訓練數據條件下的視頻物體識別/追蹤。優必選悉尼AI研究院與帝國理工學院組成的聯合隊伍IC-USYD都以領先第二名超過5%的成績取得了第一名。在VQA競賽中,優必選悉尼AI研究院與杭州電子科技大學、北卡羅來納大學夏洛特分校組成聯合隊伍HDU-USYD-UNCC也取得了好成績。

ILSVRC 2017視頻物體檢測競賽主要考察在視頻中獲取物體的能力,對於機器人而言這是一項非常重要的工作,例如它在行走過程中就能知道這個場景里有多少物體,有什麼物體。人眼看到的視覺不是一張張照片,而是連續的視覺信息,未來機器人的視覺系統也將是對連續視覺的理解。試想一下,在家庭環境中,你可以對機器人說「請給我一杯水」,機器人理解了這句話之後,在移動過程中,視覺系統就會尋找這杯水在哪裡,接著去取水並遞給你。

而VQA(視覺問答,Visual Question Answering)以一張圖片或者一段視頻,和一個關於這張圖片的形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是對給定的圖片進行問答。這也是未來機器人通過視覺系統認知和理解世界,並與人互動的關鍵技術。VQA是一種涉及計算機視覺和自然語言處理的學習任務,也是近年來非常熱門的一個研究領域,也是AI落地的一項重要技術領域。

VQA系統需要將圖片和問題作為輸入,結合這兩部分信息,產生一條人類語言作為輸出。針對一張特定的圖片,如果想要機器以自然語言來回答關於該圖片的某一個特定問題,我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。VQA涉及到多方面的AI技術(圖6):細粒度識別(這位女士是白種人嗎?)、 物體識別(圖中有幾個香蕉?)、行為識別(這位女士在哭嗎?)和對問題所包含文本的理解(NLP)。綜上所述,VQA是一項涉及了計算機視覺(CV)和自然語言處理(NLP)兩大領域的學習任務。它的主要目標就是讓計算機根據輸入的圖片和問題輸出一個符合自然語言規則且內容合理的答案。

圖6:圖中展示了視覺問答的基本形式,圖中展示了一位女士鼻子下方鬍鬚的位置掛了兩隻香蕉,同時圖片下方給出了針對這張圖片的兩個問題

與VQA類似——看圖說話(Image Caption)任務也同時涉及到CV和NLP兩個領域,但是與VQA不同的是,看圖說話只需要產生對圖片的一般性描述,而視覺問答根據問題的不同僅聚焦於圖片中的某一部分,而且某些問題還需要一定的常識推理才能做出回答。例如圖7中的第一個問題,你能在這停車嗎?計算機需要讀懂這張圖片還有哪些地方可以停車,哪些地方不可以。而對於看圖說話,則只需要產生一條類似「花園的左邊有一輛車,後邊有一個消防栓」的描述即可。因此,VQA相比看圖說話在圖像語義的理解方面有更高的要求,因此也具有更大的技術挑戰。

圖7:這張圖像試圖說明「回答這個地方是否能停車」(VQA任務)比生成「花園的左邊有一輛車,後邊有一個消防栓」的看圖說話(Image Caption)任務更難



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦