Zi 字媒體

梅濤：深度學習為視覺和語言之間搭建了一座橋樑

2021/12/25

yidianzixun

梅濤微軟亞洲研究院資深研究員

Image/Video Captioning

1. 起源

計算機視覺已經發展了五十多年。在此期間，視覺理解（visual understanding）這一領域取得了長足的進展。為了讓機器像人類一樣能夠「看」懂周圍的世界，計算機視覺研究人員設計了大量的人工特徵去描述一件物體，並且提出了各種模型去識別這些人為設計的特徵。幾年前，當我們談論圖像或視頻理解時，我們能做的只是給一幅圖像或一段視頻自動打上一些彼此相互獨立的標籤（tag）。而今天，我們已經可以借用深度學習的發展將視覺理解這一基礎任務再往前推進一步，即將單個的標籤變成一段和當前視覺內容相關並且通順連貫的自然語言描述。

視覺和語言（Vision and Language）其實是一個交叉領域。想要建立視覺和自然語言的橋樑，不僅需要理解視覺，也要知道如何對自然語言進行建模。同時，這個橋樑也可以是雙向的，既可以從視覺生成文字（如caption、sentiment、visual question answering等），也可以從文字到視覺（如generation、search）。

最早的一篇做圖像語言描述的論文來自於ECCV 2010，此後隨著深度學習在視覺任務中的普及，視覺和語言這一新興領域越來越受到大家的關注，在 CVPR 2015和 CVPR 2016中分別收錄了5篇和7篇相關論文。這個領域因為同時涉及了視覺和語言處理，所以CVPR/ICCV/ACL等視覺和語言處理會議中都收錄了相關的高質量文章。

2. 思路

Image Captioning 的基本思路來源於語言翻譯，其流程大體是先使用 CNN 對圖片進行編碼得到視覺特徵表示，然後使用 RNN 對這個特徵進行解碼來生成圖像描述。在提取視覺特徵時，可以使用高級語義特徵和注意力機制等計算機視覺領域常用的方法，也可以直接使用自動編碼器進行處理。

Image Captioning with X

Image Captioning方面的工作可以總結為「Image Captioning with X」，其中的 X 可以是 Visual Attention, Visual Attributes, Entity Recognition, Dense Caption 和 Reinforcement Learning等模塊。IBM 最近的一篇 CVPR 2017文章就在 Image Captioning 任務中使用了增強學習，通過在目標函數中加入 reward optimize function 來實現這一功能。

A-LSTM

在微軟亞洲研究院最新的論文中，我們在現有的CNN-LSTM Translation Model（如圖中黑色流程線所示）基礎上使用 Multiple Instance Learning 學習圖片中一些內在的概念，並將這個語義信息作為 LSTM 的輸入對其進行約束以提升性能（如圖中藍色流程線所示）。

Video Captioning

VS Image Captioning

Video Captioning 與 Image Captioning 有所不同，當我們要理解視頻時，我們不僅要理解每一幀中的物體，也要理解物體在多幀之間的運動。所以，視頻理解往往比圖像理解更為複雜。主要表現為如下幾點：

●視頻既可以被視為幀流，亦可以視為trimmed video clip：

○ 當被視為幀流的時候，首先將視頻幀作為圖片，最後對其進行池化操作；

○ 對於trimmed video clip的情況，可以使用時域頻域模型來學習視頻中的一些行為。

● 視頻中還存在音頻流和字元流，都可以作為 Video Captioning 的輸入特徵。例如我們組今年被ACM Multimedia大會接收為ORAL的一篇長文就是設計一個multi-stream LSTM網路對視頻的多個模態綜合處理產生caption。

● 在Video Captioning中可以使用不同的池化方式，如基於時間軸的均值池化和最大值池化，還可以使用注意力機制，比如Hard-Attention和Soft-Attention，或者使用編解碼的方法對其進行處理。

Video Captioning with Attributes

在我們CVPR 2017的一個工作中，我們發現，圖片數據集比視頻數據集的數量多，內容和語意信息更加豐富。所以我們思考了兩個問題：

● 其一是圖像和視頻的內容是否互補，我們能否以多任務的形式對 Image captioning 和 Video captioning 這兩個任務同時進行處理；

● 另外一個問題是如何將 Image Captioning 遷移到 Video Captioning 中，在論文中我們使用兩個MIL模型分別獲取圖像和視頻的信息，並使用Transfer Unit 進行遷移學習。

微軟研究院

「Video to Language」挑戰賽

為了更好的促進視覺和語言這一領域的研究，我們在ACM Multimedia 2016和2017舉行了微軟研究院」Video to Language」挑戰賽(http://ms-multimedia-challenge.com/)，並且在今年的CVPR大會上舉辦了Vision and Language Workshop。

在「Video to Language「挑戰賽中，Sequence Learning 是競賽中最主流的方法。

● 其中的一個思路是 CNN-LSTM 框架：先使用 CNN 學習圖片特徵並對其進行不同的處理，最後輸入到 LSTM 中得到最終的結果。

● 另一個思路是編解碼框架，其優點是LSTM 模塊可以在視頻標註上進行端到端的學習。

可以使用不同的方法來提取不同的特徵：

● 如可以使用 VGG, GoogLeNet和 ResNet 等深度學習框架提取圖片特徵；

● 使用C3D、 IDT 和 Optical Flow來提取動態特徵；

其他的還有 acoustic features, text features 和 video category 等特徵都有助於 Video Captioning 這一任務。

Visual Question Answering

Vision and Language領域中有一個新的問題--Visual Question Answering：給定一張圖片，並對圖片中的內容進行提問，我們希望計算機能根據圖片中的內容對問題給出合理的回答。雖然這個問題有很多人在研究，但是依然不夠成熟，還不能應用到真實場景中。

VQA的範例與挑戰

這個問題的處理方法與 Image Captioning相似，如ICCV2015中提出的 baseline 使用的就是LSTM + Image的框架：

先使用 CNN 學習圖片蘊含的特徵，同時使用 RNN 學習描述問題的句子中包含的特徵，然後將這兩個特徵進行融合，並對使用 Softmax 等方法對其進行處理來得到最終結果。

VQA with X

與 Image Captioning 一樣，VQA 中的方法也可以總結為」VQA with X」。

當 X 是 visual attention 模塊時，這個 visual attention 可以從圖像中學習，同時也可以從描述問題的句子中學習，這就是 visual-question co-attention。

我們今年被CVPR 2017接收的一篇論文中還提出了 multi-level attention：即先學習一個初始的 attention，然後通過image 中不同 region 之間的關係以及問題中不同詞素之間的關係來學習 multi-level attention。

Stack Attention Network

該方法是先使用CNN學習圖像的特徵表示，然後以迭代的方式使用LSTM對問題進行學習，使得注意力逐步集中到問題關注的方面。他們在VQA 網路中加入Stack Attention這個模塊之後，準確率可以從53.7%提升到58%。

Visual-Question Co-Attention

過程如下：

1. 首先將描述問題的句子分解為單詞；

2. 然後將單片語合為短語；

3. 最後將短語重新組合為句子；

4. 並通過這三個不同尺度的元素來構建問題的特徵表示。

結果：

這種通過三個不同尺度的Text Attention和Image Attention學習特徵的方法，能逐步將問題的關注點聚集到圖像相應區域，最終可以將準確率從58.7%提高到61.8%。

Multi-level Attention

Multi-level Attention是在傳統的 Image Attention 框架上，使用 RNN 來學習圖片中不同區域之間的關係，並將準確率提高到了65.4%，是所有公開方法中最好的結果。

寫在最後：

對圖像及視頻的理解，從簡單的獨立標籤到連貫的自然語言描述，深度學習只用了幾年的時間。可以說，深度學習這項技術，賦予了計算機對單一維度圖片數據、以及二維視頻數據更強的識別理解能力，在某些方面已逼近人類、甚至超過人類的水平。

近年來，隨著大量的視頻資料庫的開放，如"MSR Video Decription Corpus", "MSR Video to Language (MSR-VTT)", 「ActivityNet」等，為這一領域的學術研究帶來了長足的進步，同時也衍生出了一些新的研究方向，如VQA等。

然而，相較於學術界的進展，在真實的應用場景中，我們仍面臨著技術不夠成熟、魯棒性不足等問題，離真正落地仍有很長的路要走。

今天，深度學習技術為視覺和語言之間搭建了一座橋樑，這將只是一個開始，隨著更多維度信息的加入（如語音、文本等），計算機將能夠更好地理解這個多維的世界，為人工智慧全方位服務人類提供可能。

你也許還想看：

感謝你關注「微軟研究院AI頭條」，我們期待你的留言和投稿，共建交流平台。來稿請寄：[email protected]。

微軟小冰進駐微軟研究院微信啦！快去主頁和她聊聊天吧。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點