Zi 字媒體

IBM完敗Facebook、微軟，創下深度學習性能的記錄

2021/12/25

編者按：本文來自微信公眾號「量子位」（ID：QbitAI），作者：陳樺，36氪經授權發布。

昨晚，外媒都在用誇張的標題報道IBM的人工智慧又立功了，例如說IBM的速度快得很「抓馬」云云。到底怎麼回事，量子位把IBM Research的博客全文搬運如下，大家感受一下IBM這次的捷報……

深度學習是一種被廣泛使用的人工智慧方法，幫助計算機按照人類的方式理解並提取圖像和聲音的含義。深度學習技術有望給各行各業帶來突破，無論是消費類移動應用，還是醫學影像診斷。然而，深度學習技術的準確性，以及大規模部署能力仍存在技術挑戰，模型的訓練時間往往需要幾天甚至幾周。

IBM研究院的團隊專註於為大型模型和大規模數據集縮短訓練時間。我們的目標是，將深度學習訓練的等待時間從幾天或幾小時縮短至幾分鐘或幾秒，同時優化這些人工智慧模型的準確率。為了實現這一目標，我們正在將深度學習部署至大量伺服器和英偉達GPU，解決「大挑戰」規模的問題。

最熱門的深度學習框架可以支持在單台伺服器上的多個GPU，但無法支持多台伺服器。我們的團隊（包括Minsik Cho、Uli Finkler、David Kung和他們的合作者）編寫了軟體和演算法，對這種規模龐大、非常複雜的并行計算任務進行優化，實現自動化。這種并行計算任務分佈在數十台伺服器的數百個GPU加速處理器上。

我們的軟體可以完全同步地進行深度學習訓練，且通信開銷很低。因此，當我們將規模擴大至100s英偉達GPU集群時，對ImageNet-22k資料庫中750萬張圖片的識別準確率達到創紀錄的33.8%，高於此前的最高紀錄，即來自微軟的29.8%。

4%的準確率提升是巨大的飛躍，以往的優化通常只能帶來不到1%的準確率提升。我們創新的分散式深度學習（DDL）方法不僅提高了準確率，還利用10s伺服器的性能實現了在短短7小時時間裡訓練ResNet-101神經網路模型。這些伺服器配備100s的英偉達GPU。

此前，微軟花了10天時間去訓練同樣的模型。為了實現這一成績，我們開發了DDL代碼和演算法，克服在擴展這些性能強大的深度學習框架時固有的問題。

這些結果採用的基準設計目標是為了測試深度學習演算法和系統的極限，因此儘管33.8%的準確率聽起來可能不算很高，但相比於以往已有大幅提升。給予任何隨機圖像，這個受過訓練的人工智慧模型可以在2.2萬種選擇中給出最高選擇對象（Top-1精度），準確率為33.8%。

我們的技術將幫助其他人工智慧模型針對特定任務進行訓練，例如識別醫學影像中的癌細胞，提高精確度，並使訓練和再訓練的時間大幅縮短。

Facebook人工智慧研究部門於2017年6月在一篇論文中介紹了，他們如何使用更小的數據集（ImageNet-1k）和更小的神經網路（ResNet 50）來實現這一成果：「深度學習需要大型神經網路和大規模資料庫才能快速發展。然而，更大的網路和資料庫會造成更長的訓練時間，不利於研究和開發進度。」

諷刺的是，隨著GPU的速度越來越快，在多台伺服器之間協調和優化深度學習問題變得越來越困難。這造成了深度學習的功能缺失，促使我們去開發新一類的DDL軟體，基於大規模神經網路和大規模數據集運行熱門的開源代碼，例如Tensorflow、Caffe、Torch和Chainer，實現更高的性能和精確度。

在這裡，我們可以用「盲人摸象」來形容我們試圖解決的問題，以及所取得的初步成果的背景。根據維基百科上的解釋：「每個盲人去摸大象身體的不同部位，但每個人只摸一部分，例如側面或象牙。然後他們根據自己的部分經驗來描述大象。對於大象是什麼，他們的描述完全不同。」

儘管最初有分歧，但如果這些人有足夠多的時間，那麼就可以分享足夠多的信息，拼湊出非常準確的大象圖片。

類似地，如果你有大量GPU對某個深度學習訓練問題并行處理幾天或幾周時間，那麼可以很容易地同步這些學習結果。

隨著GPU的速度越來越快，它們的學習速度也在變快。它們需要以傳統軟體無法實現的速度將學到的知識分享給其他GPU。這給系統網路帶來了壓力，並形成了棘手的技術問題。

基本而言，更智能、速度更快的學習者（GPU）需要更強大的通信方式，否則它們就無法同步，或是不得不花大量時間去等待彼此的結果。如果是這樣，那麼在使用更多、學習速度更快的GPU的情況下，你就無法加快系統速度，甚至有可能導致性能惡化。

我們利用DDL軟體解決了這種功能缺失。當你關注擴展效率，或是在增加GPU以接近完美系統性能時，優勢表現得最明顯。我們在實驗中試圖了解，256個GPU如何「對話」，以及彼此學習了什麼東西。

此前對256個GPU的最佳擴展來自Facebook人工智慧研究部門（FAIR）。FAIR使用了較小的學習模型ResNet-50以及較小的資料庫ImageNet-1k，後者包含約130萬張圖片。這樣做減小了計算的複雜程度。基於8192的圖片批量規模，256個英偉達GPU加速集群，以及Caffe2深度學習軟體，FAIR實現了89%的擴展效率。

如果利用ResNet-50模型以及與Facebook同樣的數據集，IBM研究院的DDL軟體基於Caffe軟體能實現95%的效率，如下圖所示。這一結果利用了由64個Minsky Power S822LC系統組成的集群，每個系統中包含4個英偉達P100 GPU。

如果使用更大的ResNet-101模型，以及ImageNet-22k資料庫中的750萬張圖片，圖片批量規模選擇5120，那麼我們實現的擴展效率為88%。

此外，我們還實現了創紀錄的最快絕對訓練時間，即50分鐘，而Facebook此前的紀錄為1小時。我們用ImageNet-1k資料庫訓練ResNet-50模型，使用DDL將Torch擴展至256個GPU。Facebook使用Caffe2訓練類似的模型。

對開發者和數據科學家來說，IBM研究院的DDL軟體提供了一種API（應用程序介面），每個深度學習框架都可以掛接並擴展至多台伺服器。技術預覽版已通過PowerAI企業深度學習軟體第4版發布，任何使用深度學習技術去訓練人工智慧模型的企業都可以使用這種集群擴展功能。

我們預計，通過將這種DDL功能提供給人工智慧社區，隨著其他人利用集群性能去進行人工智慧模型訓練，我們將看到準確性更高的模型運行。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點