Zi 字媒體

Facebook將視覺識別模式訓練時間縮短至1小時（附賈揚清論文）

2021/12/25

yidianzixun

深度學習與大型神經網路和大型數據集蓬勃發展。然而，較大的網路和更大的數據集導致更長的訓練時間，這阻礙了研究與開發進程。

Facebook今天上午發表了一篇文章，將ImageNet上的ResNet-50深度學習模式的訓練時間從29小時縮短到1小時。

Facebook通過在更大數量的GPU中分配更大的「小批量」訓練，從而大大減少了訓練時間。在以前的基準案例中，256個圖像的批次分佈在八個GPU中。但今天的工作涉及分佈在256個GPU中的8,192個圖像的批量大小。

大多數人沒有256個GPU，但是大型科技公司和資金充足的研究小組，能夠在如此多的GPU上進行規模培訓，以減少培訓時間，而不會造成嚴重的準確性損失。

在訓練過程的初始階段，該團隊減慢了學習率，克服了以前不大的批量大小的困難。在細節上不要迷失，隨機梯度下降被用於訓練ResNet-50模型。

隨機梯度下降的關鍵變數之一是學習率 - 訓練過程中權重變化的程度。這個變數隨著小尺寸變化而變化的方式是有效優化的關鍵。

更高的精度通常需要更大的數據集，需要額外的培訓時間和計算資源。在這個意義上，可以優先考慮準確性或速度來獲得更令人印象深刻的結果，但是在20秒內訓練不準確的模型並不是非常有價值的。

與大多數研究項目不同，Facebook的AI研究（FAIR）和應用機器學習（AML）團隊在增加小批量大小方面並肩工作。從這裡，團體計劃調查今天工作產生的一些其他問題。

Facebook的AML團隊成員Pieter Noordhuis表示：「這項工作拋出了比它回答更多的問題。「超過8,000張圖像的錯誤率再次上升，我們不知道為什麼。

Facebook使用Caffe2，其開放源碼的深度學習框架，以及其Big Basin GPU伺服器進行實驗。Caffe是由賈揚清一手打造的開源深度學習框架，在圖像識別開發方面具有明顯優勢。（人物 ‖ Facebook科學家、Caffe之父賈揚清，從清華學霸到頂級科學家的進擊之路）

摘要▼

深度學習隨著大型神經網路和大型數據集的出現而蓬勃發展。然而，大型神經網路和大型數據集往往需要更長的訓練時間，而這阻礙了研究和開發進程。分散式同步 SGD 通過將小批量 SGD（SGD minibatches）分發到一組平行工作站而提供了一種很具潛力的解決方案。然而要使這個解決方案變得高效，每一個工作站的工作負載必須足夠大，這意味著 SGD 批量大小會有很大的增長（nontrivial growth）。在本文中，我們經驗性地展示了在 ImageNet 數據集上使用較大批量大小在優化上遇到的困難，如果這個問題解決了，訓練的神經網路會展現出很好的泛化性能。具體來說，當我們使用較大批量大小（達 8192 張圖片）進行訓練時，實驗幾乎沒有精度損失。為了實現這一結果，我們採用了線性縮放規則（linear scaling rule）作為批量大小函數來調整學習率，同時我們開發了一種新的預熱方案（warmup scheme），該方案會在訓練前期克服優化的困難。通過簡單的技術，我們基於 Caffe2 的系統可以使用批量大小為 8192 進行訓練 ResNet-50 網路，該訓練不僅在 256 塊 GPU 上只花費一小時即可完成，同時還匹配有小批量的精度。在使用標準硬體從 8塊到256塊GPU 調整時，我們的實現達到了 90% 以上的縮放效率（scaling efficiency）。

▍推薦閱讀

2017F8 ‖ Facebook開源Caffe2，發布AR Camera Effects平台及Facebook Spaces

招聘志願者

希望你有穩定輸出的時間，英文能力佳，從業者優先。

加入「AI從業者社群」請備註個人信息

添加小雞微信liulailiuwang

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點