search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

Facebook將視覺識別模式訓練時間縮短至1小時(附賈揚清論文)

深度學習與大型神經網路和大型數據集蓬勃發展。然而,較大的網路和更大的數據集導致更長的訓練時間,這阻礙了研究與開發進程。

Facebook今天上午發表了一篇文章,將ImageNet上的ResNet-50深度學習模式的訓練時間從29小時縮短到1小時。

Facebook通過在更大數量的GPU中分配更大的「小批量」訓練,從而大大減少了訓練時間。在以前的基準案例中,256個圖像的批次分佈在八個GPU中。但今天的工作涉及分佈在256個GPU中的8,192個圖像的批量大小。

大多數人沒有256個GPU,但是大型科技公司和資金充足的研究小組,能夠在如此多的GPU上進行規模培訓,以減少培訓時間,而不會造成嚴重的準確性損失。

在訓練過程的初始階段,該團隊減慢了學習率,克服了以前不大的批量大小的困難。在細節上不要迷失,隨機梯度下降被用於訓練ResNet-50模型。

隨機梯度下降的關鍵變數之一是學習率 - 訓練過程中權重變化的程度。這個變數隨著小尺寸變化而變化的方式是有效優化的關鍵。

更高的精度通常需要更大的數據集,需要額外的培訓時間和計算資源。在這個意義上,可以優先考慮準確性或速度來獲得更令人印象深刻的結果,但是在20秒內訓練不準確的模型並不是非常有價值的。

與大多數研究項目不同,Facebook的AI研究(FAIR)和應用機器學習(AML)團隊在增加小批量大小方面並肩工作。從這裡,團體計劃調查今天工作產生的一些其他問題。

Facebook的AML團隊成員Pieter Noordhuis表示:「這項工作拋出了比它回答更多的問題。「超過8,000張圖像的錯誤率再次上升,我們不知道為什麼。

Facebook使用Caffe2,其開放源碼的深度學習框架,以及其Big Basin GPU伺服器進行實驗。Caffe是由賈揚清一手打造的開源深度學習框架,在圖像識別開發方面具有明顯優勢。(人物 ‖ Facebook科學家、Caffe之父賈揚清,從清華學霸到頂級科學家的進擊之路

摘要▼

深度學習隨著大型神經網路和大型數據集的出現而蓬勃發展。然而,大型神經網路和大型數據集往往需要更長的訓練時間,而這阻礙了研究和開發進程。分散式同步 SGD 通過將小批量 SGD(SGD minibatches)分發到一組平行工作站而提供了一種很具潛力的解決方案。然而要使這個解決方案變得高效,每一個工作站的工作負載必須足夠大,這意味著 SGD 批量大小會有很大的增長(nontrivial growth)。在本文中,我們經驗性地展示了在 ImageNet 數據集上使用較大批量大小在優化上遇到的困難,如果這個問題解決了,訓練的神經網路會展現出很好的泛化性能。具體來說,當我們使用較大批量大小(達 8192 張圖片)進行訓練時,實驗幾乎沒有精度損失。為了實現這一結果,我們採用了線性縮放規則(linear scaling rule)作為批量大小函數來調整學習率,同時我們開發了一種新的預熱方案(warmup scheme),該方案會在訓練前期克服優化的困難。通過簡單的技術,我們基於 Caffe2 的系統可以使用批量大小為 8192 進行訓練 ResNet-50 網路,該訓練不僅在 256 塊 GPU 上只花費一小時即可完成,同時還匹配有小批量的精度。在使用標準硬體從 8塊到256塊GPU 調整時,我們的實現達到了 90% 以上的縮放效率(scaling efficiency)。

推薦閱讀

2017F8 ‖ Facebook開源Caffe2,發布AR Camera Effects平台及Facebook Spaces

招聘 志願者

希望你有穩定輸出的時間,英文能力佳,從業者優先。

加入「AI從業者社群」請備註個人信息

添加小雞微信liulailiuwang



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦