search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

傳送門!ICML2017(國際機器學習大會)最佳論文(附下載)

允中 整理編譯
量子位 報道 | 公眾號 QbitAI

8月6日,第34屆國際機器學習大會(ICML 2017)已在悉尼拉開帷幕。

其中最受關注的論文獎項已公布。

據主辦方消息,ICML2017共評審了1676篇論文,收錄了434篇,錄取率為25.89%。

最佳論文獎由斯坦福大學Pang Wei Koh和Percy Liang的論文Understanding Black-box Predictions via Influence Functions獲得。最具時間價值獎則是2007年巴黎南大學和阿爾伯塔大學共同投遞的論文Combining Online and Offline Knowledge in UCT。

量子位整理傳送如下:

最佳論文獎

論文:Understanding Black-box Predictions via Influence Functions(通過影響函數理解黑箱預測問題)
作者:Pang Wei Koh、Percy Liang
單位:斯坦福大學

摘要:應該如何解釋黑箱模型預測環境?在這篇論文中,我們用穩健統計學中的一種經典方法探索模型預測問題。通過學習演算法和其背後的訓練數據,模型能夠識別給定預測最合理的訓練點數。為了使影響函數應用在機器學習任務上,我們創建了一種簡單且高效的實現方式,它僅需要梯度oracle訪問途徑和Hessian矢量積。雖然在非凸模型和不可微分模型中這個理論還不成立,但近似影響函數仍能提供有價值的信息。在這篇論文中,我們演示了影響函數在線性模型和卷積神經網路的多種任務的表現,包括理解模型表現、調試模型、檢測數據集錯誤、甚至出創造視覺無法區分的訓練集攻擊類型。

論文下載地址:http://proceedings.mlr.press/v70/koh17a/koh17a.pdf

最佳論文提名

論文:Lost Relatives of the Gumbel Trick
作者:Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller
單位:劍橋大學、馬克斯普朗克智能系統研究所等

摘要:Gumbel技巧是從離散概率分佈中抽樣或估計其歸一化分區函數的方法。該方法取決於以特定方式重複對分佈進行隨機擾動,每次求解最可能的配置。我們得出了一系列相關的方法,其中Gumbel技巧是其中一種,並且表明新方法在幾個設置中具有優越的性能,以及最小的附加計算成本。另外,對於Gum-bel技術來為離散圖模型(discrete graphical model)有計算優勢,所有配置的Gumbel擾動通常被所謂的低等級擾動(low-rank perturbations)所替代。我們展示了我們新方法的子系列如何適應這種設置,證明了對數分區函數的新的上限和下限,並得出了吉布斯分佈(Gibbs distribution)的一系列重要採樣器。最後,我們展示了如何通過更簡單的Gumbel技巧來簡化分析形式,推導出額外的理論結果。

下載地址:http://proceedings.mlr.press/v70/balog17a/balog17a.pdf

論文:Modular Multitask Reinforcement Learning with Policy Sketches
作者:Jacob Andreas、Dan Klein、Sergey Levine
單位:加州大學伯克利分校

摘要:我們描述了一個以policy sketches為指導的多任務深入增強學習的框架。sketches用指定的子任務序列標註任務,提供關於任務之間的高級結構關係的信息,但不是如何實現它們 —— 具體來說,不提供強化學習之前的學習策略抽象工作所使用的詳細指導(如中間獎勵、子任務完成信號、內在動機)。為了從sketches中學習,我們提出一個將子任務與模塊化子政策相關聯的模型,並通過將每一個子任務和模塊子策略結合起來,並通過在共享子策略之間測試參數,將全部任務特定的策略的獎勵最大化。優化是通過解耦合actor-critic訓練目標來實現的,這個目標可以幫助學習多個不相似的獎勵功能的共同行為。我們評估我們的方法在具有離散和連續控制的三個環境中的有效性,以及僅在完成若干高級次級目標之後才能獲得的稀少獎勵。實驗表明,使用我們的方法學習sketches,比現有的學習特定任務或共享策略的技術具有更好的表現,同時可以自然歸納出可重新組合的可解釋的原始行為庫,以快速適應新任務。

下載地址:http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf

論文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
作者:Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh
單位:康奈爾大學、雅虎等

摘要:許多應用中都出現了對稱分佈特性,例如支持大小、支持覆蓋率、熵值和均勻性等。最近,研究人員應用了不同的估計量和分析工具,來為每個屬性推導漸進的樣本最優近似。我們的研究表明,單一、簡單、插件式的估計量:profile maximum likelihood (PML),是可以與所有對稱屬性競爭的樣本,特別是對於上述所有屬性,PML最優。

下載地址:http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf

最具時間價值獎(Test of Time Award)

論文:Combining Online and Offline Knowledge in UCT
作者:Sylvain Gelly、David Silver
單位:巴黎南大學、阿爾伯塔大學

摘要:UCT演算法使用基於樣本的搜索在線學習價值函數。TD(λ) 演算法可以為策略分佈離線學習一個價值函數。我們在UCT演算法中考慮了三種離線和在線價值函數的組合。第一種,在蒙特卡洛模擬中使用離線價值函數作為默認策略。第二種,UCT價值函數與快速在線action values評估相結合。第三,離線價值函數作為UCT搜索樹的先驗知識。我們通過在9×9規格圍棋盤上對陣GnuGo 3.7.10來評估這些演算法。第一種演算法的表現,由於使用隨機模擬策略的UCT,但是令人意外的比使用手工模擬策略的UCT演算法要差。第二種演算法全面優於UCT。第三種演算法表現優於使用手工先驗知識的UCT演算法。我們在MoGo(世界最強9×9圍棋程序)中結合了這三種演算法。每一種演算法都顯著改善了MoGo的棋力。

下載地址:http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf

最具時間價值獎提名:

論文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
地址:http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦