Zi 字媒體

2017-07-25T20:27:27+00:00

允中整理編譯量子位報道 | 公眾號 QbitAI8月6日，第34屆國際機器學習大會（ICML 2017）已在悉尼拉開帷幕。其中最受關注的論文獎項已公布。據主辦方消息，ICML2017共評審了1676篇論文，收錄了434篇，錄取率為25.89%。最佳論文獎由斯坦福大學Pang Wei Koh和Percy Liang的論文Understanding Black-box Predictions via Influence Functions獲得。最具時間價值獎則是2007年巴黎南大學和阿爾伯塔大學共同投遞的論文Combining Online and Offline Knowledge in UCT。量子位整理傳送如下：最佳論文獎論文：Understanding Black-box Predictions via Influence Functions（通過影響函數理解黑箱預測問題）作者：Pang Wei Koh、Percy Liang單位：斯坦福大學摘要：應該如何解釋黑箱模型預測環境？在這篇論文中，我們用穩健統計學中的一種經典方法探索模型預測問題。通過學習演算法和其背後的訓練數據，模型能夠識別給定預測最合理的訓練點數。為了使影響函數應用在機器學習任務上，我們創建了一種簡單且高效的實現方式，它僅需要梯度oracle訪問途徑和Hessian矢量積。雖然在非凸模型和不可微分模型中這個理論還不成立，但近似影響函數仍能提供有價值的信息。在這篇論文中，我們演示了影響函數在線性模型和卷積神經網路的多種任務的表現，包括理解模型表現、調試模型、檢測數據集錯誤、甚至出創造視覺無法區分的訓練集攻擊類型。論文下載地址：http://proceedings.mlr.press/v70/koh17a/koh17a.pdf最佳論文提名論文：Lost Relatives of the Gumbel Trick作者：Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller單位：劍橋大學、馬克斯普朗克智能系統研究所等摘要：Gumbel技巧是從離散概率分佈中抽樣或估計其歸一化分區函數的方法。該方法取決於以特定方式重複對分佈進行隨機擾動，每次求解最可能的配置。我們得出了一系列相關的方法，其中Gumbel技巧是其中一種，並且表明新方法在幾個設置中具有優越的性能，以及最小的附加計算成本。另外，對於Gum-bel技術來為離散圖模型（discrete graphical model）有計算優勢，所有配置的Gumbel擾動通常被所謂的低等級擾動（low-rank perturbations）所替代。我們展示了我們新方法的子系列如何適應這種設置，證明了對數分區函數的新的上限和下限，並得出了吉布斯分佈（Gibbs distribution）的一系列重要採樣器。最後，我們展示了如何通過更簡單的Gumbel技巧來簡化分析形式，推導出額外的理論結果。下載地址：http://proceedings.mlr.press/v70/balog17a/balog17a.pdf論文：Modular Multitask Reinforcement Learning with Policy Sketches作者：Jacob Andreas、Dan Klein、Sergey Levine單位：加州大學伯克利分校摘要：我們描述了一個以policy sketches為指導的多任務深入增強學習的框架。sketches用指定的子任務序列標註任務，提供關於任務之間的高級結構關係的信息，但不是如何實現它們 —— 具體來說，不提供強化學習之前的學習策略抽象工作所使用的詳細指導（如中間獎勵、子任務完成信號、內在動機）。為了從sketches中學習，我們提出一個將子任務與模塊化子政策相關聯的模型，並通過將每一個子任務和模塊子策略結合起來，並通過在共享子策略之間測試參數，將全部任務特定的策略的獎勵最大化。優化是通過解耦合actor-critic訓練目標來實現的，這個目標可以幫助學習多個不相似的獎勵功能的共同行為。我們評估我們的方法在具有離散和連續控制的三個環境中的有效性，以及僅在完成若干高級次級目標之後才能獲得的稀少獎勵。實驗表明，使用我們的方法學習sketches，比現有的學習特定任務或共享策略的技術具有更好的表現，同時可以自然歸納出可重新組合的可解釋的原始行為庫，以快速適應新任務。下載地址：http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf論文：A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions作者：Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh單位：康奈爾大學、雅虎等摘要：許多應用中都出現了對稱分佈特性，例如支持大小、支持覆蓋率、熵值和均勻性等。最近，研究人員應用了不同的估計量和分析工具，來為每個屬性推導漸進的樣本最優近似。我們的研究表明，單一、簡單、插件式的估計量：profile maximum likelihood （PML），是可以與所有對稱屬性競爭的樣本，特別是對於上述所有屬性，PML最優。下載地址：http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf最具時間價值獎(Test of Time Award)論文：Combining Online and Offline Knowledge in UCT作者：Sylvain Gelly、David Silver單位：巴黎南大學、阿爾伯塔大學摘要：UCT演算法使用基於樣本的搜索在線學習價值函數。TD(λ) 演算法可以為策略分佈離線學習一個價值函數。我們在UCT演算法中考慮了三種離線和在線價值函數的組合。第一種，在蒙特卡洛模擬中使用離線價值函數作為默認策略。第二種，UCT價值函數與快速在線action values評估相結合。第三，離線價值函數作為UCT搜索樹的先驗知識。我們通過在9×9規格圍棋盤上對陣GnuGo 3.7.10來評估這些演算法。第一種演算法的表現，由於使用隨機模擬策略的UCT，但是令人意外的比使用手工模擬策略的UCT演算法要差。第二種演算法全面優於UCT。第三種演算法表現優於使用手工先驗知識的UCT演算法。我們在MoGo（世界最強9×9圍棋程序）中結合了這三種演算法。每一種演算法都顯著改善了MoGo的棋力。下載地址：http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf最具時間價值獎提名：論文：Pegasos: Primal Estimated sub-GrAdient SOlver for SVM地址：http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf

本文由yidianzixun提供原文連結

一點資訊

寫了 5860316篇文章，獲得 23313次喜歡

精彩推薦

推薦搜尋

Zi 字媒體

查看更多推薦