3C科技 娛樂遊戲 美食旅遊 時尚美妝 親子育兒 生活休閒 金融理財 健康運動 寰宇綜合

Zi 字媒體

2017-07-25T20:27:27+00:00
加入好友
允中 整理編譯量子位 報道 | 公眾號 QbitAI8月6日,第34屆國際機器學習大會(ICML 2017)已在悉尼拉開帷幕。其中最受關注的論文獎項已公布。據主辦方消息,ICML2017共評審了1676篇論文,收錄了434篇,錄取率為25.89%。最佳論文獎由斯坦福大學Pang Wei Koh和Percy Liang的論文Understanding Black-box Predictions via Influence Functions獲得。最具時間價值獎則是2007年巴黎南大學和阿爾伯塔大學共同投遞的論文Combining Online and Offline Knowledge in UCT。量子位整理傳送如下:最佳論文獎論文:Understanding Black-box Predictions via Influence Functions(通過影響函數理解黑箱預測問題)作者:Pang Wei Koh、Percy Liang單位:斯坦福大學摘要:應該如何解釋黑箱模型預測環境?在這篇論文中,我們用穩健統計學中的一種經典方法探索模型預測問題。通過學習演算法和其背後的訓練數據,模型能夠識別給定預測最合理的訓練點數。為了使影響函數應用在機器學習任務上,我們創建了一種簡單且高效的實現方式,它僅需要梯度oracle訪問途徑和Hessian矢量積。雖然在非凸模型和不可微分模型中這個理論還不成立,但近似影響函數仍能提供有價值的信息。在這篇論文中,我們演示了影響函數在線性模型和卷積神經網路的多種任務的表現,包括理解模型表現、調試模型、檢測數據集錯誤、甚至出創造視覺無法區分的訓練集攻擊類型。論文下載地址:http://proceedings.mlr.press/v70/koh17a/koh17a.pdf最佳論文提名論文:Lost Relatives of the Gumbel Trick作者:Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller單位:劍橋大學、馬克斯普朗克智能系統研究所等摘要:Gumbel技巧是從離散概率分佈中抽樣或估計其歸一化分區函數的方法。該方法取決於以特定方式重複對分佈進行隨機擾動,每次求解最可能的配置。我們得出了一系列相關的方法,其中Gumbel技巧是其中一種,並且表明新方法在幾個設置中具有優越的性能,以及最小的附加計算成本。另外,對於Gum-bel技術來為離散圖模型(discrete graphical model)有計算優勢,所有配置的Gumbel擾動通常被所謂的低等級擾動(low-rank perturbations)所替代。我們展示了我們新方法的子系列如何適應這種設置,證明了對數分區函數的新的上限和下限,並得出了吉布斯分佈(Gibbs distribution)的一系列重要採樣器。最後,我們展示了如何通過更簡單的Gumbel技巧來簡化分析形式,推導出額外的理論結果。下載地址:http://proceedings.mlr.press/v70/balog17a/balog17a.pdf論文:Modular Multitask Reinforcement Learning with Policy Sketches作者:Jacob Andreas、Dan Klein、Sergey Levine單位:加州大學伯克利分校摘要:我們描述了一個以policy sketches為指導的多任務深入增強學習的框架。sketches用指定的子任務序列標註任務,提供關於任務之間的高級結構關係的信息,但不是如何實現它們 —— 具體來說,不提供強化學習之前的學習策略抽象工作所使用的詳細指導(如中間獎勵、子任務完成信號、內在動機)。為了從sketches中學習,我們提出一個將子任務與模塊化子政策相關聯的模型,並通過將每一個子任務和模塊子策略結合起來,並通過在共享子策略之間測試參數,將全部任務特定的策略的獎勵最大化。優化是通過解耦合actor-critic訓練目標來實現的,這個目標可以幫助學習多個不相似的獎勵功能的共同行為。我們評估我們的方法在具有離散和連續控制的三個環境中的有效性,以及僅在完成若干高級次級目標之後才能獲得的稀少獎勵。實驗表明,使用我們的方法學習sketches,比現有的學習特定任務或共享策略的技術具有更好的表現,同時可以自然歸納出可重新組合的可解釋的原始行為庫,以快速適應新任務。下載地址:http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf論文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions作者:Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh單位:康奈爾大學、雅虎等摘要:許多應用中都出現了對稱分佈特性,例如支持大小、支持覆蓋率、熵值和均勻性等。最近,研究人員應用了不同的估計量和分析工具,來為每個屬性推導漸進的樣本最優近似。我們的研究表明,單一、簡單、插件式的估計量:profile maximum likelihood (PML),是可以與所有對稱屬性競爭的樣本,特別是對於上述所有屬性,PML最優。下載地址:http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf最具時間價值獎(Test of Time Award)論文:Combining Online and Offline Knowledge in UCT作者:Sylvain Gelly、David Silver單位:巴黎南大學、阿爾伯塔大學摘要:UCT演算法使用基於樣本的搜索在線學習價值函數。TD(λ) 演算法可以為策略分佈離線學習一個價值函數。我們在UCT演算法中考慮了三種離線和在線價值函數的組合。第一種,在蒙特卡洛模擬中使用離線價值函數作為默認策略。第二種,UCT價值函數與快速在線action values評估相結合。第三,離線價值函數作為UCT搜索樹的先驗知識。我們通過在9×9規格圍棋盤上對陣GnuGo 3.7.10來評估這些演算法。第一種演算法的表現,由於使用隨機模擬策略的UCT,但是令人意外的比使用手工模擬策略的UCT演算法要差。第二種演算法全面優於UCT。第三種演算法表現優於使用手工先驗知識的UCT演算法。我們在MoGo(世界最強9×9圍棋程序)中結合了這三種演算法。每一種演算法都顯著改善了MoGo的棋力。下載地址:http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf最具時間價值獎提名:論文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM地址:http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf

本文由yidianzixun提供 原文連結

寫了 5860316篇文章,獲得 23313次喜歡
精彩推薦