Zi 字媒體

走近人機大戰，揭秘AlphaGo背後的「高人」

2021/12/25

近日，AlphaGo大勝棋手柯潔的事件再一次向人們證明了人工智慧的厲害。那麼，人工智慧到底有什麼過人之處，AlphaGo高「智商」的背後，到底有什麼？今天，美亞柏科技術專家就帶你一起解密AlphaGo背後的「高手」！如您也對人工智慧深有研究或有其他見地，歡迎您留言與我們的專家進行討論。

強化學習，這個非有監督學習，又非無監督學習的「嶄新理論」，總讓初學者肅然起敬，它幫助AlphaGo實現了一統圍棋天下的理想，讓世人驚嘆的同時，又處處透露著神秘與詭異的神采。

一、強化學習並非嶄新理論

首先，強化學習並非嶄新理論，而是至少擁有50年壽命的經典理論，今天所謂的深度強化學習僅僅只是在計算能力與大數據理論發展中應運而生的「新瓶裝舊酒」而已。其實，無論是ACM的參賽者，還是隨機過程理論的學者，應該都對「動態規劃」這個詞頗感親切，如果我們告訴您，強化學習與動態規劃幾乎是一脈相承的學科（至少動態規劃扮演了相當重要的角色），您會不會感到非常驚訝。別急本文會深入討論這個問題。

二、深度強化學習仍有其獨特之處

萬事不能走極端，這裡我們還不能簡單地認為強化學習、動態規劃、深度強化學習就是相互可以替代的名詞。某些獨特的差距會體現在深度強化學習中，但這種差距並非來自於基本理論，而是工程經驗或者表現形態。例如DNQ（Q-learning的深度版本）演算法中，卷積神經網路構成了演算法的「骨幹結構」，這完全是因為這兩年卷積神經網路「恩寵盛隆」，而大家又習慣於通過計算機視覺的方式來感知「外部環境」的原因。另外，由於大數據的出現，樣本規模與日俱增，online update（在線學習）逐漸變得不合時宜，故而增強學習也借鑒了「批量」有監督學習的某些經驗，保存一定數量的舊樣本反覆學習。還有，隨著計算成本的降低，我們可以引入輔助訓練網路，幫助我們計算學習目標。此外，還有學學多多比較抽象的理由，我們暫時不做贅述。

三、AlphaGo是深度強化學習的集大成者

說起來，這兩年深度強化學習嶄露頭角的領域不是遊戲領域就是棋牌領域，AlphaGo是其中最令人仰止的。其實深度強化學習的經驗技巧在AlphaGo上體現的淋漓盡致。可以說：AlphaGo與深度強化學習是密不可分的。

四、AlphaGo究竟算不算強人工智慧

雖說圖靈測試已經過時，但必須指出，強人工智慧還遠未實現，AlphaGo根本不能算作有思維有意識的軟體程序，另外，深度強化學習在某種程度的確更接近人類的思考方式，故而我們應該對最終實現強人工智慧的目標持樂觀態度。

五、AlphaGo或強化學習能解決什麼問題？

這是個大問題，但可以確切地說：許多的決策和推理過程都可以用深度強化學習來訓練，並最終實現高度模擬，這種模擬甚至富有智慧的色彩。就美亞柏科所處的行業而言，犯罪行為的預測或破案過程的推理都是未來可以期待的產品。對醫療行業來說，門診診斷、大型醫療器械的綜合診斷都可以用深度強化學習助其一臂之力。

六、我們該如何學習？

這也是我們在探索中的問題，儘管我們現在還在摸索，但已有的經驗告訴我們：首先，您需要機器學習和最優化理論的基礎知識。數學上，我們希望您盡量的學習隨機過程和泛函理論。如果您沒有時間全面的複習數學知識，我們強烈建議您至少對馬可夫過程深入了解，並讀懂最優化建模的公式形態，否則您可能無法順利閱讀相關文獻。

七、強化學習的定義

監督學習是「認知學習」，強化學習是一種「行為學習」。這麼說大家一定還是一頭霧水，那麼我們展開來描述：監督學習是有教師的，這個教師是什麼呢，就是所謂的樣本標籤，在人臉識別問題中，標籤可以是你的名字或者你能跟他人區分開的一個代號；在大規模圖像分類問題中，標籤可以是物種的名稱；在情感分類中，標籤可以是喜怒哀樂或者積極消極。狹義的講，標籤是某一類物體的唯一代號，廣義的講，標籤就是我們要告訴機器學習系統的先驗知識。而監督學習的標籤是一次給定的，也就是說，在訓練之前，我們會一次性的打完所有標籤，這個過程很辛苦，稱為樣本標註，也就是人為地將樣本歸類的過程。標註工作是否仔細，歸類是否合理，樣本數量質量是否滿足要求往往直接影響機器學習的訓練結果。

那麼我們將告訴您，強化學習也有這麼一個老師，您一定會感到無比困惑:這樣的話，它和監督學習到底有什麼差異呢？強化學習的老師是虛無縹緲的，就是我們每一步學習過程中面臨的「環境」。這裡的環境可不僅僅是我們熱愛的大自然，而是強化學習系統做出某種決策后得到的運行時的反饋。這裡領悟力高的同事一定會靈光乍現，是不是有監督學習是提前打好標籤再學習，而強化學習是邊學習邊打標籤呢？我們可以告訴您，已經理解得八九不離十，只是這個打標籤的過程來得晚了一點而已。俗話說，教化那些頑劣的孩子，往往需要一頓皮鞭一顆蜜糖的過程反覆交替進行，在強化學習中，我們稱這個過程為獎賞或效用，這就是標籤，是對某種決策行為是鼓勵還是反對的信號。

言歸正傳，我們給出強化學習的定義：通過學習系統與環境交互作用完成任務，以求在環境中達到特定目標的智能程序。這時候可以「腦洞大開」一下:那些棋牌、那些即時戰略遊戲、那些動作遊戲，不是都可以抽象成這樣一個過程嗎？

八、強化學習的四大要素

1、狀態：也就是前面所說的環境，例如迷宮的每一個格，及時戰略地圖的分佈，雙方的數據統計等，都可以是環境。

2、動作：在每個環境下，所允許的決策或行為。

3、獎勵: 進入每個狀態，所能帶來的正面或負面的代價。

4、方案: 在每個狀態下，你將選擇哪個決策或行動。

這樣我們可以嘗試描述一下演算法過程了，首先，試探環境，然後試探地走出一個決策行為，這個行為有可能是隨機的，也有可能是人工那個指定的。根據行為的結果得到這個行為產生的代價（積極還是消極的），最後論功行賞（也可能是論過懲罰）。以上流程反覆迭代，直到決策鏈收斂到預期目標，這個目標就是最終讓整個「決策鏈」得到的獎賞最大化。（好學生天天被誇）

九、數學模型知識點1

了解了強化學習的四大要素后，相信大家已經有直觀感受，現在我們要給出強化學習系統的數學模型定義：一個學習系統或智能決策程序（可能是天網），以「下圖」方式和環境相互作用，系統依照一個有限的，離散的時間馬可夫決策過程運行，這個馬可夫鏈有以下特性：

環境依概率以一組有限的離散狀態來演化，但是狀態並不包含過去的統計特性。這句話是理所當然的，我們不妨看一下「馬可夫鏈」的定義：

上述的描述中，大家要理解三點，首先，馬可夫鏈是一個隨機過程，也就是一個受時間控制的隨機變數序列。其次，其在一個時間軸上取有限的，可列的值，不能是無窮的,不可數的(尤其是離散馬可夫鏈)，最後，也是最重要的，馬可夫鏈在決策時，不依賴以往的統計信息。

十、數學模型知識點2

回過頭再看強化學習，大家一定有所思考。是時候給出這個馬可夫鏈的第二個特性：對於每一個環境狀態，學習系統可以採取一組有限的可能的行動。這裡就是說，我們所能施加的決策是一個預定的集合，而且有充分的合理性。(這就好比「腿」只能跑或跳，不能拿來吃飯)

未完待續……

更多精彩內容，請關注微信公眾號：美亞柏科（ID：meiyapico）

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點