皇璽會生活福利味: ithome AlphaGo幕後開發心路歷程大公開！一手打造AlphaGo傳奇首席工程師黃士傑回臺解密百家樂 http://www.iwin9418.com

2017年11月9日星期四

ithome AlphaGo幕後開發心路歷程大公開！一手打造AlphaGo傳奇首席工程師黃士傑回臺解密百家樂 http://www.iwin9418.com

近來機器與人類史上最有名的正面戰役，莫過於今年5月，Google旗下AI實驗室DeepMind所開發的AlphaGo，與人類圍棋世界冠軍柯潔的對弈，AlphaGo最終以3：0贏得勝利，打響了AI的名聲，不管是學術界或是產業界，都紛紛投資AI應用。

近日，DeepMind更推出了比AlphaGo還要厲害的AlphaGo Zero，不需要事先學習人類下棋的棋譜，擁有自我學習的能力，而一手打造出AlphaGo傳奇的首席工程師黃士傑，今日（10日）於中研院舉辦的第一屆台灣人工智慧年會的演講中，以「AlphaGo－深度學習與強化學習的勝利」為題，揭露未曾對外公開的AlphaGo發展歷程，以及開發AlphaGo所用到的深度學習與強化學習技術關鍵。

黃士傑日前曾在個人臉書簡短的介紹AlphaGo Zero的特性，並表示這次回臺將會介紹AlphaGo Zero的開發歷程。

AlphaGo Zero主要達成的成果是從零開始自我學習下圍棋，並且靠著自我學習，在短短的36小時後，摸索出所有基本且重要的圍棋知識，圍棋程度達到與李世乭九段對戰的AlphaGo v18相同水平，又經過3天後，AlphaGo Zero對戰AlphaGo v18達到100%的勝率，之後又達到了年初在網路上達成60連勝的Master的水準。

而40天後，AlphaGo Zero對戰Master達到近90%勝率，成為有史以來AlphaGo棋力最強的版本，他表示，雖然AlphaGo Zero還未公開下圍棋棋，但DeepMind已將AlphaGo Zero的80局棋公開在發表於《自然》（Nature）期刊上的論文中。

儘管AlphaGo Zero仍然以圍棋為開發範本，但DeepMind認為類似的技術將可被應用在其他的結構化問題上，例如蛋白質折疊、降低能源損耗，或是尋找革命性的新材料等，將有潛力對社會帶來正面的影響。

他一開場說自己研究電腦圍棋10年，一開始到加拿大做研究時，第一個就是要解決語言溝通的問題，花了很多心力在加強英文的溝通，他指出，雖然現在AlphaGo已經完成所有的任務，但是，DeepMind認為應該還要繼續往AI技術前進，可以見得，DeepMind有非常強的目標。

他表示，他人生最開心的時候，就是在2016年5月時，AlphaGo真正贏了人類，他表示，當初沒有想過電腦圍棋會變得這麼厲害，但是還是不斷嘗試，後來才終於成功，過去就連聖誕節AlphaGo也還在下棋，團隊也都不間斷在訓練AlphaGo。

黃士傑從小就喜歡下棋，他自己的棋力是業餘6段，研究電腦圍棋還有是他的興趣，還有一項令他開心的是，因為AlphaGo的關係，他能夠有與他自己的圍棋偶像面對面下棋的機會。

AlphaGo給黃士傑最大的感觸是，AI與人類合作的氣氛慢慢在行程，他分享在中國烏鎮圍棋峰會與柯潔對弈的感受，他認為，韓國與李世乭的對弈，可以明顯感受到李世乭背負人類必須贏得勝利的壓力，但是中國烏鎮的比賽，是他真正感受到 AI和人類合作的氛圍，柯潔也表示非常榮幸能跟AlphaGo下棋。

AlphaGo專案的起源

AlphaGo的起源要從黃士傑在攻讀博士班時，用單機打造出一個電腦圍棋程式Erica說起，而Erica即是用他妻子的名字命名，當時，他現在的主管David Sliver寫了封信表示，對他的研究成果非常驚艷，還問他要不要加入DeepMind，黃士傑後來在隔年，2012年11月才正式加入DeepMind，當時面試最後主管問了他做出Erica的感想，「我覺得很有成就感！」David Sliver還表示與他有相同的想法。

他指出，DeepMind的目標是要打造通用的人工智慧，當時要開始投入研究電腦圍棋AI程式時，DeepMind的共識就是不要複製Erica，因為會既有的限制。

AlphaGo專案一開始是由DeepMind的CEO Demis Hassabis提議要開始研究電腦圍棋專案，之後黃士傑與他的主管 David Sliver，後來研究團隊又加入了Chris Maddison、llya Sutskever，一同參與開發AlphaGo，「為什麼要做圍棋？」他表示，這是許多人的疑問，他認為，在IBM深藍在西洋棋的領域，戰勝人類之後，就只剩下圍棋這項挑戰。

「要如何判斷在深度學習可以在圍棋用？」黃士傑的答案是，如果人類可以馬上判斷下這一步是好棋，那神經網路就可以做到，當時他利用人類的棋譜來讓AlphaGo學習，建立策略網路（Policy Network），用人類的直覺來下圍棋。

他表示，每天的工作就是反覆訓練網路、測試、觀察勝率，不斷地重複這樣的過程，包含要研究神經網路要建立多深、資料集有沒有問題、神經網路需要幾層等等的問題，第一個月的AlphaGo是行不通的，勝率不高，後來發現Overfitting的問題後，解決之後AlphaGo就達到95％的勝率。

之後，AlphaGo最主要的突破即是加入價值網路（Value Network），將強化學習結合深度學習，讓AlphaGo擁有學習的能力，另外，也因為硬體上TPU有很大的幫助，他指出，相同的程式碼，用TPU執行的勝率，會變得非常高。AlphaGo將直覺和判斷一起訓練，就能將直覺和判斷達到一致性，並將策略和價值網路結合在一起，變成Dual Network，之後再不斷的加強訓練流程。

為了測試AlphaGo的能耐，黃士傑努力說服團隊要在線上測試AlphaGo的棋力，後來終於在2016年年底，讓AlphaGo Master在網路上邀來中日韓台頂尖棋手，幫忙訓練，一天下10盤，就在自家的房間低調地用單機訓練AlphaGo Master，平均4 ～8秒下一步棋，一局大約需要1小時，與職業棋手的對戰全勝，他認為，電腦圍棋AI的價值在於「擴展圍棋界的理論和思路」。

真正脫離人類知識的AlphaGo Zero

近日，DeepMind釋出的AlphaGo Zero正式脫離人類知識的資料，不再需要人類的資料，AlphaGo原本的版本需要用數千盤人類棋手的對戰來訓練，然而AlphaGo Zero則可以在完全不懂圍棋的狀況下，自己跟自己對戰，透過神經網路演算法，不斷調整與更新，進而預測棋子的最佳落點。AlphaGo Zero採用了強化學習，過程中完全沒有經過人類的干預，也從未使用過去的棋譜資料，總共只花了40天，就成為歷史上最強的棋手。他覺得是這一種趨勢，經過10幾年的研究，電腦圍棋的研究在AlphaGo Zero上，有很好的收尾。

他指出，目前AlphaGo Zero棋力還在持續精進中，DeepMind團隊的合作，創造許多不錯的成果，包含發表了兩篇論文，以及與人類大戰兩次的大戰，在網路上有60個棋局訓練，最後還拍了《AlphaGo》的紀錄片。

他表示，AlphaGo的成功是深度學習與強化學習的勝利，從專案起始到收尾，都是靠著大家一同合作，而硬體資源與TPU也扮演很重要的角色，最後，近日AlphaGo Zero也展示了強化學習的巨大潛力，他認為，AI要成為人類的工具，與人類合作。

from iThome 新聞 http://ift.tt/2yMTx5M

百家樂/線上投注 http://www.iwin9418.com