摘要:人工智能長期以來的目標就是創造機器的完全主導領域,在人類生活中發揮作用。AlphaGo成為首個在圍棋中戰勝人類世界冠軍的系統。AlphaGo神經網絡使用人類的棋盤數據進行學習訓練,同時也通過自我對弈進行強化學習。圍棋對于人工智能來說是最具有挑戰性的經典博弈比賽,它的巨大的搜索空間,棋局和落子地點讓機器學習難以應對。科學家創造了一種新的人工智能程序系統AlphaGo,使用估值網絡來評估局勢以及使用策略網絡來選擇如何落子。這些深度神經網絡被一種新的組合來訓練:使用了人類專業比賽數據的監督學習,以及自我對弈的強化學習。AlphaZero沒有使用任何預測搜索的方法,神經網絡搭配最先進的蒙特卡洛樹搜索算法讓程序達到了更加精確和智能的水準,這程序模擬了數以千計的自我對弈的隨機博弈。Alpha系列達到了99.8%的勝率,這是史上第一次計算機程序在全尺寸圍棋中擊敗人類職業棋手。通過對AlphaGo和AlphaZero原理學習,我們可以在掌握現有先進技術的基礎上,開拓創新,思考類似的人工智能在醫學,軍事等領域的未來應用可能性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社