新版AlphaGo大戰柯潔 消耗能量僅是李世石版的1/10

新版AlphaGo大戰柯潔,消耗能量僅是李世石版的1/10

Alphabet 董事長埃裡克·施密特:希望通過柯潔去看AlphaGo的潛能

■IT時報記者 吳雨欣公家機關水肥清運

與李世石一戰成名後的AlphaGo又迎來新的對手,5月23日,為期5天的圍棋峰會開幕,峰會總共有5場不同形式的對弈,其中包括三場AlphaGo與世界排名第一的柯潔九段的三番棋較量。

在烏鎮比賽現場,《IT時報》記者目睹瞭擁有更強大策略和價值網絡的新版AlphaGo正展示出它的威力,在前兩場的比賽中,代表人類出戰的柯潔全部惜敗。

落子速度優於人類

現年19歲的柯潔是目前世界排名第一的職業圍棋選手,5歲開始學棋,10歲的時候成為職業選手,曾先後四次獲得國際大賽冠軍。首局失利的他似乎心情並沒有受到太大影響,在第二局開賽的前一天,悠閑地在烏鎮釣魚、射箭,還不忘向同伴展示自己的釣魚成績。25日,柯潔輕松步入對戰室,開局20分鐘後,柯潔神色漸漸凝重,在後期展示出不同於與人類比賽時的“殺氣”。AlphaGo則在開局第一手就不走尋常路,選擇右下角落子,而人類對局第一手多會選擇右上角。最終,在第二場比賽中,柯潔出現失誤,AlphaGo再次取勝。

一直以來,圍棋被認為是傳統競技中對人工智能最具挑戰性的項目。這不僅僅是因為圍棋包含瞭龐大的搜索空間,更因為對於落子位置的評估難度已遠遠超過瞭簡單的啟發式算法。自從去年3月AlphaGo 以4比1的總比分戰勝李世石後,AlphaGo就成瞭人工智能領域的一個重要裡程碑。

“AlphaGo最強大的地方並不體現在具體某一手棋或者某個局部的變化,而是它在每一局棋裡所展現出來的獨特視角,在它的世界裡,沒有什麼先入為主的概念,也沒有什麼必須要遵守的規則, 從第一步開始,AlphaGo就在計算每一步的勝率,進而選擇最佳落子位置。”DeepMind 的聯合創始人兼 CEO Demis Hassabis向《IT時報》記者介紹,AlphaGo Lee(與李世石對戰的AlphaGo)在谷歌雲上有50個TPUs(谷歌人工智能訓練系統)在運作,搜索50步棋的速度是10000個位置/秒,而與柯潔對戰的AlphaGo Master是在單個TPU機器上進行的訓練,這款谷歌上周在 I/O大會上所發佈的新型芯片系統使 AlphaGo 在運行效率上得到瞭飛躍。與去年相比,當前的版本在處理計算時所消耗的能量僅為過去的十分之一,並能夠更快速地進行學習。

擁有強大算法的AlphaGo在與人類的比賽中展示出速度的優勢。在柯潔與AlphaGo的第二局比賽中,柯潔的落子時間明顯長於AlphaGo,在柯潔深思熟慮完成佈局後,AlphaGo總能以很快的速度完成落子,而且經常下出違反人類直覺,卻極具威力的一手棋。這種情況很像人類花瞭20分鐘佈瞭一個局,但對手隻花瞭1分鐘落子,而且根本沒有理會你精心佈下的局。

擁有更強大的策略和價值網絡

AlphaGo讓人們意識到人工智能的魅力。半個世紀以前,麻省理工學院,幾個計算機系的教授第一次提到人工智能這個詞,他們以為人台中包通馬桶工智能是一個夏天就能解決的問題,但直到現在人工智能還是難題。

近幾年,隨著AlphaGo、無人駕駛的出現,人們重新意識到人工智能正在改變這個世界。數據顯示,2011年,人工智能識別圖像的錯誤率是26%,2016年的錯誤率下降到3%,比人類的識別能力要高出2%。對此,谷歌母公司Alphabet 董事長埃裡克·施密特(Eric Schmidt)表示:“神經網絡和深度學習的爆發是我所經歷過的最大變革,這些改變不僅僅是圍棋,而是為企業帶來無限機遇,尤其是在醫療、交通以及政務等領域。”但相較於未來的發展,當前的業內人士更想弄明白AlphaGo是如何訓練的。

如果說打敗李世石的AlphaGo設計之初是利用卷積神經網絡,讓它瞭解圍棋的規則、看到棋牌反射到神經網絡,從而瞭解棋局、周圍的棋子,進行新的處理。那新版的AlphaGo就有瞭更多的“思考”,一是確保走對子,二是預測誰會贏。此外,AlphaGo積累瞭大量的優質數據,可以自學成才,上一代會成為下一代的老師。

這種新穎的機器學習台中通馬桶技術在AlphaGo首席研究員David Silver眼裡,重點是如何讓AlphaGo結合監督學習和強化學習的優勢。

為此,團隊讓AlphaGo先通過訓練形成一個策略網絡,將棋盤上的局勢作為輸入信息,並對所有可行的落子位置生成一個概率分佈。然後,訓練出一個價值網絡,以 -1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。也就是說,在這個過程中, AlphaGo不僅會算出自己的最優選項,還會根據自己下過的棋,經過多層處理形成一個“值”,值高意味著自己贏,低意味著對手贏,並在棋局中的某一步判斷是否是關鍵的一步,因為這一步棋,決定瞭對手贏或自己贏。重要的是,在經過先期的全盤探索和對最佳落子的不斷揣摩後,AlphaGo的搜索算法能在其計算能力之上,加入近似人類的直覺判斷,使機腦更接近人腦。

之所以進行AlphaGo和柯潔的比賽,是希望通過柯潔去看AlphaGo的潛能。“從比賽結果來看,差距非常小。”施密特說。柯潔與AlphaGo被認為是人腦與機腦的較量,但不管輸贏,依然是人類的勝利。在經歷兩場敗局後,5月27日,柯潔將第三次迎戰AlphaGo。對於此前的敗局,柯潔賽後表示:“AlphaGo下得太出色,我輸得沒脾氣,很厲害。”

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    qsi808wk48 發表在 痞客邦 留言(0) 人氣()