fbpx
维基百科

AlphaZero

AlphaZeroDeepMind所開發的人工智能軟體[1]

簡介

AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到将棋國際象棋上。AlphaZero與AlphaGo Zero不同之處在於[1]

  • AlphaZero的Hyperparameter英语Hyperparameter (machine learning)是寫死的。
  • AlphaZero現在會不斷更新人工神经网络
  • 圍棋在某些情況是對稱或是可旋轉的,AlphaGo Zero的程式利用這個特性降低計算複雜性,AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式。
  • 西洋棋有已知的和局終局資料庫英语Endgame tablebase,所以AlphaZero利用這個終局資料庫納入計算。

與Stockfish以及elmo的比較

AlphaZero基於蒙特卡洛树搜索,每秒只能搜尋8萬步(西洋棋)與4萬步(將棋),相較於Stockfish每秒可以7000萬步,以及elmo日语elmo (コンピュータ将棋ソフト)每秒可以3500萬步,AlphaZero則是利用了類神經網路提昇了搜尋的品質[1]

訓練

AlphaZero使用了5,000顆第一代的TPU進行訓練。

成績

西洋棋

在4小時的訓練後(約自我訓練4400萬局[1]:Table S3),AlphaZero以28勝72和0敗的成績打敗Stockfish[1]:Table 1

將棋

在12小時的訓練後(約自我訓練2400萬局[1]:Table S3),AlphaZero以90勝2和8敗的成績打敗elmo日语elmo (コンピュータ将棋ソフト)[1]:Table 1

圍棋

在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1

相關連結

參考資料

  1. ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. (原始内容于2017-12-08). 

外部連結

  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(页面存档备份,存于互联网档案馆),AlphaZero的論文。
  • Game Downloads(页面存档备份,存于互联网档案馆),AlphaZero與西洋棋軟體Stockfish的對弈記錄。
  • Chess.com Youtube playlist for AlphaZero vs. Stockfish(页面存档备份,存于互联网档案馆

alphazero, 此条目的主題是棋类电脑软件, 关于deepmind所开发的人工智能围棋软件, 請見, alphago, zero, 此條目需要擴充, 2018年5月8日, 请協助改善这篇條目, 更進一步的信息可能會在討論頁或扩充请求中找到, 请在擴充條目後將此模板移除, 此條目需要精通或熟悉相关主题的编者参与及协助编辑, 2018年5月8日, 請邀請適合的人士改善本条目, 更多的細節與詳情請參见討論頁, 是deepmind所開發的人工智能軟體, 目录, 簡介, 與stockfish以及elmo的比較, 訓練,. 此条目的主題是棋类电脑软件 关于DeepMind所开发的人工智能围棋软件 請見 AlphaGo Zero 此條目需要擴充 2018年5月8日 请協助改善这篇條目 更進一步的信息可能會在討論頁或扩充请求中找到 请在擴充條目後將此模板移除 此條目需要精通或熟悉相关主题的编者参与及协助编辑 2018年5月8日 請邀請適合的人士改善本条目 更多的細節與詳情請參见討論頁 AlphaZero是DeepMind所開發的人工智能軟體 1 目录 1 簡介 2 與Stockfish以及elmo的比較 3 訓練 4 成績 4 1 西洋棋 4 2 將棋 4 3 圍棋 5 相關連結 6 參考資料 7 外部連結簡介 编辑参见 AlphaGo Zero AlphaZero使用與AlphaGo Zero類似但更一般性的演算法 在不做太多改變的前提下 並將演算法從圍棋延伸到将棋與國際象棋上 AlphaZero與AlphaGo Zero不同之處在於 1 AlphaZero的Hyperparameter 英语 Hyperparameter machine learning 是寫死的 AlphaZero現在會不斷更新人工神经网络 圍棋在某些情況是對稱或是可旋轉的 AlphaGo Zero的程式利用這個特性降低計算複雜性 AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式 西洋棋有已知的和局終局資料庫 英语 Endgame tablebase 所以AlphaZero利用這個終局資料庫納入計算 與Stockfish以及elmo的比較 编辑AlphaZero基於蒙特卡洛树搜索 每秒只能搜尋8萬步 西洋棋 與4萬步 將棋 相較於Stockfish每秒可以7000萬步 以及elmo 日语 elmo コンピュータ将棋ソフト 每秒可以3500萬步 AlphaZero則是利用了類神經網路提昇了搜尋的品質 1 訓練 编辑AlphaZero使用了5 000顆第一代的TPU進行訓練 成績 编辑西洋棋 编辑 在4小時的訓練後 約自我訓練4400萬局 1 Table S3 AlphaZero以28勝72和0敗的成績打敗Stockfish 1 Table 1 將棋 编辑 在12小時的訓練後 約自我訓練2400萬局 1 Table S3 AlphaZero以90勝2和8敗的成績打敗elmo 日语 elmo コンピュータ将棋ソフト 1 Table 1 圍棋 编辑 在34小時的訓練後 約自我訓練2100萬局 1 Table S3 AlphaZero以60勝40敗的成績打敗AlphaGo Zero 1 Table 1 相關連結 编辑AlphaGo Zero DeepMind ELF OpenGo KataGo參考資料 编辑 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 Mastering Chess and Shogi by Self Play with a General Reinforcement Learning Algorithm 2017 12 05 2018 05 09 原始内容存档于2017 12 08 外部連結 编辑Mastering Chess and Shogi by Self Play with a General Reinforcement Learning Algorithm 页面存档备份 存于互联网档案馆 AlphaZero的論文 Game Downloads 页面存档备份 存于互联网档案馆 AlphaZero與西洋棋軟體Stockfish的對弈記錄 Chess com Youtube playlist for AlphaZero vs Stockfish 页面存档备份 存于互联网档案馆 取自 https zh wikipedia org w index php title AlphaZero amp oldid 75189516, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。