GO 板


LINE

看板 GO  RSS
https://www.ithome.com.tw/news/141845 DeepMind揭露新一代AI系統MuZero:不知遊戲規則也能有效規畫行動 新一代AI系統MuZero能在完全不知規則的情況下,熟悉圍棋、西洋棋、將棋,以及57款 Atari遊戲,且效能大幅超越了現有最佳的DQN、R2D2與Agent57系統,可望用來解決現實 生活中,規則太複雜或完全不知規則的各式難題。 文/陳曉莉 | 2020-12-24發表 Alphabet旗下的人工智慧子公司DeepMind,繼發表了圍棋AI系統AlphaGo,以及同時精通 圍棋、西洋棋與將棋的AlphaZero之後,於本周再度揭露了新一代AI系統MuZero,它能夠 在完全不知規則的情況下,熟悉圍棋、西洋棋、將棋,以及57款Atari遊戲,且效能大幅 超越了現有最佳的DQN、R2D2與Agent57系統,可望用來解決現實生活中,規則太複雜或完 全不知規則的各式難題。 比較DeepMind的幾代產品,2016年的AlphaGo是透過已知的規則、圍棋領域的知識,再加 上人類資料訓練而成,讓它擊敗了全球的圍棋好手;2017年的AlphaGo Zero,則是僅利用 已知規則,自我學習而達到與AlphaGo同樣的境界;2018年的AlphaZero也是僅基於已知規 則,但把挑戰範圍從圍棋擴大到西洋棋與將棋,便能同時精通這3項棋戲;而最新的 MuZero則未被餵入任何的已知規則,在未知的動態環境下就能自動學習規則並作出最佳判 斷,且MuZero系統把挑戰範圍從上述的圍棋/西洋棋/將棋,擴大到Atari出品的57款遊戲 ,並取得優秀的成績。 DeepMind團隊說明,規畫是人類智慧的一項重要能力,讓人類能夠解決問題並替未來作出 決策,人類通常很快就可以學到計畫的能力,同時也能延伸到新的場景,而這也是該團隊 期許AI系統能夠達到的。 研究人員最初試著透過兩種作法來解決此一問題,包括超前搜尋(lookahead search)與 基於模型的規畫能力,但前者必須仰賴諸如規則或精確模擬器等環境動態的知識,讓它難 以適用於解決複雜且通常缺乏簡單規則的現實世界問題;後者雖然可藉由學習環境動態的 精確模型來進行計畫,但針對環境的每一方面來建模,則無法滿足視覺豐富的領域,例如 Atari,迄今針對Atari的最佳解決方案為非模型的AI系統,包括DQN、R2D2與Agent57,它 們並非使用學習模型,而是推測下一步的最佳作法。 於是MuZero摒棄了上述兩種方式,採用了截然不同的作法,它只針對系統決策程序的重要 因素來建模。研究人員形容,人類的規畫能力呈現在當看到烏雲時,即推測可能會下雨便 帶了把傘,MuZero的邏輯則在於,了解傘能夠讓人們保持乾燥,比針對空氣中的雨滴進行 建模更有用。 因此,MuZero的模型著重在能夠協助規畫的環境變動因素,包括現在位置的價值、最佳行 動的政策,以及上一個行動的成效,藉由深度神經網路進行學習,以理解當採取特定行動 時所產生的結果,並據此展開規畫。 DeepMind團隊測試了MuZero在圍棋、西洋棋、將棋與Atari遊戲上的效能,發現它替強化 學習演算法設立了全新的水平,不僅於棋戲項目達到與AlphaZero同樣的效能水準,在 Atari遊戲上更凌駕了所有現有的最佳系統。 此外,該團隊也發現,要是賦予MuZero更多的思考(演算)時間,例如原本移動圍棋每個 棋子的時間為1/10秒,在將它拉長至50秒之後,MuZero在圍棋上的技能將增加 1000 Elo ,兩者之間的差距就如同一個厲害的業餘玩家,以及一個世界最強的專業棋手。 同樣的,在Atari其中一款遊戲《小精靈小姐》(Ms Pac-Man)上進行測試時,MuZero在 每個行動上可選擇5~50個數量的規畫模擬,結果顯示所選擇的規畫數量愈多,MuZero就能 學習得更快,也能取得更好的效能;有趣的是,若將MuZero的每個行動限制在只能選擇6 或7個規畫模擬,它同樣能夠達到優秀的效能,透露出MuZero可在情況與行動之間進行歸 納,而不一定要搜尋所有的可能性。 研究人員認為,當MuZero具備學習環境模型的能力,並用它來進行規畫時,呈現的是強化 學習與通用演算法上的重大進步,AlphaZero已被用來解決化學或量子物理等問題,而 MuZero將可用來解決機器人、工業系統或其它未知規則的混亂現實環境中,所存在的新挑 。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.129.164.26 (日本)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/GO/M.1617507530.A.B3A.html
1F:推 intointo: wow 04/04 12:04
2F:推 RicFlair: 終於制霸atari了嗎 04/04 15:09
3F:推 staristic: 不知道規則也能下?意思是不是有辦法不考慮貼目或配置 04/04 15:11
4F:→ staristic: 直接判斷一個局部定式好壞? 04/04 15:11
5F:推 abc0922001: 不用事先輸入規則而已吧 04/04 16:03
6F:→ saviora: 意思就是他可以自己探索規則 04/04 21:23
7F:推 earltyro: S大 應該是沒有說明書 一直輸 輸到學會的意思啦 04/05 09:14
8F:推 rnoro: 其實應該沒有什麼新東西,只是把規則變成參數的一部分而已 04/09 02:05







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP