主頁(yè) > 知識(shí)庫(kù) > 圍棋算啥?吃豆游戲上 微軟AI也完爆人類

圍棋算啥?吃豆游戲上 微軟AI也完爆人類

熱門標(biāo)簽:美團(tuán)商戶地圖標(biāo)注 菏澤辦理400電話號(hào)碼查詢 奧維地圖標(biāo)注樁號(hào) 江西自動(dòng)電銷機(jī)器人軟件 做的地圖標(biāo)注怎么直接顯示 百應(yīng)電銷機(jī)器人競(jìng)品 英語(yǔ)手繪地圖標(biāo)注天氣手抄報(bào) 百度地圖標(biāo)注點(diǎn)變文字 外呼系統(tǒng)卡是因?yàn)榫W(wǎng)卡嗎
 

微軟研究人員創(chuàng)建了一個(gè)人工智能的系統(tǒng),這個(gè)系統(tǒng)能夠在20世紀(jì)80年代風(fēng)靡全球的電子游戲吃豆人小姐(Ms. Pac-Man)中獲得最高分,系統(tǒng)使用了分治策略來(lái)更大程度地影響AI代理,從而完美地通關(guān)游戲。

本年年初,微軟收購(gòu)了一家人工智能初創(chuàng)公司Maluuba。Maluuba公司團(tuán)隊(duì)運(yùn)用強(qiáng)化學(xué)習(xí)技術(shù)(機(jī)器學(xué)習(xí)的分支),在吃豆人小姐游戲Atari 2600版本中表示完美。使用這種方法,該團(tuán)隊(duì)在這個(gè)游戲中得到的分?jǐn)?shù)高達(dá)999,990。

位于加拿大蒙特利爾的麥吉爾大學(xué)(McGill University)、從事計(jì)算機(jī)科學(xué)研究的Doina Precup副教授體現(xiàn),AI研究人員的常常使用各種電子游戲來(lái)測(cè)試他們研發(fā)的系統(tǒng),但研究人員發(fā)現(xiàn)吃豆人小姐游戲是最難并吞的。

但是,Precup體現(xiàn),比擬于研究人員所取得的成就而言,她對(duì)于研究人員獲得成果的過(guò)程更加感興趣。為了在吃豆人小姐游戲中獲得更高的分?jǐn)?shù),Maluuba公司團(tuán)隊(duì)將操控吃豆人小姐游戲的大問(wèn)題分解成若干個(gè)小問(wèn)題,然后將小問(wèn)題分發(fā)給AI代理解決。

Precup說(shuō):“這個(gè)分治策略的想法讓Maluuba公司的研究人員使用差別的系統(tǒng)來(lái)實(shí)現(xiàn)同一個(gè)目標(biāo),這是一件非常有趣的事情”。

她還說(shuō)到:“這個(gè)想法類似于一些大腦如何工作的理論,它可以更大程度地影響AI代理教學(xué),從而利用有限的信息來(lái)完成更為復(fù)雜的任務(wù)。倘若能夠完美利用分治策略,那人工智能將向前跨越一大步,這真的令人感到尤為興奮?!?/p>

Maluuba團(tuán)隊(duì)將這種分治策略稱之為混合式獎(jiǎng)賞架構(gòu)(Hybrid Reward Architecture),這個(gè)方法使用了150多名人工智能代理,每個(gè)代理與其他代理彼此獨(dú)立地精通吃豆人小姐游戲。好比,一些代理成功找到一個(gè)豆子將獲得的獎(jiǎng)勵(lì),而別的一些代理由于幽靈的存在必需呆在原處。

然后,研究人員在吃豆人小姐游戲中創(chuàng)建了一個(gè)頂級(jí)代理,就像一家公司的高級(jí)經(jīng)理一樣,頂級(jí)代理能夠獲得所有代理的建議,綜合分析后由頂級(jí)代理來(lái)決定吃豆人小姐該如何移動(dòng)。

頂級(jí)代理會(huì)按照選擇各個(gè)標(biāo)的目的前進(jìn)的代理數(shù)量的大小來(lái)決定移動(dòng)標(biāo)的目的,但同時(shí)也需要考慮到代抱負(fù)要往某個(gè)標(biāo)的目的移動(dòng)的反應(yīng)強(qiáng)度。

例如,如果100個(gè)代抱負(fù)向右邊移動(dòng),因?yàn)橄蛴疫呑呤撬麄兊淖罴崖窂剑?個(gè)人想要向左邊移動(dòng),因?yàn)橛疫呌幸粋€(gè)致命的幽靈,那這3個(gè)代理向左邊移動(dòng)的反應(yīng)強(qiáng)度明顯強(qiáng)于其他代理,考慮到幽靈的存在,頂級(jí)代理應(yīng)該決定向左移動(dòng)。

Maluuba公司的研究室經(jīng)理Harman Van Seijen,對(duì)于他們的最新研究成果頒發(fā)了一篇文章,文章中寫到,當(dāng)每位代理都果斷地做出選擇,頂級(jí)代理綜合利用每個(gè)代理的信息后做出最佳選擇,那么在吃豆人小姐游戲中就可以獲得最好的結(jié)果。Harman Van Seijen說(shuō):“雖然每個(gè)代理只關(guān)心一個(gè)特定的問(wèn)題,但是他們之間有很好的彼此作用”。

Harman Van Seijen

為什么AI主要研究并吞吃豆人小姐游戲

需要運(yùn)用最先進(jìn)的AI研究方法來(lái)?yè)糨袼朴谏鲜兰o(jì)80年代Atari吃豆人小姐游戲這樣的簡(jiǎn)單游戲,,這看上去很匪夷所思。

但是Maluuba公司的項(xiàng)目經(jīng)理RahulMehrotra體現(xiàn),使用算法來(lái)博得這些簡(jiǎn)單的電子游戲其實(shí)非常困難,因?yàn)樵谕嬗螒虻倪^(guò)程中可能會(huì)遇到的各種各樣的情況。

Mehrotra體現(xiàn):“許多從事人工智能的公司構(gòu)建游戲智能算法,因?yàn)楣鞠M斯ぶ悄苣軌蛳袢祟愐粯訐碛写蛴螒虻募寄??!?/p>

SteveGolson是吃豆人小姐游戲街機(jī)版的創(chuàng)始人之一,他說(shuō)到,吃豆人小姐最初定位是街機(jī)游戲,希望游戲?qū)θ藗冇谐掷m(xù)吸引力而走出宿舍,所以吃豆人小姐游戲必需掌握人類不成完全征服的游戲程序。

Steve Golson

運(yùn)營(yíng)咨詢公司Trilobyte Systems的Golson說(shuō)到,他們故意設(shè)計(jì)了吃豆人小姐游戲比普通吃豆人游戲更加不成預(yù)測(cè),所以玩家們很難打通關(guān)。復(fù)雜的游戲使得研究人員試圖使用AI代理來(lái)對(duì)隨機(jī)環(huán)境做出抱負(fù)的反應(yīng)。

Golson還說(shuō)到:“使用AI代理來(lái)通關(guān)吃豆人小姐游戲是可行的,但由于游戲的隨機(jī)性,所需要設(shè)計(jì)的AI程序?qū)⒂葹閺?fù)雜?!?/p>

強(qiáng)化學(xué)習(xí)

對(duì)于在不停發(fā)展的強(qiáng)化學(xué)習(xí)領(lǐng)域工作的研究人員來(lái)說(shuō),這種不成預(yù)測(cè)性極有價(jià)值。在AI研究中,強(qiáng)化學(xué)習(xí)是監(jiān)督學(xué)習(xí)的副本,是一種更常用的人工智能方法,它能夠讓系統(tǒng)在做任務(wù)時(shí)變得更好。

通過(guò)強(qiáng)化學(xué)習(xí),代理對(duì)其每個(gè)動(dòng)作都采取積極或消極的反應(yīng),通過(guò)不停地試驗(yàn)和犯錯(cuò)誤來(lái)最大限度地獲得積極反應(yīng)或獎(jiǎng)賞。

標(biāo)簽:錫林郭勒盟 陽(yáng)江 徐州 威海 郴州 大連 太原 江蘇

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《圍棋算啥?吃豆游戲上 微軟AI也完爆人類》,本文關(guān)鍵詞  圍棋,算啥,吃豆,游戲,上,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《圍棋算啥?吃豆游戲上 微軟AI也完爆人類》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于圍棋算啥?吃豆游戲上 微軟AI也完爆人類的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章