7 月 11 日,騰訊宣布自研棋牌類 AI “絕藝LuckyJ” 在國(guó)際知名麻將平臺(tái)“天鳳”上已經(jīng)達(dá)到十段水平,刷新了 AI 在麻將領(lǐng)域的最好成績(jī)。
資料顯示,日本在線麻將競(jìng)技平臺(tái)“天鳳”創(chuàng)建于 2006 年,擁有體系化的競(jìng)技規(guī)則和專業(yè)段位規(guī)則,受到職業(yè)麻將界的廣泛認(rèn)可。截至目前,天鳳平臺(tái)活躍人數(shù) 23.8萬(wàn),而能達(dá)到十段的僅 27 人(含AI),不到萬(wàn)分之一。相比其他麻將AI和人類玩家,“絕藝 LuckyJ”不僅穩(wěn)定段位更高,從零開(kāi)始達(dá)到十段所需的對(duì)戰(zhàn)局?jǐn)?shù)也明顯更少,僅需要 1321 局。
(資料圖片僅供參考)
騰訊 AI Lab 研究員表示,現(xiàn)實(shí)世界中充滿了需要在非完美信息狀態(tài)下做決策的場(chǎng)景,比如金融交易、自動(dòng)駕駛、交通物流、拍賣系統(tǒng)等。在游戲環(huán)境中推進(jìn)決策AI的能力,最終是希望AI能從虛擬走向現(xiàn)實(shí),解決真實(shí)世界的復(fù)雜問(wèn)題。此前,游戲在人工智能技術(shù)的演進(jìn)中發(fā)揮了重要的作用。游戲多樣化的情境為AI的訓(xùn)練和學(xué)習(xí)提供了便利的研究場(chǎng)景,從國(guó)際象棋到圍棋,再到德州撲克、王者榮耀等游戲,AI 不斷在游戲場(chǎng)景中拓展能力邊界。
圍棋、象棋都屬于完美信息博弈,參與競(jìng)技雙方的每次決策,都可以看到全局的信息。AI能夠通過(guò)強(qiáng)大的計(jì)算力來(lái)枚舉各種可能性,從而找到制勝策略。而麻將無(wú)法看到對(duì)手的手牌,加上還有大量未揭開(kāi)的牌,存在大量的隱藏信息,是典型的非完美信息博弈。
據(jù)介紹,麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來(lái)的牌。牌局開(kāi)始時(shí),另外三位玩家的手牌以及墻牌都是看不到的,面對(duì)如此多的隱藏未知信息,麻將玩家的每一個(gè)決策都需要兼顧進(jìn)攻和防守。
此外,在麻將的對(duì)戰(zhàn)中,除了正常的摸牌、打牌之外,還要決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都會(huì)改變摸牌的順序,這一過(guò)程也涉及了大量的決策。
為了更好地解決麻將游戲中存在的大量隱藏信息的難題,提升AI的決策能力,騰訊 AI Lab基于強(qiáng)化學(xué)習(xí)和遺憾值最小化的自我博弈技術(shù),使得AI能從零開(kāi)始自我學(xué)習(xí)和提高,并最終收斂到一個(gè)最強(qiáng)的混合策略,讓AI在實(shí)際對(duì)戰(zhàn)的過(guò)程中擁有更加平衡的策略能力。
同時(shí),考慮到傳統(tǒng)的非完美信息搜索算法在麻將面前很難發(fā)揮太大的作用,騰訊 AI Lab基于樂(lè)觀價(jià)值估計(jì)的思想,提出了一種高效的非完美搜索方法,使得AI在有海量隱藏信息的游戲狀態(tài)中,仍可以實(shí)時(shí)調(diào)整當(dāng)前策略,從而更好地應(yīng)對(duì)多變的戰(zhàn)局。
相比人類,“絕藝 LuckyJ“在麻將游戲中,擁有更加平衡的策略,對(duì)局勢(shì)的計(jì)算更精確,其中包括打每張牌的期望收益、未來(lái)可能胡哪些番型等等,通過(guò)這樣的“策略”訓(xùn)練,也為AI走入更多行業(yè)打下了基礎(chǔ)。
天鳳平臺(tái)開(kāi)發(fā)公司C-EGG的CEO角田真吾表示:“這是麻將AI的又一次突破,LuckyJ進(jìn)一步拓寬了麻將AI的能力邊界。令人感到興奮的是,在特上房包括人類玩家在內(nèi)的對(duì)戰(zhàn)1000局以上的所有玩家中,LuckJ的穩(wěn)定段位排名第一”。
值得一提的是,“絕藝LuckyJ“在國(guó)標(biāo)麻將中也有亮眼表現(xiàn),在線下職業(yè)選手邀請(qǐng)賽中擊敗六位職業(yè)選手,成為首個(gè)戰(zhàn)勝國(guó)標(biāo)麻將頂尖職業(yè)選手的麻將AI。
決策與生成是當(dāng)前人工智能發(fā)展的兩大主線,也是研究通用人工智能的必由之路。在模擬真實(shí)世界的虛擬游戲中,AI學(xué)會(huì)快速分析、決策與行動(dòng),就能執(zhí)行更困難復(fù)雜的任務(wù)并發(fā)揮更大作用。從 2017 年開(kāi)始,騰訊AI Lab自研的絕藝、絕悟兩款決策AI,借助棋牌、MOBA等多類游戲場(chǎng)景,探索用AI解決現(xiàn)實(shí)中的復(fù)雜問(wèn)題。
南方+記者 葉丹
【作者】 葉丹
【來(lái)源】 南方報(bào)業(yè)傳媒集團(tuán)南方+客戶端
關(guān)鍵詞: