谷歌、OpenAI爭(zhēng)相讓旗下AI玩《精靈寶可夢(mèng)》游戲：衡量AI真正實(shí)力

24直播網(wǎng) 2026-01-26 01:11:32

電競(jìng)體育01月25報(bào)道據(jù)科技媒體 Tom's Hardware 今天報(bào)道，當(dāng)今時(shí)代我們有無(wú)數(shù)種跑分測(cè)試和評(píng)測(cè)方法來(lái)衡量 AI 的聰明程度與能力，但最近一種相對(duì)小眾的測(cè)試方法也在 AI 圈內(nèi)引發(fā)關(guān)注。

目前，谷歌、OpenAI 和 Anthropic 等 AI 巨頭正在讓自家模型游玩經(jīng)典的《精靈寶可夢(mèng)》系列游戲，以此來(lái)評(píng)估 AI 性能表現(xiàn)。

Anthropic 公司 AI 部門(mén)負(fù)責(zé)人 David Hershey 對(duì)此表示：“《精靈寶可夢(mèng)》之所以能吸引機(jī)器學(xué)習(xí)社區(qū)關(guān)注，是因?yàn)樗幌瘛禤ong》等簡(jiǎn)單游戲那樣受限。這種游戲?qū)﹄娔X程序來(lái)說(shuō)非常具有挑戰(zhàn)性”。

Hershey 從去年開(kāi)始在 Twitch 平臺(tái)進(jìn)行直播，每天的日常就是用公司自產(chǎn)模型 Claude 玩《精靈寶可夢(mèng)》。這名負(fù)責(zé)人平時(shí)的工作就是幫助客戶(hù)部署 AI，因此他開(kāi)直播本質(zhì)上也是在測(cè)試模型。

這名負(fù)責(zé)人給自家 AI 直播游戲的做法也啟發(fā)了不少自由開(kāi)發(fā)者，他們也陸續(xù)搞了“Gemini 玩《寶可夢(mèng)》”“GPT 玩《寶可夢(mèng)》”等類(lèi)似的直播節(jié)目。

后來(lái)，這些直播甚至被谷歌和 OpenAI 注意到，開(kāi)發(fā)團(tuán)隊(duì)有時(shí)還會(huì)客串直播間親自調(diào)整模型參數(shù)，在官方力量注入下，Gemini 和 GPT 已經(jīng)成功通關(guān)了 Gam Boy 時(shí)代的《寶可夢(mèng)藍(lán)》，目前已在挑戰(zhàn)續(xù)作；而 Claude 至今還沒(méi)打通任何一個(gè)版本。

至于為何要用《寶可夢(mèng)》評(píng)估 AI 性能？Hershey 對(duì)此解釋道：“因?yàn)樗o我們提供了直觀的方法觀察模型表現(xiàn)，還能用量化指標(biāo)評(píng)估性能”。

通常來(lái)講，玩家在《寶可夢(mèng)》系列游戲中需要升級(jí)、訓(xùn)練已有 / 剛抓的寶可夢(mèng)，還要打敗道館館主來(lái)捕捉新的寶可夢(mèng)。這種游戲流程并非線(xiàn)性，而是充滿(mǎn)著判斷和取舍。

而且，玩家還要經(jīng)常在游戲中做出選擇：是先冒險(xiǎn)挑戰(zhàn)強(qiáng)大的訓(xùn)練家以獲取珍稀寶可夢(mèng)，還是穩(wěn)扎穩(wěn)打造出一支實(shí)力均衡的隊(duì)伍。

顯然，人類(lèi)非常擅長(zhǎng)做此類(lèi)決策，這也是游戲的樂(lè)趣所在，但對(duì)于 AI 來(lái)說(shuō)，這是一場(chǎng)關(guān)乎邏輯推理、風(fēng)險(xiǎn)評(píng)估以及長(zhǎng)期規(guī)劃能力的綜合考驗(yàn)。

因此研究人員會(huì)深入剖析 AI 在游戲里的決策方式，深入理解模型的能力邊界。

Hershey 還會(huì)將 AI 玩《寶可夢(mèng)》的結(jié)果分享給客戶(hù)以改進(jìn)控制框架（IT之家注：harness），幫助他們提升算力使用效率，讓模型更高效運(yùn)轉(zhuǎn)。

游戲衡量實(shí)力真正精靈

上一篇：概率不小銀河戰(zhàn)艦HLE或成小組倒數(shù)第一無(wú)緣LCK第一賽段季后賽

下一篇： S賽亞軍連墊底隊(duì)BRO都打不過(guò)KT.Aiming被Teddy抽陀螺鬼皇抽象輔助

91视频专区,久久久久久久久久网站,黄色片免费观看视频,视频在线观看91,一级女淫片a8888,福利中文字幕,欧美日韩二区三区

谷歌、OpenAI爭(zhēng)相讓旗下AI玩《精靈寶可夢(mèng)》游戲：衡量AI真正實(shí)力

谷歌、OpenAI爭(zhēng)相讓旗下AI玩《精靈寶可夢(mèng)》游戲：衡量AI真正實(shí)力