谷歌、OpenAI和Anropic正在竞争谁的AI可以玩最好的Pokémon——受人喜爱的RPG游戏的Twitch流测试模型的真正威力
虽然有无数的基准和测试来确定人工智能的精明程度和能力,但一个可能更模糊的基准似乎正在人工智能社区掀起波澜。据《华尔街日报》报道,根据一份新报告,谷歌、OpenAI和人类学等公司现在正在让他们的模型玩老式神奇宝贝来评估性能。
“让神奇宝贝变得有趣并引起[机器学习]社区兴趣的是,它比Pong或人们历史上玩过的其他一些游戏受限制小得多。对于计算机程序来说,这是一个非常困难的问题,”人类人工智能负责人大卫·好时告诉outlet.It,这一切都始于去年,当时克劳德——人类的前沿法学硕士——被好时放在了一个名为“克劳德玩神奇宝贝”的Twitch流中大卫是人类人工智能公司的应用人工智能负责人,这意味着他的工作是帮助客户部署人工智能,所以这只是测试模型的另一种方式。克劳德的游戏努力激励自由开发者也推出了类似的“双子座玩神奇宝贝”和“GPT玩神奇宝贝”流。
这些项目已经得到了谷歌和OpenAI的官方认可,他们的实验室有时甚至会介入调整模型。这样的深思熟虑让双子座和GPT都已经击败了神奇宝贝蓝,所以他们已经进入了续集,但是克劳德的任何版本都还没有成功。最新的Opus 4.5模型目前正忙着应对流媒体上的挑战。大卫说,使用神奇宝贝来测试这些人工智能模型非常有益,因为“它为[我们]提供了一个很好的方法,可以看到模型的表现并以定量的方式评估它。”在游戏中,你必须升级,训练你现有的花名册,并通过击败他们的健身房主人来捕捉新的神奇宝贝。这不是一个简单的线性发展,而是一个需要judgment.You经常遇到的选择,要么追求风险,要么与强大的教练战斗以抓住他们的神奇宝贝,要么提高你已经拥有的技能。人类擅长做出这样的决定;他们是乐趣的一部分,但对人工智能来说,这是对逻辑推理、风险评估和长期思维的测试,将影响整体进步。因此,模型如何选择玩游戏有助于研究人员更好地理解它。
大卫通过与客户分享他的发现来做到这一点,改进了围绕人工智能构建的针对特定任务的“马具”。马具本质上是指控制模型的软件框架,有助于以更有意义的方式引导其资源以满足特定任务的要求。大卫将他从神奇宝贝流中学到的东西应用于希望改进计算的现实世界客户efficiency.As大型科技公司朝着实现AGI的目标前进,推理将从简单的答案过渡到长期运行的连续进展,这是像神奇宝贝这样的游戏非常适合的。要完成游戏,你必须赢得神奇宝贝联盟,这需要连续几个步骤,测试人工智能的战略规划和资源管理。它还使性能易于量化,而不是主观的。
之前,我们报道了人工智能功能的另一个练习,要求一群模型克隆扫雷。OpenAI的Codex成为了赢家,谷歌的双子座甚至未能制作出一款可玩的游戏。这是一个容易得多的问题,所以像复古RPG这样复杂的东西肯定是评估标准的一个进步。在谷歌新闻上关注汤姆的硬件,或者将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。








谷歌、OpenAI和Anropic正在竞争谁的AI可以玩最好的Pokémon——受人喜爱的RPG游戏的Twitch流测试模型的真正威力