事实证明,人工智能实际上可以构建称职的扫雷克隆——四个经过测试的人工智能编码代理显示OpenAI的Codex是最好的,而谷歌的双子座CLI是最差的
随着企业以看似无限的资源追逐人工智能,世界在我们周围燃烧,我们应该看看这一切骚动给我们带来了什么。最近,Ars Technica的人对四种最受欢迎的人工智能编码代理进行了测试,提出了一个看似简单的要求:为网络构建扫雷。克隆必须包括音效、移动触摸屏支持和“有趣的”游戏转折。
对于那些没有意识到的人来说,扫雷依赖于决定游戏玩法的逻辑,以及足够合理的用户界面/用户体验元素,这些元素结合在一起构成了一个不错的挑战。克隆扫雷并不难,但它的基本机制至少需要一定程度的独创性,这通常来自人类——毕竟,AGI是目标,对吧?测试包括人类的克劳德代码(付费版本)、谷歌的双子座CLI、米斯特拉尔Vibe和基于GPT-5的OpenAI的法典。所有这些都被赋予了相同的指令,无论人工智能在第一次运行中最终产生什么,都将被用来计算分数。除了开始,没有人工输入或第二次机会。OpenAI Codex-9/10(图像信用:未来)(图像信用:未来)迄今为止表现最好的是Codex,它不仅在视觉效果上做得很好,而且是唯一一个真正包含“和弦”的人工智能,这是一种如果你把旗帜放对了,就会显示周围所有瓷砖的技术。和弦是经验丰富的玩家的最爱,所以它的省略会自动让任何扫雷克隆人感觉不那么优雅。
Codex的版本让所有按钮都正常工作,包括声音切换,具有时代精确的哔哔声和呜呜声,以及移动和桌面的屏幕说明。至于游戏转折,角落里有一个“幸运横扫”按钮,当你赢得它时,偶尔会显示一个安全瓷砖。
Codex的编码体验也很流畅,命令行界面具有漂亮的动画和本地权限管理,尽管代理确实花了很多时间编写代码。Ars Technica将这一努力描述为最接近可以在最小人为干扰下发布的东西,并获得了令人印象深刻的9/10分。克劳德代码-7/10(图像信用:未来)(图像信用:未来)亚军是人类科学公司的克劳德,它花了Codex一半的时间才想出代码,并交付了一个更美观的产品。事实上,它是所有版本中外观最精致的版本,炸弹的自定义图形和顶部与设备无关的微笑表情符号。音效也令人愉快,它的切换在手机和桌面上都能很好地工作。然而,当没有合唱支持时,这种体验就崩溃了——根据OP的说法,“不可接受”。有一个“力量模式”充当游戏转折,给你简单的力量,这需要代理真正的创造力。在手机上,还有一个“旗帜模式”按钮,这是长按标记瓷砖的一个不错的替代方案。
在我们看来,当我们尝试时,这也是感觉最好的克隆。克劳德代码的Opus 4.5模型在不到5分钟的时间内构建了扫雷克隆,并具有最干净的编码界面。总的来说,演示非常可靠,如果有拨弦功能,得分会更高。米斯特拉尔氛围-4/10(图像信用:未来)(图像信用:未来)第三名,我们有米斯特拉尔氛围,它生产了一个同名产品,也就是说,结果是被振动编码的代名词。游戏运行良好,看起来不错,但它缺乏一直重要的拨弦功能,也没有音效。底部还有一个“自定义”按钮,什么也没做。振动也没有增加任何有趣的游戏转折,所以所有这些都减少了一些分数。
顶部的微笑表情符号是全黑的,这让测试人员感到不快,选择“专家”模式会将网格扩展到方形背景之外,但这只是一个视觉故障。你可以右键单击桌面上的标志,但你必须按住移动设备,这可能会尴尬地调出你设备的上下文菜单(在我们的例子中没有)。
编码界面坚固易用,但不完全是最快的——不过,最后一个位置太远了,标准不是很高。Ars Technica的编辑们对它的表现印象深刻,尽管缺乏大牌的大规模资源。最后,米斯特拉尔振动得到了4/10,根据他们的description.Google双子座-0/10❌(图像信用:未来)(图像信用:未来)最后一个死的是谷歌的双子座CLI,这可能会让一些人感到惊讶,因为谷歌现在经常在基准测试中名列前茅,以及与联合创始人谢尔盖·布林回归掌舵加州巨头前沿人工智能相关的普遍回归故事。 双子座的扫雷分身根本不起作用。它有按钮,但没有瓷砖可言,所以没有游戏可玩,甚至没有得分。
就视觉效果而言,它看起来与Claude Code的最终结果出奇地相似;就像有人在编码中途停止了代理。双子座也花了最长的时间,每次代码运行需要一个小时,代理不断要求外部依赖项。即使稍微改变规则,给它第二次机会,用一条使用HTML5的硬性指令,它也无法产生可用的结果。
Ars Technica确实注意到双子座CLI无法访问最新的双子座3编码模型,而是依赖双子座2.5系统集群。也许,为更高层的谷歌人工智能付费会更有利地结束,使这个测试“不完整”,但它仍然非常令人失望。
所以,你有它——这就是我们允许我们的内存价格翻两番并暂时毁掉计算机的原因。Codex获胜,米斯特拉尔振动和克劳德代码紧随其后,谷歌甚至没有尝试,但代价是什么。如果你还没有全身心投入人工智能,可以肯定地说,这个实验不会让你相信任何事情。在谷歌新闻上关注汤姆的硬件,或者将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。








事实证明,人工智能实际上可以构建称职的扫雷克隆——四个经过测试的人工智能编码代理显示OpenAI的Codex是最好的,而谷歌的双子座CLI是最差的