事实证明,人工智能实际上可以构建称职的扫雷克隆——四个经过测试的人工智能编码代理显示OpenAI的Codex是最好的,而谷歌的双子座CLI是最差的

AI 2026-01-28 21:37:58 巩晴韦

随着企业以看似无限的资源追逐人工智能,世界在我们周围燃烧,我们应该看看这一切骚动给我们带来了什么。最近,Ars Technica的人对四种最受欢迎的人工智能编码代理进行了测试,提出了一个看似简单的要求:为网络构建扫雷。克隆必须包括音效、移动触摸屏支持和“有趣的”游戏转折。

对于那些没有意识到的人来说,扫雷依赖于决定游戏玩法的逻辑,以及足够合理的用户界面/用户体验元素,这些元素结合在一起构成了一个不错的挑战。克隆扫雷并不难,但它的基本机制至少需要一定程度的独创性,这通常来自人类——毕竟,AGI是目标,对吧?测试包括人类的克劳德代码(付费版本)、谷歌的双子座CLI、米斯特拉尔Vibe和基于GPT-5的OpenAI的法典。所有这些都被赋予了相同的指令,无论人工智能在第一次运行中最终产生什么,都将被用来计算分数。除了开始,没有人工输入或第二次机会。OpenAI Codex-9/10(图像信用:未来)(图像信用:未来)迄今为止表现最好的是Codex,它不仅在视觉效果上做得很好,而且是唯一一个真正包含“和弦”的人工智能,这是一种如果你把旗帜放对了,就会显示周围所有瓷砖的技术。和弦是经验丰富的玩家的最爱,所以它的省略会自动让任何扫雷克隆人感觉不那么优雅。

Codex的版本让所有按钮都正常工作,包括声音切换,具有时代精确的哔哔声和呜呜声,以及移动和桌面的屏幕说明。至于游戏转折,角落里有一个“幸运横扫”按钮,当你赢得它时,偶尔会显示一个安全瓷砖。

Codex的编码体验也很流畅,命令行界面具有漂亮的动画和本地权限管理,尽管代理确实花了很多时间编写代码。Ars Technica将这一努力描述为最接近可以在最小人为干扰下发布的东西,并获得了令人印象深刻的9/10分。克劳德代码-7/10(图像信用:未来)(图像信用:未来)亚军是人类科学公司的克劳德,它花了Codex一半的时间才想出代码,并交付了一个更美观的产品。事实上,它是所有版本中外观最精致的版本,炸弹的自定义图形和顶部与设备无关的微笑表情符号。音效也令人愉快,它的切换在手机和桌面上都能很好地工作。然而,当没有合唱支持时,这种体验就崩溃了——根据OP的说法,“不可接受”。有一个“力量模式”充当游戏转折,给你简单的力量,这需要代理真正的创造力。在手机上,还有一个“旗帜模式”按钮,这是长按标记瓷砖的一个不错的替代方案。

在我们看来,当我们尝试时,这也是感觉最好的克隆。克劳德代码的Opus 4.5模型在不到5分钟的时间内构建了扫雷克隆,并具有最干净的编码界面。总的来说,演示非常可靠,如果有拨弦功能,得分会更高。米斯特拉尔氛围-4/10(图像信用:未来)(图像信用:未来)第三名,我们有米斯特拉尔氛围,它生产了一个同名产品,也就是说,结果是被振动编码的代名词。游戏运行良好,看起来不错,但它缺乏一直重要的拨弦功能,也没有音效。底部还有一个“自定义”按钮,什么也没做。振动也没有增加任何有趣的游戏转折,所以所有这些都减少了一些分数。

顶部的微笑表情符号是全黑的,这让测试人员感到不快,选择“专家”模式会将网格扩展到方形背景之外,但这只是一个视觉故障。你可以右键单击桌面上的标志,但你必须按住移动设备,这可能会尴尬地调出你设备的上下文菜单(在我们的例子中没有)。

编码界面坚固易用,但不完全是最快的——不过,最后一个位置太远了,标准不是很高。Ars Technica的编辑们对它的表现印象深刻,尽管缺乏大牌的大规模资源。最后,米斯特拉尔振动得到了4/10,根据他们的description.Google双子座-0/10❌(图像信用:未来)(图像信用:未来)最后一个死的是谷歌的双子座CLI,这可能会让一些人感到惊讶,因为谷歌现在经常在基准测试中名列前茅,以及与联合创始人谢尔盖·布林回归掌舵加州巨头前沿人工智能相关的普遍回归故事。 双子座的扫雷分身根本不起作用。它有按钮,但没有瓷砖可言,所以没有游戏可玩,甚至没有得分。

就视觉效果而言,它看起来与Claude Code的最终结果出奇地相似;就像有人在编码中途停止了代理。双子座也花了最长的时间,每次代码运行需要一个小时,代理不断要求外部依赖项。即使稍微改变规则,给它第二次机会,用一条使用HTML5的硬性指令,它也无法产生可用的结果。

Ars Technica确实注意到双子座CLI无法访问最新的双子座3编码模型,而是依赖双子座2.5系统集群。也许,为更高层的谷歌人工智能付费会更有利地结束,使这个测试“不完整”,但它仍然非常令人失望。

所以,你有它——这就是我们允许我们的内存价格翻两番并暂时毁掉计算机的原因。Codex获胜,米斯特拉尔振动和克劳德代码紧随其后,谷歌甚至没有尝试,但代价是什么。如果你还没有全身心投入人工智能,可以肯定地说,这个实验不会让你相信任何事情。在谷歌新闻上关注汤姆的硬件,或者将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。

© 版权声明

相关文章

研究称,“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望,但创建能够与当前模型相媲美的硬件需要艰巨的任务

一份令人费解的新报告称,理论上,“热力学计算”可以大幅降低人工智能生成图像所消耗的能量,只需当前流行工具能量的一百亿分之一。据IEEE Spectrum报道,最近的两项研究暗示了这项新兴技术的潜力,但其支持者承认该解决方案还很初级。
2026-01-29

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司,以重组总部位于加州的Solidigm企业固态硬盘品牌,以支持美国的投资

存储芯片巨头SK海力士正在美国投资100亿美元成立一家新的人工智能解决方案公司,暂定名为人工智能公司。该公司在一份新闻稿中详细说明,新公司将完全获得这项新投资,并能够在其认为合适的情况下部署它,以促进人工智能行业,支持新的人工智能初创企业和发展,并鼓励其在存储芯片开发方面的实力和竞争力。这种投资甚至可能意味着允许更容易获得SK海力士的关键技术,如高带宽存储器(HBM)。
2026-01-29

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

谷歌刚刚宣布,它正在探索将人工智能数据中心送入轨道的想法,以利用太阳的太阳能输出来发电。根据谷歌研究,太阳捕手项目的目标是拥有一个带有谷歌TPU的太阳能卫星星座,这些卫星可以进行光学通信。这将使该公司能够运行一个耗电的数据中心,而不需要在陆地上建造一个数据中心所需的庞大基础设施。
2026-01-29

事实证明,人工智能实际上可以构建称职的扫雷克隆——四个经过测试的人工智能编码代理显示OpenAI的Codex是最好的,而谷歌的双子座CLI是最差的 暂无评论