科学家们设计了一种新方法来衡量人工智能(AI)系统的能力——它们在具有挑战性的任务中击败人类或与人类竞争的速度有多快。
虽然人工智能通常可以在文本预测和知识任务中胜过人类,但当被给予更实质性的项目来执行时,比如远程行政协助,它们就不太effective.To量化人工智能模型中的这些性能提升,一项新的研究提出,根据人工智能可以完成的任务的持续时间和人类需要的时间来衡量人工智能。研究人员于3月30日在预印本数据库arxiv上发表了他们的发现,因此他们还没有经过同行评审。
“我们发现,衡量模型可以完成的任务的长度是理解当前人工智能能力的一个有用视角。这是有道理的:人工智能代理似乎经常难以将更长的动作序列串在一起,而不是缺乏解决单个步骤所需的技能或知识,”人工智能组织模型评估和威胁研究(METR)的研究人员在该研究的一篇博客文章中解释道。
研究人员发现,人工智能模型完成的任务需要人类不到4分钟,成功率接近100%。然而,对于需要超过4小时的任务,这一比例下降到10%。与最新的系统相比,较旧的人工智能模型在更长的任务中表现更差。
这是意料之中的,该研究强调,在过去六年中,多面手AI可以以50%的可靠性完成的任务长度大约每七个月翻一番。
相关内容:科学家们发现了人类和人工智能“思考”方式的重大差异——这可能具有重大意义。为了进行研究,研究人员采用了各种人工智能模型——从Sonnet 3.7和GPT-4到Claude 3 Opus和更早的GPT模型——并将它们与一系列任务进行了对比。这些任务从简单的作业(通常需要人类几分钟,比如在维基百科上查找一个基本的事实问题)到需要人类专家数小时的作业——例如编写CUDA内核或在PyTorch中修复一个微妙的bug等复杂的编程任务。
使用了包括HCAST和RE-Bench在内的测试工具;前者有189个自主软件任务设置,用于评估人工智能代理处理机器学习、网络安全和软件工程任务的能力,而后者使用七个具有挑战性的开放式机器学习研究工程任务,例如优化图形处理器内核,以人类专家为基准。
然后,研究人员对这些任务进行了“混乱”评级,以了解和评估一些任务如何包含诸如实时协调多个工作流之间的需求——有效地使任务更混乱地完成——从而更能代表现实世界的任务。
研究人员还开发了软件原子动作(SWAA)来确定真人完成任务的速度。这些是由METR员工设定基线的1到30秒的单步任务。
实际上,这项研究发现人工智能的“注意力持续时间”正在快速增长。通过推断这一趋势,研究人员预测(如果他们的结果确实可以普遍应用于现实世界的任务),到2032年,人工智能可以自动化一个月的人类软件开发。
科学家们说,为了更好地理解人工智能的进步能力及其对社会的潜在影响和风险,这项研究可以形成一个与现实世界结果相关的新基准,以“对绝对性能,而不仅仅是相对性能进行有意义的解释”。评估人工智能的新前沿?一个潜在的新基准可以让我们更好地理解人工智能系统的实际智能和能力。
“这个指标本身不太可能改变人工智能的发展进程,但它将跟踪人工智能系统理想应用的某些类型任务的进展速度,”维克特拉人工智能公司杰出的人工智能研究员索罗布·卡泽鲁尼安告诉《生活科学》。
“根据人类完成给定任务所需的时间来衡量人工智能是智力和综合能力的一个有趣的中间指标,”卡泽鲁尼安说。“首先,因为没有单一的指标来捕捉我们所说的“智能”的含义。“其次,因为在没有漂移或错误的情况下执行一项长期任务的可能性变得非常小。 第三,因为它是针对我们希望利用人工智能完成的任务类型的直接衡量标准;即解决复杂的人类问题。虽然它可能无法捕捉到人工智能能力的所有相关因素或细微差别,但它肯定是一个有用的数据点,”他补充道。
IEEE成员兼奇点大学人工智能伦理工程师Eleanor Watson同意这项研究很有用。
她告诉《生活科学》,与评估人工智能在短期孤立问题上的表现的传统测试相比,根据任务长度来衡量人工智能是“有价值和直观的”,并且“直接反映了现实世界的复杂性,捕捉了人工智能在一段时间内保持一致的目标导向行为的熟练程度”。可以说,除了一个新的基准指标之外,这篇论文最大的影响在于强调人工智能系统的发展速度,以及它们处理冗长任务的能力的上升趋势。考虑到这一点,沃森预测,能够处理各种任务的多面手人工智能代理的出现将迫在眉睫。
“到2026年,我们将看到人工智能变得越来越通用,在一整天或一周内处理不同的任务,而不是简短、狭义的任务,”Watson说。
沃森指出,对企业来说,这可能会产生能够承担大部分专业工作的人工智能——这不仅可以降低成本和提高效率,还可以让人们专注于更有创造力、战略性和人际交往的任务。沃森补充道:“对消费者来说,人工智能将从一个简单的助手发展成为一个可靠的个人经理,能够在几天或几周内处理复杂的生活任务,如旅行计划、健康监测或管理财务投资组合,而监督最少。”
实际上,人工智能处理广泛的冗长任务的能力可能会在未来几年对社会如何交互和使用人工智能产生重大影响。
沃森总结道:“虽然出于效率原因,专门的人工智能工具将持续存在于利基应用中,但强大的通才人工智能代理——能够在不同任务之间灵活切换——将突出出现。”“这些系统将把专业技能整合到更广泛的、以目标为导向的工作流程中,从根本上重塑日常生活和专业实践。”