不要放弃你的日常工作,因为一项新的研究表明人工智能(AI)比你更有趣。
在一项旨在测试大型语言模型(LLM)共同创造能力的新研究中,OpenAI的GPT-4o模型创建的互联网模因平均被评为比人类或人类在聊天机器人协助下创建的模因更有趣、更有创意和更可分享。然而,当谈到顶级模因的质量时,人类产生的幽默仍然占主导地位。该发现于1月20日上传到arxiv预印本服务器,并在3月24日至27日在意大利卡利亚里举行的第30届智能用户界面国际会议上发表。
宾夕法尼亚沃顿大学生成人工智能实验室教授兼联合主任伊森·莫利克在评论社交网络BlueSky的结果时说:“我很遗憾地宣布模因图灵测试已经通过。”
相关内容:你能死于笑声吗?
最初的图灵测试是由英国数学家艾伦·图灵在1950年提出的,作为机器智能的基准:如果人类法官在对话中无法区分人类和机器,那么机器可以说表现出了人类水平的智能。
虽然这项研究没有评估人工智能生成的模因是否与人类制造的模因没有区别,但它确实提出了关于我们如何评估创造力的有趣问题——尤其是当参与者经常更喜欢人工智能生成的内容时。马赫姆学习来自KTH皇家理工学院、LMU慕尼黑大学和TU达姆施塔特大学的研究人员并没有开始展示人工智能的喜剧能力。相反,他们着手探索共同创造力,特别是法学硕士如何支持人类完成创造性任务,如写笑话。
他们认为,混合了文化参照、讽刺和低风险表演压力的模因创造是完美的测试案例。模因通常采取字幕图像的形式,即兴重复熟悉的场景或流行文化。它们已经成为一种共享的互联网速记,用来开玩笑或以易于理解且通常不敬的形式回应时事。
研究人员在论文中写道:“幽默的复杂性使其成为探索共同创造力动态的丰富领域,因为合作者必须驾驭这些细微差别,以产生与他人产生共鸣的内容。”
该实验包括两个部分。首先,研究人员招募了124名参与者,并将他们分配到两组中的一组:一组单独工作,另一组与AI聊天机器人助手一起工作。
然后,参与者被要求根据工作、食物和运动的主题为经典模因模板生成字幕——包括来自Futurama、旺柴和Boromir的Fry(一个人不会简单地走进Mordor)模板。人工智能辅助组的人可以使用聊天机器人集思广益,但负责选择最佳想法并创建最终模因。
纯人类组创建了335个模因,而307个由人类-人工智能混合团队生成。GPT-4o生成了另外150个模因进行比较。
第二组由98人组成,他们根据模因的有趣程度、创造性和可分享性对模因进行评分。模因是随机的,所以评分者不知道是谁或什么制作了它们。在所有三个类别中,人工智能生成的模因都名列前茅。
研究人员在论文中写道:“有趣的是,平均而言,完全由人工智能创造的模因在所有领域都比纯人类和人类-人工智能协作模因表现更好。”“然而,当观察表现最好的模因时,人类创造的模因在幽默方面更好,而人类-人工智能合作在创造力和可分享性方面脱颖而出。”
换句话说,虽然人工智能生成的模因平均得分最高,但被认为是“最有趣的”模因往往是由人类创造的。内容再生研究人员将人工智能的高平均分归功于法学硕士接受了大量互联网内容的训练,这使得他们擅长模仿广受欢迎的幽默,但不太擅长获得真正的笑点。“法学硕士吸引了广泛的幽默品味,但人类可以更机智,”他们写道。
这项研究还检查了人工智能辅助对生产力和感知努力的影响。使用聊天机器人的参与者比单独工作的参与者产生了更多的想法,但这并不总是转化为更有趣的内容。根据研究人员的说法,这是因为虽然LLM可以帮助产生想法,但它们不一定会提高创意质量的标准。 对于幽默来说尤其如此,研究人员说幽默需要“时机、文化背景、共享知识和颠覆期望的能力”
研究人员得出结论:“虽然法学硕士可以产生幽默且符合语境的模因,但他们在捕捉人类创造力中固有的微妙文化参考和情感微妙性方面经常面临挑战。虽然人工智能可以提高生产力并创造吸引广泛受众的内容,但人类创造力对于更深层次联系的内容仍然至关重要。”