根据一项新的研究,人工智能模型模拟了5亿年的分子进化,为一种以前未知的蛋白质创造了代码。研究人员称,这种发光的蛋白质类似于水母和珊瑚中的蛋白质,可能有助于新药的开发。
蛋白质是生命的基石之一,在体内发挥各种功能,如锻炼肌肉和对抗疾病。这种名为esmGFP的模拟蛋白质仅作为计算机代码存在,但包含一种以前未知的绿色荧光蛋白的蓝图。在自然界中,绿色荧光蛋白赋予荧光水母和珊瑚发光的能力。拼写出制造esmGFP的指令的字母序列与已知最接近的荧光蛋白只有58%的相似度,这是一种在泡泡尖海葵(Entacmaea四色海葵)中发现的蛋白质的人类修饰版本,泡泡尖海葵(Entacmaea四色海葵)是一种五颜六色的海洋生物,看起来像是触须末端有气泡。序列的其余部分是独一无二的,总共需要96种不同的基因突变才能进化。根据这项研究,这些变化需要5亿年以上的时间才能自然进化。
去年,在一份预印本研究报告中,一家名为进化规模的公司的研究人员公布了esmGFP和用于创建它的人工智能模型ESM3。独立科学家现在已经对这些发现进行了同行评审。这些发现发表在1月16日的《科学》杂志上。
ESM3并不是在通常的进化约束下设计蛋白质。相反,它是一个问题解决者,填补了研究人员提供的不完整蛋白质代码的空白,并在这样做的时候,根据进化可能采取的所有潜在途径设计一些可能存在的东西。
“我们发现ESM3学习基础生物学,并且可以在进化探索的空间之外产生功能性蛋白质,”研究的联合作者亚历克斯·里夫斯,进化规模的联合创始人和首席科学家在一封电子邮件中告诉《生活科学》。
相关内容:中国研究人员刚刚在两个月内建立了一个ChatGPT的开源竞争对手。硅谷吓坏了。这项新研究建立在莱夫斯和他的同事在2024年创办进化规模之前在脸谱网和Instagram的母公司梅塔开始的研究基础上。ESM3是他们最新版本的生成语言模型,类似于运行ChatGPT的OpenAI的GPT-4,但它是基于生物学的。
蛋白质由称为氨基酸的分子链组成,其序列由基因提供。不同的蛋白质有不同的氨基酸序列。根据自然教育的说法,它们在结构上也有所不同,每一种都折叠成独特的形状,使它们能够发挥功能。为了让ESM3理解蛋白质,研究人员将蛋白质主要特性——氨基酸序列、结构和功能——的模型数据作为一系列字母输入。
该小组利用自然界中发现的27.80亿蛋白质的数据对ESM3进行了训练。然后,研究人员随机隐藏了蛋白质蓝图的一部分,并让ESM3根据所学知识插入间隙以完成代码。
“就像一个人可以填补自言自语中的空白一样”_或不_,这是_,“我们可以训练一个语言模型来填补蛋白质中的空白,”里夫斯说。“我们的研究表明,通过解决这个简单的任务,关于蛋白质生物学深层结构的信息出现在网络中。”科学家们已经为各种目的修改天然蛋白质并设计新的蛋白质。例如,绿色荧光蛋白在研究实验室中被广泛使用。它们的遗传密码通常被添加到其他DNA序列的末端,以将它们编码的蛋白质变成绿色。这使得科学家可以轻松跟踪蛋白质和细胞过程。里夫斯指出,ESM3的能力可以加速蛋白质工程的广泛应用,包括帮助设计新药。
英国巴斯大学的进化生物学家蒂芙尼·泰勒没有参与这项研究,她在2024年为《生活科学》报告了这项研究的预印本。泰勒在分析中写道,像ESM3这样的人工智能模型将实现进化无法实现的蛋白质工程创新。然而,她也指出,研究人员声称模拟5亿年的进化只关注单个蛋白质,没有考虑最终创造生命的自然选择的许多阶段。
泰勒说:“人工智能驱动的蛋白质工程很有趣,但我不禁觉得,我们可能过于自信地假设我们能够战胜数百万年自然选择磨练出来的复杂过程。”