解读|为什么AI工程师预测蛋白质结构能获诺贝尔化学奖?
人工智能(AI)在2024年诺贝尔奖中成了热词:先是10月8日两位人工智能先驱被授予2024年诺贝尔物理学奖,今天(10月9日)又有两位人工智能领域的专家被授予2024年诺贝尔化学奖。
有人惊呼,AI工程师们正跨界“攻城略地”,进入科研领域。也有人评论:AI for Science,这才刚刚开始。与其说,2024年诺贝尔化学奖颁给了AI工程师或人工智能,不如说是颁给了蛋白质的三维结构。这是DNA遗传密码之外的另一种生命密码。
没有蛋白质,生命就无法存在。作为化学工具,蛋白质惊人的多功能性反映在生命的巨大多样性上。
结构决定功能。面对复杂的蛋白质结构的预测,过去耗时数年的工作,利用2024年诺贝尔化学奖得主丹米斯·哈萨比斯(Demis Hassabis)和约翰·乔普(John M. Jumper)开发的AlphaFold等人工智能工具,现在只需要几分钟。
除了根据氨基酸序列预测蛋白质的结构——从线性的序列就能预测其折叠后的三维空间结构,人们在AI模型的帮助下,洞悉蛋白质结构的上述密码后,产生了更大想象力——创造具有新功能的蛋白质。这可能导致新的纳米材料、靶向药物、更快的疫苗开发、最小的传感器和更环保的化学工业。它也让我们更好地了解生命是如何运作的,包括为什么一些疾病会发展,抗生素的耐药性是如何发生的,或者为什么一些微生物可以分解塑料。
诺奖官网介绍,今年的三位诺贝尔化学奖得主破解了蛋白质惊人结构的密码。
蛋白质的结构:一个多次“命中”诺贝尔奖的领域
自19世纪以来,化学家们就知道蛋白质对生命过程很重要。但直到20世纪50年代,化学工具才足够精确,研究人员才开始更详细地探索蛋白质。
剑桥大学的研究人员约翰·肯德鲁和马克斯·佩鲁茨在20世纪90年代末取得了突破性的发现,他们成功地使用了一种叫做x射线晶体学的方法,展示了第一个蛋白质的三维模型。为了表彰这一发现,他们于1962年被授予诺贝尔化学奖。
随后,研究人员主要使用x射线晶体学——通常需要付出巨大的努力——成功地"拍摄"了大约20万种不同蛋白质的图像。这为2024年诺贝尔化学奖奠定了基础。
美国科学家克里斯蒂安·安芬森(Christian Anfinsen)利用各种化学技巧,他成功地使现有的蛋白质展开,然后再折叠起来。有趣的观察是,蛋白质每次都呈现完全相同的形状。
1961年,他得出结论,蛋白质的三维结构完全由蛋白质中的氨基酸序列决定。这使他在1972年获得了诺贝尔化学奖。
人们开始猜想,如果化学家知道蛋白质的氨基酸序列,他们应该能够预测蛋白质的三维结构。这是一个令人兴奋的想法。如果他们成功了,他们将不再需要使用精细的x射线晶体学,并且可以节省大量的时间。
为了鼓励该领域更快的发展,研究人员于1994年启动了一个名为“蛋白质结构预测关键评估”(CASP)的项目,该项目后来发展成为一项竞赛。
但人们发现,预测一个蛋白质的结构非常困难。研究人员在竞赛中预测的结构与实际结构之间的一致性几乎没有改善。直到2018年才出现突破,当时一位国际象棋大师、神经科学专家和人工智能先驱丹米斯·哈萨比斯进入了这一领域。
棋牌游戏高手进入蛋白质结构预测的“奥林匹克”竞赛
丹米斯·哈萨比斯1976年出生于英国伦敦,2009年在英国伦敦大学学院取得博士学位,现任谷歌DeepMind首席执行官。
丹米斯·哈萨比斯年少时展现出非凡的国际象棋天赋,之后成为成功的游戏开发者和AI专家。
他4岁开始下棋,13岁时达到大师水平。在他十几岁的时候,他开始了作为程序员和成功的游戏开发者的职业生涯。他开始探索人工智能,并涉足神经科学,为人工智能开发了更好的神经网络。
2010年,他共同创立了DeepMind,专注于开发精湛的AI模型,并在2014年将公司出售给谷歌。2016年,DeepMind通过开发的AI击败了围棋世界冠军,震惊全球。
然而,哈萨比斯不希望局限于棋盘游戏,他希望AI技术能解决对人类更重要的问题。2018年,他带领团队开始研究蛋白质结构预测。
在AlphaFold项目遇到瓶颈时,约翰·乔普的加入成为关键的助推器。
约翰·乔普1985年出生于美国阿肯色州小石城,2017年美国芝加哥大学博士毕业,现任谷歌DeepMind高级研究科学家。
乔普拥有物理学和蛋白质动力学的背景,凭借对AI的独特见解,为项目注入了新的活力。他与哈萨比斯携手,彻底改进了AlphaFold的AI模型。
此前,约翰·乔普对宇宙的迷恋使他开始研究物理和数学。
2008年,当他开始在一家使用超级计算机模拟蛋白质及其动力学的公司工作时,他意识到物理学知识可以帮助解决医疗问题。
2011年,乔普开始攻读理论物理学博士学位,并对蛋白质产生了新的兴趣。
2017年,他刚刚完成博士学位,就听到传言称谷歌DeepMind已经秘密开始预测蛋白质结构。他给他们寄去了一份工作申请。他在蛋白质模拟方面的经验意味着他对如何改进AlphaFold有创造性的想法。
新版本的AlphaFold2根据乔普对蛋白质的了解而革新。
新的人工智能架构在第14届CASP竞赛中及时提供了良好的结果。2020年,当CASP的组织者评估结果时,他们明白生物化学长达50年的挑战结束了。在大多数情况下,AlphaFold2的表现几乎与x射线晶体学一样好,这令人震惊。CASP的创始人之一约翰·莫特(John Moult)于2020年12月4日结束比赛时,他问道:“现在怎么办?“
当丹米斯·哈萨比斯和约翰·乔普证实AlphaFold2确实有效时,他们计算了所有人类蛋白质的结构。然后,他们预测了迄今为止研究人员在绘制地球生物图谱时发现的几乎所有的蛋白质——2亿种蛋白质的结构。
谷歌DeepMind也公开了AlphaFold2的代码,任何人都可以访问它。人工智能模型已经成为研究人员的金矿。到2024年10月,AlphaFold2已经被来自约190个国家的200多万人使用。
药物、疫苗和传感器:设计一种从未存在过的全新结构的蛋白
另一位诺贝尔化学奖得主、美国华盛顿大学教授戴维·贝克 (David Baker)也是“玩”蛋白质的。他在软件的帮助下,设计了自然界不存在的、全新的、特殊结构的蛋白质。
戴维·贝克1962年出生于美国华盛顿州西雅图,他师从兰迪·谢克曼(2013年诺贝尔生理学或医学奖得主),1989年从美国加州大学伯克利分校毕业,获得生物化学博士学位,现任美国华盛顿大学生物化学教授、华盛顿大学医学院蛋白质设计研究所所长。
蛋白质通常由 20 种不同的氨基酸组成,可以说是生命的基石。
天然蛋白质的范围是有限的。为了增加获得具有全新功能的蛋白质的可能性,贝克的研究小组想从零开始创造它们。
上世纪90年代末,戴维·贝克开始开发能够预测蛋白质结构的计算机软件:罗塞塔(Rosetta)。
贝克所说,“如果你想造一架飞机,你不能从改造一只鸟开始;相反,你了解空气动力学的基本原理,并根据这些原理制造飞行器。”
构建全新蛋白质的领域被称为de novo design。研究小组绘制了一种具有全新结构的蛋白质,然后让罗塞塔计算:哪一种氨基酸序列可以产生所需的蛋白质。
为了做到这一点,罗塞塔搜索了所有已知蛋白质结构的数据库,并寻找与所需结构相似的蛋白质短片段,然后对这些片段进行了优化,并给出一个结果——一段氨基酸序列。
为了研究该软件的“靠谱”程度,贝克的研究小组在细菌中引入了产生所需蛋白质的氨基酸序列的基因。然后他们用x射线晶体学确定了蛋白质的结构。
事实证明,罗塞塔确实可以构建蛋白质。研究人员开发的蛋白质Top7几乎跟他们设计的结构完全相同。
对于从事蛋白质设计的研究人员来说,Top7蛋白简直是晴天霹雳。因为,那些先前创造出新蛋白质的人只能模仿现有的结构,而Top7的独特结构在自然界中是不存在的。
2003 年,戴维·贝克成功利用氨基酸“基石”设计出一种与其他蛋白质不同的新蛋白质。此后,他的研究小组不断创造出一个又一个富有想象力的蛋白质,包括可用作药物、疫苗、纳米材料和微型传感器的蛋白质。
诺贝尔化学奖委员会主席海纳·林克 (Heiner Linke) 表示:“今年获得认可的发现之一与神奇蛋白质的构造有关。另一项发现则与实现 50 年前的梦想有关:根据氨基酸序列预测蛋白质结构。这两项发现都开辟了广阔的可能性。”