这家谷歌子公司解决了生物学研究中的一项基本问题,但没有及时分享其解决方案。所以华盛顿大学的一个团队试图重建它。
对于研究蛋白质结构的生物学家来说,他们的研究领域最近的历史可以分为两个时期:在CASP14(第 14 届蛋白质结构批判性评估会议,该会议两年举办一次)之前,以及那次会议之后。
在此之前的几十年中,科学家们经过一年又一年的努力,一点点探索根据蛋白质所包含的氨基酸序列预测蛋白质结构这个问题的解决方案。在 2020 年 12 月的 CASP14 之后,谷歌子公司 DeepMind 的研究人员成功攻克了这个问题。
作为一家专注于深度学习(人工智能技术的一个分支)的研究公司,DeepMind 此前曾因构建击败围棋世界冠军的人工智能系统而登上媒体头条。如今它使用一个名为 AlphaFold2 的神经网络在蛋白质结构预测领域取得了成功,这标志着它首次建立了一个可以解决真正科学问题的模型。
如果我们能帮助科学家弄清楚蛋白质是什么样子,就可以推动对细胞内部运作机制的研究,并找出抑制特定蛋白质作用的方法,进而助力新药的研究过程。7 月 15 日,《自然》期刊发表了一篇未编辑的手稿,详细介绍了 DeepMind 模型的工作原理,且 DeepMind 公开分享了他们的代码。
但是在这届 CASP 之后的七个月里,另一支团队接过了接力棒。6 月,也就是 DeepMind 手稿发表前一个月,由华盛顿大学蛋白质设计研究所所长 David Baker 领导的团队发布了他们自己的蛋白质结构预测模型。
一个月来,这个名为 RoseTTAFold 的模型是其他科学家可以实际用上的最成功的蛋白质预测算法。尽管它没有达到与 AlphaFold2 同样水平的性能峰值,但该团队构建了一种工具,让研究人员无需动手编写代码即可提交氨基酸序列并获得预测结果,让那些最不擅长计算机的科学家也可以使用这个模型。
一个月后,就在《自然》发布 DeepMind 早期手稿的同一天,《科学》期刊发表了 Baker 实验室介绍 RoseTTAFold 的论文。
RoseTTAFold 和 AlphaFold2 都是复杂的多层神经网络。给定蛋白质的氨基酸序列,它们就能输出预测的 3D 结构。它们的设计有一些有趣的相似之处,比如一种“多轨”结构,使它们能分别分析蛋白质结构的不同方面。
这些相似之处并非巧合——华盛顿大学团队使用 DeepMind 团队在 CASP 上的 15 分钟演讲中提到的理念设计了 RoseTTAFold——DeepMind 在那次演讲中概述了 AlphaFold2 的创新元素。但前者也因那次简短演讲后的不确定性而受到了鼓舞——当时 DeepMind 团队没有给出任何迹象,表明它会在什么时候让科学家们接触到这一前所未有的技术。
一些研究人员担心,一家私营公司可能会违背标准的学术实践,并不会让更广泛的社区了解自己的代码。“所有人都惊呆了,媒体报道铺天盖地,然后基本上就是无线电静默了,”Baker 说。“你所处的境地如此奇妙:你的领域有了重大进展,但你不能在此基础上再接再厉。”
Baker 和他实验室的博士后 Minkyung Baek 看到了机会。他们可能没有 DeepMind 团队用来解决蛋白质结构问题的代码,但他们知道了这是可以做到的。他们也知道 DeepMind 是使用哪种方法来实现的。
“即使在那个时候,David 也在说,‘这是一个存在证明。DeepMind 已经证明这些方法是可行的,’”马里兰大学帕克分校生物科学与生物技术研究所教授兼 CASP 活动的组织者 John Moult 说。“这对他来说已经足够了。”
由于不知道 DeepMind 团队何时或是否会将其工具提供给希望使用它的结构生物学家,Baker 和 Baek 决定尝试构建自己的版本。
欧洲生物信息学研究所名誉主任 Janet Thornton 说,弄清楚蛋白质的三维结构对于理解细胞的内部运作机制是至关重要的。“DNA 编码了一切信息,但它实际上并没有做任何事情,”她说。“所有工作都是由蛋白质完成的。”科学家们使用了各种实验技术来试图找出蛋白质的结构,但有时数据根本不足以提供明确的答案。
使用蛋白质独特的氨基酸序列来预测其结构的计算机模型,可以帮助研究人员弄清楚这些令人困惑的数据到底意味着什么。在过去的 27 年里,CASP 为科学家们提供了一种系统的方法来评估他们算法的性能。
“我们一直在前进,但速度相当缓慢,”Thornton 说。但是对于 AlphaFold2,她的评价是,“它带来的改进非常显著——实际上比我们多年来累积的进步更大。所以在这方面,这是向前跨越了一大步。”
Baker 实验室使用自己的模型在 CASP14 上获得了第二好的性能,这为他们重现 DeepMind 的方法提供了一个坚实的起点。他们将 DeepMind 团队成员对 AlphaFold2 的评价与他们自己的方法做了系统性对比,当他们找出了 DeepMind 最重要的那些进步,就着手将它们一一构建成一个新的模型。
他们采用的一项关键创新是多轨网络的想法。大多数神经网络模型沿着单个“轨迹”(通过网络的路径)来处理和分析数据,轨迹中有一系列模拟“神经元”的层,每一层都会转换前一层的输出并传递给下一层。这有点像传话游戏,其中每一位玩家听到上一位玩家说的单词后,就悄悄告诉下一个人——只不过在神经网络中,信息会逐渐重新排列成更有用的形式,而不是像在游戏中一样逐渐失真。
DeepMind 设计的 AlphaFold2 将蛋白质结构信息的不同方面分成了两个独立的轨道,这两个轨道互相反馈一些信息——就像同时有两组传话游戏,两组玩家之间相邻的人们会来回传递一些信息。到了 RoseTTAFold 这里,Baker 和 Baek 发现使用三个轨道效果最好。
“当你画一些复杂的图形时,你不会一次画完,”Baek 说。“你会从非常粗略的草图开始,逐步添加一些片段并添加一些细节。蛋白质结构预测有点像这种过程。”
为了观察 RoseTTAFold 在现实世界中的运行情况,Baker 和 Baek 联系了一些遇到了无法解决的蛋白质结构问题的结构生物学家。一天晚上 7 点,加州大学旧金山分校的生物化学和生物物理学教授 David Agard,向他们发送了由感染特定病毒的细菌产生的蛋白质的氨基酸序列。结构预测结果在凌晨 1 点发给了教授。
在六个小时内,RoseTTAFold 解决了困扰 Agard 两年的问题。“我们实际上可以看到它是如何从两种细菌酶的组合进化而来的,进化过程可能发生在数百万年前,”Agard 说。现在克服了这个瓶颈后,Agard 和他的实验室就可以继续研究这种蛋白质的运作机制了。
尽管 RoseTTAFold 没有达到与 AlphaFold2 相同的性能水平,但 Baker 和 Baek 知道是时候向世界发布他们的工具了。“这显然还是非常有用的,因为这些人正在解决很多长期以来一直悬而未决的生物学问题,”Baker 说。“我们当时决定,'好吧,让科学界了解并用上这个工具会是好事一桩。'”6 月 15 日,他们发布了一款可以让任何人轻松运行他们模型的工具,以及他们即将发表的科学论文的预印版。
与此同时,据 DeepMind 领导 AlphaFold 项目的 John Jumper 称,一篇详细介绍该系统的深度科学论文已经(在《自然》中接受审查了,当然 Baker 他们还不知道这件事。DeepMind 已于 5 月 11 日将其手稿提交给了《自然》。
那时,科学界对 DeepMind 的时间表知之甚少。在 Baker 的预印版发布三天后,情况发生了变化。6 月 18 日,DeepMind 首席执行官 Demis Hassabis 在 Twitter 写道:“我们一直在全力完成我们的完整方法论文(目前正在审查)以及随附的开源代码,并为科学界提供对 AlphaFold 的广泛免费访问。”“很快就会有更多东西出来的!”
7 月 15 日,就在 Baker 的 RoseTTAFold 论文发表的同一天,《自然》发布了 DeepMind 未经编辑但经过同行评审的 AlphaFold2手稿。同时,DeepMind 在 GitHub 上免费提供了 AlphaFold2 的代码。一周后,该团队发布了一个庞大的数据库,其中包含了通过他们方法预测的 350,000 个蛋白质结构。革命性的蛋白质预测工具及其大量预测结果终于走进了科学社区。
根据 Jumper 的说法,DeepMind 的论文和代码直到 CASP 演示后七个多月才发布的原因并不特殊:“那天我们还没有准备好开源,或发布这篇具体介绍细节的论文,”他说。在 5 月份提交论文后,团队正在完成同行评审过程,Jumper 说他们试图尽快发表论文。“老实说,我们一直在尽量加快脚步,”他说。
DeepMind 团队的手稿是通过《自然》的文章加速预审流程发表的,期刊经常使用这个流程来审查 Covid-19 论文。在给《连线》期刊的一份声明中,《自然》的一位发言人写道,这一过程旨在“为我们的作者和读者提供服务,以尽快提供特别值得注意且对时间敏感的同行评审研究成果。”
Jumper 和 DeepMind 科学团队的负责人 Pushmeet Kohli 对于 Baker 的论文是否影响了他们在《自然》的发表时间这个话题给出了看法。“从我们的角度来看,我们在 5 月份贡献并提交了这篇论文,因此从某种意义上说,它的发表时间已经不是我们能控制的了,”Kohli 说。
但 CASP 组织者 Moult 认为,华盛顿大学团队的工作可能帮助了 DeepMind 的科学家说服他们的母公司在更短的时间内免费提供他们的研究成果。“我了解他们——他们是非常杰出的科学家,我觉得他们应该会希望尽可能开放,”Moult 说。“内部应该会存在一些冲突,因为它是一家商业企业,它最后必须以某种方式来赚钱。”DeepMind 的母公司 Alphabet 是全球市值第四的企业。
Hassabis 认为 AlphaFold2 的发布对科学界和 Alphabet 都是有利的。他在接受 WIRED 采访时说:“这都是开放的科学成果,我们将它提供给全人类,没有任何附加条件——系统、代码和数据库全部公开。”当被问及他们是否出于商业原因讨论过将代码保密时,他说:“这是一个很好的问题,它涉及我们交付价值的途径。价值可以通过很多不同的方式传递,对吗?商业途径显然是一种方法,但声誉也是一个重要的途径。”
Baker 很快就赞扬了 DeepMind 团队的论文,也赞赏了他们无保留公开代码的做法。他说,从某种意义上说,RoseTTAFold 是针对 DeepMind 背离科学合作精神行事的这种可能性的一种预防措施。“如果他们没那么开明,并决定不发布代码,那么至少世界上还会有一个起点,”他说。
话虽如此,他认为如果 DeepMind 的信息早点发布,他的团队本可以推动 AlphaFold2 表现得更好,或者让它适应设计人造蛋白质的问题——这是 Baker 实验室的主要关注点。“毫无疑问,如果比如说在 12 月初,在 CASP 刚结束之后他们就说,‘这就是我们的代码,我们就是这样做的',那么我们肯定会走得更远,”Baker 说。
对于蛋白质结构预测的一些实际应用来说,时间可能是至关重要的。例如,了解对病原体生存至关重要的蛋白质的三维结构可以帮助科学家开发药物来对抗病原体。这些应用甚至可以用来对抗疫情;例如,DeepMind 去年 8 月使用了 AlphaFold2 的一个版本来预测一些 SARS-CoV-2 蛋白质的结构。
Baker 认为,学术界和工业界之间需要越来越深入的信息共享。人工智能中的问题需要大量的时间和资源来解决,而像 DeepMind 这样的公司可以获得大学实验室无法想象的人员和计算能力。“几乎可以肯定的是,工业界将继续取得很多重大进展,我认为这一趋势只会加速,”Baker 说。“这些公司将面临很多内部压力,决定是像 DeepMind 那样公开这些进展,还是尝试将其商业化。”