麻省理工学院怀特黑德生物医学研究所(Whitehead Institute)和计算机科学与人工智能实验室(CSAIL)的研究人员创建了一个机器学习模型,用于预测和生成蛋白质的定位,这对于理解和治疗疾病具有重要意义。
蛋白质是我们细胞中的工作马达,有成千上万种类型的蛋白质,每种都执行特定的功能。研究人员长期以来一直知道,蛋白质的结构决定了它的功能。最近,研究人员认识到蛋白质的定位对其功能也至关重要。细胞内部有许多隔室帮助组织其众多成分,包括教科书中常见的细胞器和各种动态、无膜隔室,这些隔室将某些分子集中在一起以执行共享功能。了解给定蛋白质的定位及其共定位伙伴,有助于更好地理解该蛋白质及其在健康或疾病细胞中的作用,但研究人员缺乏系统的方法来预测这些信息。
与此同时,蛋白质结构已经研究了半个多世纪,最终形成了AlphaFold这一人工智能工具,它可以根据蛋白质的氨基酸序列预测其结构。AlphaFold和其他类似的模型已经成为研究中的常用工具。
蛋白质还包含一些不折叠成固定结构的氨基酸区域,而是帮助蛋白质加入细胞中的动态隔室。麻省理工学院教授Richard Young和他的同事们想知道这些区域的代码是否可以用来预测蛋白质的定位,就像其他区域用于预测结构一样。其他研究人员已经发现了一些编码蛋白质定位的序列,并开始开发预测蛋白质定位的模型。然而,研究人员不知道是否可以根据蛋白质的序列预测其在任何动态隔室中的定位,也没有像AlphaFold那样的工具来预测定位。
现在,Young及其团队开发了一个名为ProtGPS的模型。在2月6日发表于《科学》杂志的一篇论文中,第一作者Henry Kilgore、Barzilay实验室的研究生Itamar Chinn、Peter Mikhael和Ilan Mitnikov展示了他们的模型。研究人员表明,ProtGPS可以预测蛋白质将定位到12种已知隔室中的哪一种,以及疾病相关突变是否会改变这种定位。此外,研究团队还开发了一种生成算法,可以设计新型蛋白质以定位到特定隔室。
“我希望这是迈向强大平台的第一步,这个平台可以帮助研究蛋白质的人进行研究,”Young说,“并且它有助于我们理解人类如何发育成复杂的有机体,突变如何破坏这些自然过程,以及如何生成治疗假设并设计药物来治疗细胞功能障碍。”
研究人员还通过实验测试验证了许多模型的预测。
“从计算设计到实验室尝试这些成果的过程让我非常兴奋,”Barzilay说。“在这个领域的AI有很多令人兴奋的论文,但其中99.9%从未在真实系统中测试过。多亏了与Young实验室的合作,我们能够测试并真正了解我们的算法表现如何。”
在开发模型的过程中,研究人员训练和测试了ProtGPS两个批次的已知定位蛋白质。他们发现它可以高度准确地预测蛋白质的最终位置。研究人员还测试了ProtGPS基于蛋白质内的疾病相关突变预测蛋白质定位变化的能力。许多突变——基因及其相应蛋白质序列的变化——被发现与疾病有关,但这些突变如何导致疾病症状仍然未知。
了解突变如何导致疾病对于开发疗法非常重要,因为研究人员可以开发修复该机制的疗法,从而预防或治疗疾病。Young及其同事怀疑许多与疾病相关的突变可能是通过改变蛋白质定位来贡献疾病的。例如,一个突变可能使蛋白质无法加入含有重要伙伴的隔室。
为了验证这一假设,研究人员向ProtGPS输入了超过200,000个带有疾病相关突变的蛋白质,并要求它预测这些突变蛋白质将定位到哪里,并测量其预测从正常版本到突变版本的变化程度。预测结果的大幅变化表明定位可能发生改变。
研究人员发现许多情况下,疾病相关突变似乎改变了蛋白质的定位。他们在细胞中测试了20个例子,使用荧光比较正常蛋白质和突变版本在细胞中的位置。实验结果证实了ProtGPS的预测。总的来说,这些发现支持了研究人员的怀疑,即错误定位可能是疾病的一种未被充分重视的机制,并证明了ProtGPS作为理解疾病和识别新治疗途径的工具的价值。
“细胞是一个非常复杂的系统,有许多组件和复杂的相互作用网络,”Mitnikov说。“用这种方法,我们可以扰动系统,看到结果,并推动细胞机制的发现,甚至基于此开发治疗方法。”
研究人员希望其他人能像使用AlphaFold这样的预测结构模型一样使用ProtGPS,推进关于蛋白质功能、功能障碍和疾病的各个项目。
研究人员对预测模型的可能用途感到兴奋,但他们也希望模型不仅能预测现有蛋白质的定位,还能设计全新的蛋白质。目标是让模型生成全新的氨基酸序列,当在细胞中形成时,这些序列将定位到所需位置。生成能够实现特定功能的新蛋白质——在这种情况下,定位到特定细胞隔室——是非常困难的。为了提高模型的成功率,研究人员限制算法只设计类似于自然界中存在的蛋白质。这是一种在药物设计中常用的策略;自然界已经花费数十亿年时间来确定哪些蛋白质序列有效,哪些无效。
由于与Young实验室的合作,机器学习团队能够测试他们的蛋白质生成器是否有效。模型的结果很好。在一个轮次中,它生成了10个旨在定位到核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,他们发现其中四个强烈定位到了核仁,其他一些也可能有轻微的偏向。
“我们实验室之间的合作对所有人都非常有成效,”Mikhael说。“我们学会了彼此的语言,在我们的情况下学到了很多关于细胞的知识,并通过有机会实验测试我们的模型,我们能够弄清楚如何使模型真正起作用,并使其变得更好。”
以这种方式生成功能性蛋白质可以改善研究人员开发疗法的能力。例如,如果一种药物必须与定位在特定隔室的目标相互作用,那么研究人员可以使用该模型设计一种同样定位到该位置的药物。这应该会使药物更有效,并减少副作用,因为药物将更多时间与目标相互作用,而更少时间与其他分子相互作用,从而产生脱靶效应。
机器学习团队成员对未来使用他们从这次合作中学到的知识设计具有其他功能的新型蛋白质感到兴奋,这将扩展治疗设计和其他应用的可能性。
“许多论文表明他们可以设计能够在细胞中表达的蛋白质,但不是所有蛋白质都有特定功能,”Chinn说。“我们实际上进行了功能性蛋白质设计,并且与其它生成模型相比,我们的成功率相对较高。这对我们来说真的很令人兴奋,并且我们希望能够在此基础上继续发展。”
所有参与的研究人员都将ProtGPS视为一个令人兴奋的开始。他们预计他们的工具将用于进一步了解定位在蛋白质功能中的作用以及错误定位在疾病中的作用。此外,他们有兴趣扩展模型的定位预测以包括更多类型的隔室,测试更多的治疗假设,并设计越来越功能性蛋白质用于治疗或其他应用。
“现在我们知道这种定位密码存在,而且机器学习模型可以理解这种密码并使用其逻辑创建功能性蛋白质,这为许多潜在的研究和应用打开了大门,”Kilgore说。
(全文结束)