Evo-2:能够设计基因代码并预测疾病的人工智能!
Arc研究所和NVIDIA推出了Evo-2,这是目前最大的生物学AI模型,训练数据包括9.3万亿个基因序列。该模型可以预测突变、设计基因组并揭示基因序列中的生物模式。通过开源访问权限,全球科学家现在可以探索医学、遗传学和生物技术的新前沿。
Siddharth Shankar 发布于:2025年2月20日12:15
Evo-2是目前最大的生物学AI模型,训练数据包括9.3万亿个基因序列。
人工智能正在重塑科学,并开始解决生命最伟大的谜团之一——我们的基因代码。Arc研究所与NVIDIA合作推出了Evo-2,这是迄今为止为生物学构建的最先进的AI模型。该模型基于来自超过128,000个物种的9.3万亿个基因序列进行训练,涵盖了整个生命树。
Evo-2不仅仅是一个普通的AI——它可以预测疾病突变、设计新基因组并揭示研究人员手动可能需要多年才能发现的基因序列模式。这可能会在医学、遗传学甚至合成生物学方面取得突破。
Evo-2的前身Evo-1仅基于单细胞基因组进行训练。Evo-2扩展了其范围,包括来自人类、植物、细菌甚至噬菌体和古菌等微生物的数据。通过一次性处理长达100万个核苷酸的长基因序列,Evo-2可以分析基因组不同部分之间的联系,这是任何人类研究人员都无法做到的。
Arc研究所的共同创始人兼核心研究员Patrick Hsu解释说:“Evo-2对整个生命树有广泛的理解,可用于从预测致病突变到设计人工生命的潜在代码等多种任务。”
Evo-2使用NVIDIA DGX Cloud AI进行训练,运行在超过2,000个NVIDIA H100 GPU上。为了处理如此庞大的数据量,研究人员不得不重新思考AI模型的结构。OpenAI的共同创始人Greg Brockman在休假期间参与了该项目,帮助开发了StripedHyena 2架构,使Evo-2能够处理比其前代大30倍的基因数据。
该模型可以:
有了这样一个强大的工具,关于生物安全和伦理风险的担忧自然会浮现。研究团队采取了预防措施,排除了影响人类和复杂生物的病原体数据。斯坦福大学教授Tina Hernandez-Boussard作为研究的共同作者,帮助实施了确保该技术负责任使用的保障措施。
随着AI驱动的科学发展,Evo-2为机器学习如何加速基因研究设定了新的基准。NVIDIA数字生物学总监Anthony Costa表示,Evo-2已经在产生影响:“通过克服以前生物模型规模的限制,Evo-2涵盖了比任何其他AI模型更多的已知生物学。”
这个AI不仅在读取基因代码——它已经开始编写基因代码。通过开放Evo-2的数据、训练模型和研究成果,全球科学家现在有了一个新工具,可以推动基因工程、医学和生物技术的边界。
AI在生物学的新篇章才刚刚开始。
(全文结束)