今日应用
今日话题
开源多结构蛋白质预测大模型——Genie 2
重点标签 蛋白质设计、Genie 2模型、技术创新、AlphaFold数据库、生物应用
文章摘要
Genie 2是由哥伦比亚大学和罗格斯大学研究人员联合开发的蛋白质预测模型,旨在提高医疗和生物领域研究人员对蛋白质设计效率。该模型在现有基础上进行了扩展,增加了设计蛋白质结构的广度和多样性,并引入了多模态能力,使其在预测准确率上超越了Chroma、FrameFlow和RFDiffusion等同类模型。
Genie 2采用了一种全新的条件生成方法,将每个motif的残基编码为一位有效向量,并与单个残基特征结合,整合条件信息到扩散过程中。这种编码方法以SE(3)不变方式编码主题结构,提高了设计的灵活性和鲁棒性。
为了捕捉复杂的蛋白质结构分布,研究人员使用了谷歌的AlphaFold数据库进行大规模数据增强,该数据库包含约2.14亿个AlphaFold系列模型预测,覆盖了UniProt数据库中的所有蛋白质。通过FoldSeek进行结构相似性聚类和设置pLDDT阈值大于80、最大序列长度为256,筛选出高质量的蛋白质预测结构。
在训练过程中,Genie 2使用了特定的损失函数,计算预测噪声和真实噪声之间的均方误差,使模型在生成蛋白质结构时更加关注满足主题约束条件,同时保持对整体设计的响应性。
经过严格测试和评估,Genie 2在设计能力、多样性及创新等关键指标上均超越了其他知名模型。特别是在多模体支架构建任务上,Genie 2解决了更多问题,并提出了更多样化且独特的解决方案。研究团队设计的基准集包含6个多模体支架构建问题,涵盖了免疫原、结合剂和酶设计等潜在蛋白质设计任务,Genie 2成功解决了其中4项任务,如设计包含四个钙离子结合位点的支架和整合RSV-F site II及RSV-G 2D10表位的复杂结构。
Genie 2的开源地址为:https://github.com/aqlaboratory/genie2,论文地址为:https://arxiv.org/abs/2405.15489。本文素材来源于Genie 2论文,如有侵权请联系删除。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区