今日应用
今日话题
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种
重点标签 AI生命科学、LucaOne模型、生物计算、跨模态学习、开源工具
文章摘要
AlphaFold3的发布引发了对AI与生命科学结合的广泛关注。在这一领域,人类对生命系统的理解尚浅,而AI成为了深化认识的重要工具。阿里云飞天实验室最近发布了业界首个联合DNA、RNA、蛋白质的生物大模型LucaOne,该模型通过开源,为研究人员提供了一个强大的工具。LucaOne模型的特点在于其自监督加半监督学习架构,能够在大规模序列与注释信息上进行学习,识别核酸与蛋白质之间的联系,从而帮助探索生物系统的内在逻辑与规则。
LucaOne模型的参数规模约1.8亿,通过结合核酸与蛋白质的序列数据以及基础注释信息,模型在训练效率和数据维度上达到了平衡。它不仅能够处理核酸和蛋白质数据,还能够识别两者之间的内在联系,即生物学中的中心法则。此外,LucaOne在多个生物计算任务中展现出稳健的性能,如在流感H3N2病毒的免疫逃逸风险预测任务中实现了100%的准确率。
LucaOne模型的开发是跨学科团队合作的成果,中山大学医学院和中国医学科学院北京协和医学院的团队参与了模型的数据设计与验证,提供了丰富的生物学视角。模型的开源将进一步推动AI在生物科学、疾病诊断、药物开发等领域的应用,加速生命科学的探索与创新。随着更多数据和模态的加入,以及模型的持续升级,LucaOne有望更深入地揭示生物系统的智能。
人工智能与生命科学的结合,特别是在AI for Science领域,正逐步展现出其巨大的潜力和价值。通过像LucaOne这样的生物大模型,科研人员可以更深入地理解生物系统的复杂性,并在多个层面推动科学的发展。这种跨模态学习的能力,使得模型能够处理和识别不同类型生物数据之间的联系,为研究提供了新的视角和方法。随着开源工具的普及,全球科研人员可以共享这些强大的资源,共同促进科学的进步。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心