多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊

AI最新资讯2个月前发布 tree
21 0 0

今日应用


今日话题


多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊
多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊
 

重点标签 RNA分析预训练模型Transformer架构RNAErnieAI for Science

文章摘要


RNA在分子生物学中扮演着关键角色,负责将DNA中的遗传信息传递给蛋白质,并在基因表达、调控和催化等多种细胞过程中起着至关重要的作用。传统的RNA序列分析依赖于成本高昂、耗时的实验技术,因此对高效、准确的分析方法需求日益增长。

RNAErnie模型建立在知识集成增强表示(ERNIE)框架之上,包含多层和多头Transformer块,隐藏状态维度为768。预训练使用了从RNAcentral精心挑选的约2300万条RNA序列组成的语料库。基序感知预训练策略有效地捕获了子序列和基序级知识,丰富了RNA序列的表示。此外,RNAErnie将粗粒度RNA类型标记为特殊词汇表,并在预训练期间将这些标记附加在每个RNA序列的末尾,以辨别各种RNA类型的独特特征。

在类型引导的微调阶段,RNAErnie首先使用输出嵌入预测可能的粗粒度RNA类型,然后利用预测的类型作为辅助信息,通过特定于任务的头来微调模型。这种方法使模型能够适应各种RNA类型,并增强其在广泛的RNA分析任务中的实用性。

研究人员评估了RNAErnie在七个RNA序列数据集上的性能,这些数据集涵盖超过17,000个主要RNA基序、20个RNA类型和50,000个RNA序列。使用30种主流RNA测序技术进行评估,证明了RNAErnie的泛化性和稳健性。评估指标包括准确度、精确度、召回率、F1分数、MCC和AUC,以确保RNA序列分析方法的公平比较。

尽管RNAErnie在RNA序列分析方面有所创新,但仍面临一些挑战。例如,该模型受到它可以分析的RNA序列大小的限制,长度超过512个核苷酸的序列会被丢弃,可能会忽略重要的结构和功能信息。此外,该研究的重点很窄,仅集中在RNA结构域上,没有扩展到RNA蛋白质预测或结合位点识别等任务。该模型在考虑RNA的三维结构基序时也遇到了困难,而这对于理解RNA功能至关重要。

尽管存在局限性,RNAErnie在推进RNA分析方面拥有巨大潜力。该模型在不同的下游任务中展示了其作为通用解决方案的多功能性和有效性。RNAErnie采用的创新策略有望增强其他预训练模型在RNA分析中的性能。这些发现使RNAErnie成为一项宝贵的资产,为研究人员提供了一个强大的工具来解开RNA相关研究的复杂性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...