谷歌创新框架:从非结构化数据,实现多模态学习

AI最新资讯1个月前发布 tree
20 0 0

今日应用


今日话题


谷歌创新框架:从非结构化数据,实现多模态学习
谷歌创新框架:从非结构化数据,实现多模态学习
 

重点标签 多模态学习大模型LANISTR框架Transformer架构多模态融合编码器

文章摘要


本文主要探讨了在AIGC领域中,多模态学习的重要性以及谷歌提出的LANISTR框架如何解决多模态学习中的难题。多模态学习是大模型发展的关键方向,它涉及到将文本、视频、音频、图片等不同类型的数据进行有效整合,以实现更全面的信息理解和处理。然而,由于非结构化数据的复杂性,多模态学习面临着过拟合和泛化效果不佳的问题,尤其是在数据量有限的情况下。

谷歌提出的LANISTR框架是一个基于注意力机制的解决方案,它通过在单模态和多模态层面上应用基于掩码的训练,引入了一种新的基于相似度的多模态掩码损失,从而能够从存在缺失模态的大型多模态数据中学习跨模态之间的关系。

LANISTR框架的核心是多模态融合编码器,它采用了基于Transformer架构的交叉注意力机制,将来自不同模态的嵌入向量串联起来,并通过Transformer层进行处理。这种机制允许模型在不同模态表示之间自由“询问”和“回答”,实现特征的加权整合。

LANISTR中的多模态融合编码器由文本、图像、表格和时间序列4种编码器组成,每种编码器都有其独特的表达方式和信息结构。文本编码器基于Transformer架构,通过掩码语言方法进行预训练;图像编码器采用Vision Transformer架构,通过自注意力机制学习图像特征;表格编码器使用定制的神经网络结构,集成特征选择或降维技术;时间序列编码器则使用循环神经网络方法,提取时间序列的模式和趋势。

研究人员在两个数据集上测试了LANISTR的性能。在MIMIC-IV数据集上,当仅使用0.1%的有标签数据进行微调时,模型的AUROC相比最先进的方法提高了6.6%。在亚马逊产品评论数据集中,仅使用0.01%的有标签数据,模型的准确率提升了14%。这些改进是在高达35.7%和99.8%的样本存在模态缺失的情况下完成的,证明了LANISTR的多模态学习能力。

总的来说,LANISTR框架为多模态学习提供了一种有效的解决方案,通过基于注意力机制的框架和多模态融合编码器,实现了对不同模态数据的有效整合和学习,为AIGC领域的发展提供了新的思路和技术支持。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...