标签：Transformer架构

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He提出了一种名为PEER（参数高效专家检索）的全新策略，该策略可以将混合专家（MoE）架构扩展到百万个专家，同时不增加计算...

2周前

Snap Video是由Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员联合推出的一款高效且连贯一致性的视频生成模型。该模型采用了与OpenAI的Sora相似...

2周前

洛桑联邦理工学院（EPFL）和苹果公司的研究者联合开发了一种新型的任意到任意模态单一模型，称为4M-21。这种模型在数十种高度多样化的模态上进行训练，并对大...

1个月前

大型语言模型基于Transformer架构展现出卓越的性能，但参数规模庞大导致服务成本高昂。为解决此问题，研究团队进行了大模型压缩技术的研究，特别是训练后量化...

1个月前

近些年，语言建模领域取得了显著进展，大型语言模型（LLM）如Llama和ChatGPT等不仅能够处理多种任务，也开始具备处理视觉输入的能力。这标志着AI技术革命的一...

2个月前

稳定性AI公司（Stability AI）最近推出了一款名为Stable Audio Open的开放模型，它能够根据简单的文本提示生成长达47秒的高质量音频数据。该模型主要适用于创...

2个月前

本文主要探讨了在AIGC领域中，多模态学习的重要性以及谷歌提出的LANISTR框架如何解决多模态学习中的难题。多模态学习是大模型发展的关键方向，它涉及到将文本...

2个月前

Octo模型，一个基于Transformer架构的开源机器人学习系统，由加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌DeepMind的18位研究者组成的团队开发。这...

2个月前

Chameleon的技术挑战在于模型训练，Meta研究团队为此引入了一系列架构创新和训练技术。结果表明，在纯文本任务中，Chameleon的性能与Gemini-Pro相当。在视觉...

2个月前

RNA在分子生物学中扮演着关键角色，负责将DNA中的遗传信息传递给蛋白质，并在基因表达、调控和催化等多种细胞过程中起着至关重要的作用。传统的RNA序列分析依...

2个月前