华为盘古大模型5.0技术解密:更多模态,复杂推理

AI最新资讯6个月前发布 tree
73 0 0

今日应用


今日话题


华为盘古大模型5.0技术解密:更多模态,复杂推理
华为盘古大模型5.0技术解密:更多模态,复杂推理
 

重点标签 华为AI盘古5.0多模态大模型

文章摘要


在技术层面,华为对盘古3.0进行了全面升级,提高了训练效率,并从数据、参数和算力三个方面介绍了大模型的训练过程。数据合成技术通过weak2strong方法,迭代式合成高质量数据,提升模型的特定能力。模型架构方面,华为提出了昇腾亲和的Transformer架构——盘古π架构,通过增广残差连接和新的级数激活函数,提升了模型精度和在昇腾芯片上的推理速度。

在大集群训练方面,华为通过优化计算和通信,有效隐藏了70%以上的通信,降低了bubble,提升了集群算力利用率。盘古5.0还扩展了多模态能力,提出了统一视觉编码器和动态分辨率技术,提升了模型的表征能力和精度。此外,华为还提出了基于多步生成和策略搜索的MindStar方法,提升了模型在复杂推理任务上的能力。

华为盘古大模型5.0的发布,标志着AI技术在多模态理解和复杂推理能力上的重大突破,将为工业、技术探索等领域带来更广泛的应用前景。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...