华为盘古大模型5.0技术解密：更多模态，复杂推理

AI最新资讯4个月前发布 tree

47 0 0

今日应用

Stable Diffusion——SD中文网

StableDiffusion中文网介绍 S...

今日话题

华为盘古大模型5.0技术解密：更多模态，复杂推理

重点标签 华为、AI、盘古5.0、多模态、大模型

文章摘要

在技术层面，华为对盘古3.0进行了全面升级，提高了训练效率，并从数据、参数和算力三个方面介绍了大模型的训练过程。数据合成技术通过weak2strong方法，迭代式合成高质量数据，提升模型的特定能力。模型架构方面，华为提出了昇腾亲和的Transformer架构——盘古π架构，通过增广残差连接和新的级数激活函数，提升了模型精度和在昇腾芯片上的推理速度。

在大集群训练方面，华为通过优化计算和通信，有效隐藏了70%以上的通信，降低了bubble，提升了集群算力利用率。盘古5.0还扩展了多模态能力，提出了统一视觉编码器和动态分辨率技术，提升了模型的表征能力和精度。此外，华为还提出了基于多步生成和策略搜索的MindStar方法，提升了模型在复杂推理任务上的能力。

华为盘古大模型5.0的发布，标志着AI技术在多模态理解和复杂推理能力上的重大突破，将为工业、技术探索等领域带来更广泛的应用前景。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

# AI最新资讯 # AI # 华为 # 多模态 # 大模型 # 盘古5.0

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

华为盘古大模型5.0技术解密：更多模态，复杂推理

今日应用

今日话题

文章摘要

文章来源

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

《Python 机器学习》作者新作：从头开始构建大型语言模型，代码已开源

相关文章

暂无评论

热门网址

热门标签