PanGu-π-Pro:重新思考 “小” 的大语言模型的优化和架构

AI最新资讯3个月前发布 tree
31 0 0

今日应用


今日话题


PanGu-π-Pro:重新思考 “小” 的大语言模型的优化和架构
PanGu-π-Pro:重新思考 “小” 的大语言模型的优化和架构
 

重点标签 模型优化网络架构参数初始化多轮训练端侧部署

文章摘要


摘要:
本文由科技猛兽编辑,探索了如何为端侧设备设计适合的”小”的大语言模型。在端侧设备上,由于算力和显存的限制,需要设计出满足要求且高性能的”小”大语言模型。作者基于1B参数的”小”大语言模型,对网络架构参数初始化和优化策略进行了探索,并在1.6T的多语言语料库上训练了PanGu-π-1B Pro和PanGu-π-1.5B Pro。PanGu-π-1B Pro相比于PanGu-π-1B,在基准数据集上产生了8.87的平均改进,而PanGu-π-1.5B Pro的性能更是超越了一系列更大的模型。

网络架构探索:
– 直接使用大模型的分词器会引入冗余参数,通过简化分词器可以提高模型效率。
– 模型架构的配置,如模型深度、宽度,以及FFN中的和扩展率,对最终性能有显著影响。更深的模型通常以更低的推理速度实现更高的性能。

参数继承:
– 从大模型中继承参数有助于提高性能和加快收敛速度。作者观察到模型开始和结束附近的层比中间的层更重要。

模型优化
– 小模型面临严重的数据遗忘问题,多轮训练技术有利于记忆增强。作者提出了一种样本选择策略来减轻与多轮训练的成本。

结论:
– 通过探索,作者得出了对小模型有帮助的结论,包括分词器压缩、架构调整、参数继承和多轮训练。
– PanGu-π-1B Pro和PanGu-π-1.5B Pro两个”小”的大语言模型在各种基准上进行评估,表现出色,尤其是在检查、知识、推理和理解方面。

论文和代码链接:
– 论文地址:[Rethinking Optimization and Architecture for Tiny Language Models](https://arxiv.org/pdf/2402.02791.pdf)
– 代码链接:[PanGu-π-Pro](https://github.com/YuchuanTian/RethinkTinyLM)

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...