PanGu-π-Pro：重新思考 “小” 的大语言模型的优化和架构

AI最新资讯1年前 (2024)发布 tree

150 0 0

今日应用

在线架子鼓

在线架子鼓

今日话题

PanGu-π-Pro：重新思考 “小” 的大语言模型的优化和架构

重点标签 模型优化、网络架构、参数初始化、多轮训练、端侧部署

文章摘要

摘要：
本文由科技猛兽编辑，探索了如何为端侧设备设计适合的”小”的大语言模型。在端侧设备上，由于算力和显存的限制，需要设计出满足要求且高性能的”小”大语言模型。作者基于1B参数的”小”大语言模型，对网络架构、参数初始化和优化策略进行了探索，并在1.6T的多语言语料库上训练了PanGu-π-1B Pro和PanGu-π-1.5B Pro。PanGu-π-1B Pro相比于PanGu-π-1B，在基准数据集上产生了8.87的平均改进，而PanGu-π-1.5B Pro的性能更是超越了一系列更大的模型。

网络架构探索：
– 直接使用大模型的分词器会引入冗余参数，通过简化分词器可以提高模型效率。
– 模型架构的配置，如模型深度、宽度，以及FFN中的和扩展率，对最终性能有显著影响。更深的模型通常以更低的推理速度实现更高的性能。

参数继承：
– 从大模型中继承参数有助于提高性能和加快收敛速度。作者观察到模型开始和结束附近的层比中间的层更重要。

模型优化：
– 小模型面临严重的数据遗忘问题，多轮训练技术有利于记忆增强。作者提出了一种样本选择策略来减轻与多轮训练的成本。

结论：
– 通过探索，作者得出了对小模型有帮助的结论，包括分词器压缩、架构调整、参数继承和多轮训练。
– PanGu-π-1B Pro和PanGu-π-1.5B Pro两个”小”的大语言模型在各种基准上进行评估，表现出色，尤其是在检查、知识、推理和理解方面。

论文和代码链接：
– 论文地址：[Rethinking Optimization and Architecture for Tiny Language Models](https://arxiv.org/pdf/2402.02791.pdf)
– 代码链接：[PanGu-π-Pro](https://github.com/YuchuanTian/RethinkTinyLM)

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

PanGu-π-Pro：重新思考 “小” 的大语言模型的优化和架构

今日应用

今日话题

文章摘要

文章来源

谁将替代 Transformer？

CVPR 2024 | CAMixerSR：2K/8K/轻量级/全景图像超分又快又强！（字节&南开）

相关文章

暂无评论

热门网址

热门标签