Llama架构比不上GPT2?神奇token提升10倍记忆?

AI最新资讯7个月前发布 tree
77 0 0

今日应用


今日话题


Llama架构比不上GPT2?神奇token提升10倍记忆?
Llama架构比不上GPT2?神奇token提升10倍记忆?
 

重点标签 知识容量语言模型scaling laws数据质量存储效率

文章摘要


研究了三种类型的合成数据:bioS、bioR、bioD。重点研究了基于 GPT2、LlaMA、Mistral 的语言模型架构。发现,如果训练时间充足,模型的存储效率均可以达到 2bit/param。而且,即使移除了所有 MLP 层,模型仍能达到 2bit/param 的存储效率

当训练时间不足时,模型间的差异显现出来。GPT2 模型能比 LlaMA/Mistral 存储超过 30% 的知识。作者通过架构调整,发现是 GatedMLP 导致了这 30% 的损失。

研究还探讨了 quantization 和 MoE 对模型 scaling law 的影响。将训练好的模型从 float32/16 压缩到 int8,对知识的存储毫无影响。作者指出,这是一个普遍法则。

最后,研究了预训练数据「知识质量不齐」情形下的 scaling laws。发现,低质量数据的「存在本身」,可能会让模型对高质量知识的存储量下降 20 倍。作者提出了一个简单但极其有效的策略,给所有的 (预) 训练数据加上自己的网站域名 token 即可。

结语:作者认为,通过合成数据,计算模型在训练过程中获得的知识总量的方法,可以为「评估模型架构、训练方法和数据制备」提供了一套系统且精确的打分体系。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...