Llama架构比不上GPT2？神奇token提升10倍记忆？

今日应用

Text To Speech，文本转语音，文本朗读，让机器能够说话。构建自然说话的应用和服务，从 147 种语言和变体中选择 456 种语音。借助高表现力和类似人类的神经语音，让你的方案生动起来。

Llama架构比不上GPT2？神奇token提升10倍记忆？

重点标签 知识容量、语言模型、scaling laws、数据质量、存储效率

研究了三种类型的合成数据：bioS、bioR、bioD。重点研究了基于 GPT2、LlaMA、Mistral 的语言模型架构。发现，如果训练时间充足，模型的存储效率均可以达到 2bit/param。而且，即使移除了所有 MLP 层，模型仍能达到 2bit/param 的存储效率。

当训练时间不足时，模型间的差异显现出来。GPT2 模型能比 LlaMA/Mistral 存储超过 30% 的知识。作者通过架构调整，发现是 GatedMLP 导致了这 30% 的损失。

研究还探讨了 quantization 和 MoE 对模型 scaling law 的影响。将训练好的模型从 float32/16 压缩到 int8，对知识的存储毫无影响。作者指出，这是一个普遍法则。

最后，研究了预训练数据「知识质量不齐」情形下的 scaling laws。发现，低质量数据的「存在本身」，可能会让模型对高质量知识的存储量下降 20 倍。作者提出了一个简单但极其有效的策略，给所有的 (预) 训练数据加上自己的网站域名 token 即可。

结语：作者认为，通过合成数据，计算模型在训练过程中获得的知识总量的方法，可以为「评估模型架构、训练方法和数据制备」提供了一套系统且精确的打分体系。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...