标签:存储效率

Llama架构比不上GPT2?神奇token提升10倍记忆?

研究了三种类型的合成数据:bioS、bioR、bioD。重点研究了基于 GPT2、LlaMA、Mistral 的语言模型架构。发现,如果训练时间充足,模型的存储效率均可以达到 2b...