今日应用
今日话题
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
重点标签 大语言模型、C语言、GPT-2、CUDA、机器学习
文章摘要
Karpathy 表示,他选择从 GPT-2 开始,因为它是大语言模型的鼻祖,并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有所需的内存,并且内存占用量在训练过程中保持不变。
Karpathy 正在逐层将其移植到 CUDA 上,以提高效率,并期待能在 PyTorch 的合理范围内。未来该项目的延伸会包括将精度从 fp32 降低到 fp16 / 以下,以及增加几个层以支持更现代的架构。
要使用 llm.c,首先要下载并 tokenize 数据集。llm.c 到这一步已经可以训练模型。然而,基线 CPU/fp32 参考代码的效率很低,从头开始训练这些模型不切实际。因此,这里使用 OpenAI 发布的 GPT-2 权重进行初始化,然后再进行微调。
最后,Karpathy 表示,一旦项目稳定起来,就会出关于从头开始用 C 语言写大模型的视频。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...