标签:CUDA

在GPU上加速RWKV6模型的Linear Attention计算

摘要:本文主要探讨了RWKV 6模型的Linear Attention模块的推理加速方法。文章首先介绍了flash-linear-attention仓库,该仓库旨在对各种线性Attention架构进行...

纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了

Karpathy 表示,他选择从 GPT-2 开始,因为它是大语言模型的鼻祖,并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有...