标签:CUDA
天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?
PyTorch 官方近期分享了如何实现无 CUDA 计算,并对各个内核进行了微基准测试比较,讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。在大语言模...
在GPU上加速RWKV6模型的Linear Attention计算
摘要:本文主要探讨了RWKV 6模型的Linear Attention模块的推理加速方法。文章首先介绍了flash-linear-attention仓库,该仓库旨在对各种线性Attention架构进行...
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
Karpathy 表示,他选择从 GPT-2 开始,因为它是大语言模型的鼻祖,并且有可用的模型权重。项目的原始训练实现在 GitHub 上提供。项目在开始时一次性分配所有...