标签:Triton

天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?

PyTorch 官方近期分享了如何实现无 CUDA 计算,并对各个内核进行了微基准测试比较,讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。在大语言模...

在GPU上加速RWKV6模型的Linear Attention计算

摘要:本文主要探讨了RWKV 6模型的Linear Attention模块的推理加速方法。文章首先介绍了flash-linear-attention仓库,该仓库旨在对各种线性Attention架构进行...