标签:Linear Attention

在GPU上加速RWKV6模型的Linear Attention计算

摘要:本文主要探讨了RWKV 6模型的Linear Attention模块的推理加速方法。文章首先介绍了flash-linear-attention仓库,该仓库旨在对各种线性Attention架构进行...