推理加速共1篇
大模型推理中的动态稀疏注意力:超越FlashAttention的工程化路径-小栈博客测试网

大模型推理中的动态稀疏注意力:超越FlashAttention的工程化路径

深度解析大模型推理中动态稀疏注意力的三类主流范式:Top-k选择、掩码预测与聚类原型。探讨超越FlashAttention的工程化路径,包括块稀疏实现、硬件友好优化、KV Cache协同及与推测性解码的双重...
头像8天前
0436