大模型推理共4篇
推测性解码实战:大模型推理加速的2-4倍提升路径-小栈博客测试网

推测性解码实战:大模型推理加速的2-4倍提升路径

深入解析推测性解码(Speculative Decoding)技术原理与工程实践。通过草稿模型与并行验证机制,在不牺牲生成质量前提下实现大模型推理2-4倍加速。涵盖核心机制、工程化设计决策、主流方案对比(Me...
admin的头像-小栈博客测试网admin9天前
0386
大模型推理中的动态稀疏注意力:超越FlashAttention的工程化路径-小栈博客测试网

大模型推理中的动态稀疏注意力:超越FlashAttention的工程化路径

深入解析大模型推理中动态稀疏注意力的三类主流范式:Top-k选择、掩码预测与聚类原型。探讨工程落地的关键挑战,包括硬件友好的块稀疏实现、动态开销权衡、精度与稀疏度平衡。结合推测性解码实...
头像9天前
0436
大模型推理量化实战:从GPTQ到AWQ的工程化部署指南-小栈博客测试网

大模型推理量化实战:从GPTQ到AWQ的工程化部署指南

深入解析大模型推理量化技术,从GPTQ到AWQ的工程化部署全指南。涵盖对称/非对称量化、校准数据集陷阱、Group-wise量化与Kernel融合优化,以及Llama-3-70B在4×A100上的INT4量化实测对比(MMLU精...
头像9天前
0237
大模型推理服务化部署:vLLM与TGI的架构对比与性能调优-小栈博客测试网

大模型推理服务化部署:vLLM与TGI的架构对比与性能调优

深度对比两大主流大模型推理框架vLLM与TGI:从PagedAttention显存管理、连续批处理机制到张量并行架构,全面解析内存优化策略与调度算法。提供显存、计算、网络三维度调优实战指南,附场景化框...
头像9天前
0285