模型量化共3篇
大语言模型推理加速:KV Cache量化与稀疏化技术深度剖析-小栈博客测试网

大语言模型推理加速:KV Cache量化与稀疏化技术深度剖析

深度剖析大语言模型推理阶段KV Cache的显存瓶颈与压缩方案。从量化感知训练(QAT)与后训练量化(PTQ)到基于Attention Score的稀疏化与结构化稀疏,详解业界主流实现的技术细节、工程选型权衡及联...
admin的头像-小栈博客测试网admin8天前
03611
多模态AI推理中的视觉-语言对齐:从CLIP到LLaVA的工程化演进-小栈博客测试网

多模态AI推理中的视觉-语言对齐:从CLIP到LLaVA的工程化演进

深入解析多模态AI推理中视觉-语言对齐的核心挑战与工程化演进路径。从CLIP对比学习到LLaVA跨模态融合,涵盖视觉编码器选择(ViT-L/14量化蒸馏、Patch size动态调整)、投影层设计(线性映射/Q-F...
admin的头像-小栈博客测试网admin8天前
03413
大模型推理量化实战:从GPTQ到AWQ的工程化部署指南-小栈博客测试网

大模型推理量化实战:从GPTQ到AWQ的工程化部署指南

深度解析大模型推理量化技术从GPTQ到AWQ的工程化部署全流程。涵盖对称/非对称量化数学原理、校准数据集选择陷阱、Group-wise量化与Kernel融合优化、Llama-3-70B INT4量化实测数据(MMLU精度对比...
头像8天前
0237