QuantX: A Framework for Hardware-Aware Quantization of Generative AI Workloads

Summary: QuantX 提出了一种硬件感知的量化框架，通过针对权重分布差异和硬件约束设计多种量化策略，将大型语言模型和视觉语言模型量化到3比特，同时保持性能损失在6%以内，显著优于现有方法。

Keywords: LLM, Quantization, Hardware Awareness, Post-Training, Compression

Authors: Khurram Mazher, Saad Bin Nasir

Institution(s): 10xEngineers Inc.

Problem Background

随着大型语言模型（LLMs）和视觉语言模型（VLMs）在移动和边缘设备上的本地推理需求增加，尤其是在隐私敏感场景中，如何在有限的内存和计算资源下压缩模型，同时尽量减少性能损失，成为亟待解决的问题。后训练量化（Post-Training Quantization, PTQ）作为一种低成本的压缩方法，面临在低比特量化（如3比特）时平衡模型精度、推理速度和内存占用的挑战，尤其需要在不同硬件约束下实现高效的去量化。

Method

核心思想: QuantX 是一个硬件感知的量化框架，通过针对模型权重分布差异、硬件约束和任务需求，设计多种量化策略（recipes），以实现低比特量化下的性能优化。
权重分布分析: 不同模型和层级的权重分布差异显著（如自注意力模块与MLP模块），QuantX 根据分布特性选择均匀或非均匀量化，并调整比特宽度，以优化量化效果。
关键异常值处理: 非均匀量化在异常值（outliers）处可能导致较大误差，影响精度，QuantX 基于统计数据和约束条件动态选择均匀或非均匀量化方式，减少异常值影响。
多准则量化: 不仅仅基于权重矩阵误差（如Frobenius范数），还考虑中间输出（如自注意力图）的变化，确保端到端精度，尤其是在低比特量化下维持模型性能。
硬件感知设计: 考虑硬件资源（如支持的数值类型、乘法器类型、数据总线宽度）和软件内核性能（如打包和解包内核），确保量化策略在实际部署中可行，避免复杂去量化操作导致推理速度下降。
灵活性: QuantX 通过多维度权衡（精度、速度、内存），为不同硬件和任务定制量化方案，提供灵活的性能优化。

Experiment

有效性: 在 LlaVa-v1.6 7B 模型上，QuantX 将模型量化到3比特时，性能仅比未量化模型（FP16）下降不到6%，在 Coco Caption、VQAv2 和 MMMU 等基准测试上均优于业界流行的 AWQ 方法。
压缩率: QuantX 使用更少的每权重比特数（BPW），通过更大的分组大小实现更高压缩率，同时保持更好的精度。
实验设置: 实验涵盖多模态任务（视觉到文本转换、视觉和文本推理），设置较为全面，但缺乏运行时速度对比数据（论文提到未来会更新），推理速度的实际提升仍需验证。

Further Thoughts

QuantX 的硬件感知量化方法启发我们，AI模型优化需与硬件深度耦合，未来是否可以设计通用硬件抽象层，让量化框架自动适配不同硬件？此外，异常值对低比特量化的影响显著，是否可以通过预处理（如权重剪切或变换）进一步减少异常值影响？ QuantX 的思想是否可以扩展到其他压缩技术（如剪枝或知识蒸馏），形成统一的模型压缩框架？