Skip to content

Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction

grok-3-latest
Score: 0.48
Published: at 02:53

Summary: 本文提出 Pack-PTQ 方法,通过 Hessian-guided 打包机制和包级混合精度量化策略,显著提升低比特后训练量化的性能,同时捕捉跨块依赖性。

Keywords: Neural Network, Quantization, Post-Training, Mixed Precision, Cross-Block Dependency

Authors: Changjun Li, Runqing Jiang, Zhuo Song, Pengpeng Yu, Ye Zhang, Yulan Guo

Institution(s): Shenzhen Campus, Sun Yat-sen University, Aviation University of Air Force

Problem Background

神经网络在计算机视觉任务中取得了显著进展,但其高计算和内存需求使得在资源受限的边缘设备上部署成为挑战。 后训练量化(Post-Training Quantization, PTQ)作为一种无需端到端重训练的模型压缩方法受到关注,但传统 PTQ 方法多采用块级重建(block-wise reconstruction),忽略了块间依赖性(cross-block dependency),在低比特量化(如 3 比特)时精度下降明显。 本文旨在通过改进重建粒度和量化策略,解决低比特量化下的性能损失问题。

Method

Experiment

Further Thoughts

Pack-PTQ 的‘包’概念可以扩展到其他模型压缩技术(如网络剪枝或知识蒸馏),通过捕捉跨层依赖性优化压缩策略;Hessian 矩阵评估重要性是否可结合其他指标(如梯度范数)进一步提高打包准确性;混合精度策略是否可动态调整,例如在推理时根据输入数据特性实时分配比特宽度;对于边缘设备,是否可设计轻量级打包机制,减少 Hessian 计算开销同时保留跨块依赖性捕捉能力。