Optimizing Deep Neural Networks using Safety-Guided Self Compression

Summary: 本文提出安全驱动的自压缩框架，通过保留集和可微量化机制，在深度神经网络压缩中实现模型大小与性能的平衡，显著提升资源受限环境下的部署能力。

Keywords: Model Compression, Quantization, Generalization, Safety-Driven Optimization

Authors: Mohammad Zbeeb, Mariam Salman, Mohammad Bazzi, Ammar Mohanna

Institution(s): American University of Beirut

Problem Background

深度神经网络（DNNs）在资源受限设备上的部署面临挑战，传统模型压缩方法（如剪枝和量化）虽能减小模型体积和提升推理速度，但往往以牺牲性能和可靠性为代价，尤其是在泛化能力和稳定性方面存在风险。本文旨在解决如何在显著压缩模型的同时，保持甚至提升模型准确性和可靠性这一关键问题，以实现高效部署。

Method

核心思想: 提出一种安全驱动的自压缩（Safety-Driven Self-Compression）框架，通过引入‘ 保留集（Preservation Set）和可微量化（Differentiable Quantization）机制，在压缩过程中保护关键特征，确保模型性能和可靠性。
保留集构建: 利用 Grad-CAM 识别高激活区域、不确定性采样捕捉模型不确定性高的数据点，以及聚类技术确保数据多样性，构建一个代表性子集，用于在压缩过程中评估和保护模型关键特征，适用于视觉（CNN）和语言（Transformer）模型。
可微量化实现: 设计一个可微量化函数，通过直通估计器（Straight-Through Estimator, STE）克服量化中的非可微问题，使权重比特深度在训练中动态调整；同时引入多目标损失函数，包括预测损失（如交叉熵）、L1正则化项（促进稀疏性）、量化惩罚（限制比特深度）和保留集损失（确保关键特征保留）。
自适应压缩过程: 在训练循环中，根据保留集性能反馈动态调整量化精度，若性能下降则恢复受影响组件的精度；同时剪枝零权重组件（如CNN核或Transformer注意力头），实现模型自压缩。
适用性与创新: 方法不依赖特定架构，通过数据驱动的保留集和动态量化实现自适应压缩，避免传统方法中过度压缩导致的性能损失。

Experiment

有效性: 实验在CNN（MNIST数据集）和Transformer（n-gram分析）模型上进行，安全驱动量化方法在保留约60%模型大小的同时，显著提升性能：CNN测试准确率从98.6%提升至99.5%，Transformer测试损失从1.8降至1.6，优于未量化和不安全量化的基准，表明方法不仅压缩模型，还通过去除参数噪声增强了泛化能力。
实验设置合理性: 实验覆盖多种超参数配置（批量大小16-128、学习率1e-4至1e-2、比特深度2-16位）、模型深度和硬件环境（CPU和GPU），结果取平均值以提高可靠性；保留集设计（占训练数据10%）和动态反馈机制进一步确保了压缩过程的稳定性。
局限性与成本: 实验数据集相对简单（MNIST较为基础），可能无法完全反映复杂任务中的表现；方法在密集层压缩时需专用硬件，增加了应用成本；此外，训练循环需手动调整，尚未被标准深度学习框架支持。

Further Thoughts

论文中的‘保留集’概念极具启发性，通过数据驱动的方式保护关键特征，这种思路可扩展至对抗性训练或模型解释性研究，探索如何在其他优化任务中识别并保护核心组件；此外，动态量化精度的机制提示是否可以结合强化学习（RL）设计自适应压缩策略，让代理学习在不同任务和硬件约束下的最佳量化方案；最后，压缩提升泛化能力的发现值得深入探讨，或许可以通过设计压缩导向的预训练方法，进一步减少过参数化带来的冗余噪声。