FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation

Summary: FineScope 提出了一种通过 SAE 引导的自动化数据集培育和领域感知剪枝优化大型语言模型的框架，显著提升了领域特定任务的性能与效率。

Keywords: LLM, Domain Adaptation, Pruning, Distillation, Data Curation

Authors: Chaitali Bhattacharyya, Yeseong Kim

Institution(s): Daegu Gyeongbuk Institute of Science and Technology

Problem Background

大型语言模型（LLMs）在领域特定应用中面临两大挑战：模型规模庞大导致计算资源需求高，以及通用训练数据缺乏领域专属知识导致性能不足。现有优化方法（如剪枝和参数高效微调）依赖于稀缺且昂贵的高质量领域特定数据集，因此亟需一种高效构建数据集并优化模型的方法，以在资源受限情况下实现领域适配和高性能。

Method

核心思想: 提出 FineScope 框架，通过自动化领域特定数据集培育和领域感知剪枝，优化大型语言模型在特定领域的性能与效率。
阶段一 - 领域特定数据培育:
- 利用稀疏自编码器（Sparse Autoencoder, SAE）从预训练模型中间层激活中提取领域相关特征。
- 采用 Top-K 激活选择机制，仅关注最重要的神经元激活，降低计算开销并增强特征可解释性。
- 基于少量用户定义的种子样本（seed samples），通过 SAE 嵌入空间中的余弦相似度，从大规模通用数据集中筛选出与目标领域高度相关的子集，形成领域特定数据集。
阶段二 - 剪枝感知微调与自数据蒸馏:
- 应用结构化剪枝，基于领域特定数据集评估模型各组件的重要性，保留对目标领域贡献最大的参数，移除冗余部分以提高计算效率。
- 剪枝后通过自数据蒸馏（Self-Data Distillation, SDFT）进行微调，利用未剪枝模型或更强的预训练模型生成蒸馏数据，帮助恢复剪枝过程中丢失的领域知识，同时增强模型泛化能力。
关键创新: 自动化数据集构建避免了手动标注的高成本，领域感知剪枝与自蒸馏结合有效平衡了模型规模与性能。

Experiment

有效性: FineScope 在多个领域特定任务上显著提升性能，例如在 MMLU 数据集上，STEM 领域平均提升 4.13%，社会科学提升 2.25%，人文科学提升 5.40%；在数学子领域，LLaMa 3.1 性能提升高达 18.70%。
剪枝与恢复: 剪枝后模型性能下降明显（如 Vicuna 下降 50%），但通过自数据蒸馏微调，性能大幅恢复，部分模型接近或超过原始预训练水平。
对比优势: 与基线方法（如 Alpaca 微调）及部分大型模型（如 OLMO-7B）相比，FineScope 表现更优，但在某些领域（如社会科学）仍不及超大规模模型（如 GPT-3 175B）。
实验设置合理性: 实验覆盖 STEM、社会科学、人文科学及数学子领域，测试了 Vicuna-7B、MathCoder-CL-7B 和 LLaMa 3.1-8B 等模型，数据集来源广泛（如 RedPajama、OpenInstruct），并通过消融研究验证了剪枝比例和 SAE 参数的影响，整体设计全面合理。
不足: 计算开销的具体量化（如 SAE 训练和自蒸馏成本）未详细披露，可能影响实际应用评估。

Further Thoughts

FineScope 的自数据培育理念可推广至多语言或低资源领域适配，是否能通过跨领域种子样本迁移进一步减少样本需求？ SAE 的可解释性优势是否可用于模型内部知识诊断或可视化，理解不同领域的决策过程？此外，是否可以通过动态调整剪枝比例和自蒸馏强度，根据任务需求实时优化模型规模与性能，特别是在边缘设备部署中？