Summary: FineScope 提出了一种通过 SAE 引导的自动化数据集培育和领域感知剪枝优化大型语言模型的框架,显著提升了领域特定任务的性能与效率。
Keywords: LLM, Domain Adaptation, Pruning, Distillation, Data Curation
Authors: Chaitali Bhattacharyya, Yeseong Kim
Institution(s): Daegu Gyeongbuk Institute of Science and Technology
Problem Background
大型语言模型(LLMs)在领域特定应用中面临两大挑战:模型规模庞大导致计算资源需求高,以及通用训练数据缺乏领域专属知识导致性能不足。 现有优化方法(如剪枝和参数高效微调)依赖于稀缺且昂贵的高质量领域特定数据集,因此亟需一种高效构建数据集并优化模型的方法,以在资源受限情况下实现领域适配和高性能。
Method
- 核心思想: 提出 FineScope 框架,通过自动化领域特定数据集培育和领域感知剪枝,优化大型语言模型在特定领域的性能与效率。
- 阶段一 - 领域特定数据培育:
- 利用稀疏自编码器(Sparse Autoencoder, SAE)从预训练模型中间层激活中提取领域相关特征。
- 采用 Top-K 激活选择机制,仅关注最重要的神经元激活,降低计算开销并增强特征可解释性。
- 基于少量用户定义的种子样本(seed samples),通过 SAE 嵌入空间中的余弦相似度,从大规模通用数据集中筛选出与目标领域高度相关的子集,形成领域特定数据集。
- 阶段二 - 剪枝感知微调与自数据蒸馏:
- 应用结构化剪枝,基于领域特定数据集评估模型各组件的重要性,保留对目标领域贡献最大的参数,移除冗余部分以提高计算效率。
- 剪枝后通过自数据蒸馏(Self-Data Distillation, SDFT)进行微调,利用未剪枝模型或更强的预训练模型生成蒸馏数据,帮助恢复剪枝过程中丢失的领域知识,同时增强模型泛化能力。
- 关键创新: 自动化数据集构建避免了手动标注的高成本,领域感知剪枝与自蒸馏结合有效平衡了模型规模与性能。
Experiment
- 有效性: FineScope 在多个领域特定任务上显著提升性能,例如在 MMLU 数据集上,STEM 领域平均提升 4.13%,社会科学提升 2.25%,人文科学提升 5.40%;在数学子领域,LLaMa 3.1 性能提升高达 18.70%。
- 剪枝与恢复: 剪枝后模型性能下降明显(如 Vicuna 下降 50%),但通过自数据蒸馏微调,性能大幅恢复,部分模型接近或超过原始预训练水平。
- 对比优势: 与基线方法(如 Alpaca 微调)及部分大型模型(如 OLMO-7B)相比,FineScope 表现更优,但在某些领域(如社会科学)仍不及超大规模模型(如 GPT-3 175B)。
- 实验设置合理性: 实验覆盖 STEM、社会科学、人文科学及数学子领域,测试了 Vicuna-7B、MathCoder-CL-7B 和 LLaMa 3.1-8B 等模型,数据集来源广泛(如 RedPajama、OpenInstruct),并通过消融研究验证了剪枝比例和 SAE 参数的影响,整体设计全面合理。
- 不足: 计算开销的具体量化(如 SAE 训练和自蒸馏成本)未详细披露,可能影响实际应用评估。
Further Thoughts
FineScope 的自数据培育理念可推广至多语言或低资源领域适配,是否能通过跨领域种子样本迁移进一步减少样本需求? SAE 的可解释性优势是否可用于模型内部知识诊断或可视化,理解不同领域的决策过程? 此外,是否可以通过动态调整剪枝比例和自蒸馏强度,根据任务需求实时优化模型规模与性能,特别是在边缘设备部署中?