Rethinking Visual Layer Selection in Multimodal LLMs

Summary: 本文通过层级表示相似性分析系统研究 CLIP-ViT 视觉层级特征差异，并提出轻量级融合策略，显著提升多模态大语言模型在多样化任务上的性能。

Keywords: Multimodal LLM, Visual Encoder, Feature Fusion, Layer Selection, Task Performance Recommendation Score: 0.8727925032865116

Authors: Haoran Chen, Junyan Lin, Xinhao Chen, Yue Fan, Xin Jin, Hui Su, Jianfeng Dong, Jinlan Fu, Xiaoyu Shen Institution(s): Ningbo Key Laboratory of Spatial Intelligence and Digital Derivative, Institute of Digital Twin, EIT, Zhejiang Gongshang University, Genmo.ai, Meituan Inc., National University of Singapore

Problem Background

多模态大语言模型（MLLMs）在多种任务上表现出色，通常使用 CLIP-ViT 作为视觉编码器，但对视觉特征层级的选择多基于经验性启发，而非系统性分析。论文指出，不同层级的视觉特征在 CLIP-ViT 中捕捉不同类型的信息——浅层关注细粒度视觉细节，深层更贴近文本语义对齐，而当前模型普遍偏向深层特征（如倒数第二层），可能忽略了浅层和中层特征的潜力。因此，核心问题是：深层特征是否总是最优？如何系统性地选择或融合不同层级特征以提升 MLLMs 在多样化任务上的表现？

Method

层级表示相似性（Layer-wise Representation Similarity, LRS）分析： 提出了一种方法，通过计算 CLIP-ViT 各层隐藏状态的余弦相似性矩阵，量化层与层之间的行为模式，将 24 层分为三组：浅层（1-12 层，捕捉低级视觉特征如边缘）、中层（13-20 层，过渡特征）、深层（21-24 层，高语义抽象与文本对齐）。
层级特征性能评估： 在 LLaVA 风格的模型架构上，逐层输入 CLIP-ViT 的隐藏状态到连接器（Connector），通过两阶段训练（预训练与指令微调）评估各层在多模态任务上的表现，探索浅层和中层是否在特定任务上优于深层。
轻量级特征融合策略： 基于 LRS 分析结果，设计了一种简单融合方法，从浅层、中层、深层各选取代表性层（如第 3、18、23 层），通过特征维度上的拼接（Concatenation）整合多层特征，再通过单层线性层映射到语言模型的 token 空间，旨在以最小计算开销结合各层优势。
实现细节： 使用 CLIP ViT-L/14 作为视觉编码器，语言模型包括 1.4B MobileLLaMA 等，训练采用 AdamW 优化器和余弦退火学习率调度，确保实验可控性和效率。

Experiment

实验设置全面性： 实验基于 LLaVA 风格模型，模型规模从 1.4B 到 7B 参数，训练数据规模从 665K 到 1M 样本，评估覆盖 10 个数据集和 4 类任务（通用任务、OCR 任务、视觉中心任务、幻觉任务），确保结果的普适性和鲁棒性。
层级性能差异： 结果表明，深层（尤其是倒数第二层，即第 23 层）在 OCR 任务上表现最佳（如 OCRBench 得分 233，高于中层的 200）；浅层和中层在计数、定位等视觉推理任务上显著优于深层（如第 18 层在 CVBench 上得分 47.29，高于第 23 层的 44.26，差距约 3%）。
融合策略效果： 提出的轻量级融合策略（结合第 3、18、23 层）在 9/10 数据集上优于单一层选择和现有融合方法（如 DenseConnector 和 MMFuser），例如在 MMBench 上从基线 35.31 提升到 49.22，增幅约 39%。
局限与开销： 融合策略计算开销低（仅增加单层线性层），但对浅层特征在 OCR 任务上的负面影响需进一步优化；实验主要基于 CLIP-ViT，未广泛验证其他视觉编码器的适用性。

Further Thoughts

论文揭示了视觉层级特征的互补性对任务表现的影响，这启发我思考是否可以设计一种动态层级选择机制，根据任务类型（如 OCR 或推理）自适应地调整层级权重或选择特定层级特征，而非静态融合；此外，是否可以将类似分析扩展到其他视觉编码器（如 DINOv2 或 SigLIP），以探索层级特征差异的通用性，并进一步提升多模态模型在复杂场景下的泛化能力？