论文: Are We Done with Object-Centric Learning?
项目主页: https://alexanderrubinstein.github.io/are-we-done-with-ocl/
代码 (OCCAM): https://github.com/AlexanderRubinstein/OCCAM
作者: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh (Tübingen AI Center)
发表日期: 2025年4月9日 (arXiv)
问题背景
对象中心学习(Object-Centric Learning, OCL)旨在学习独立编码场景中每个物体、不受背景或其他物体干扰的表示。这种表示被认为对实现 OOD 泛化、组合性、样本效率、结构化环境建模和理解认知等目标至关重要。然而,当前OCL研究大多聚焦于开发无监督的、基于slot的方法,并主要以无监督物体发现(即分割)作为评估指标。
作者认为,随着强大的预训练分割模型(如HQES, SAM)的出现,它们在零样本物体发现上已远超现有slot-based OCL方法。因此,“将场景分解为物体"这一核心技术挑战已很大程度上被解决。OCL领域应将重心转移到更根本的目标上。
提出分析框架:OCCAM
- 核心思想: 提出一个简单、无需训练的对象中心分类探测框架 OCCAM (Object-Centric Classification with Applied Masks),用于研究和利用OCL表示解决下游任务,特别是存在虚假背景关联的鲁棒分类问题。
- 框架流程:
- 对象中心表示生成: 利用现成的(类无关)掩码生成器(如HQES)分割图像中的所有实体,得到每个物体的mask。
- 鲁棒分类: 对每个mask应用到原图上(如置灰背景后裁剪、或作为alpha通道),独立编码每个被mask出的物体。然后,通过一个前景检测器 (FG detector) 选择 出对应前景物体的表示,并将该表示送入分类器进行预测。
- 关键洞察: 证明了使用分割模型产生的对象表示在下游任务中效果很好(优于slot-based OCL)。当前实现鲁棒性的瓶颈在于第二步中如何鲁棒地选择前景物体 (object selection),而非表示本身的质量。
实验结果与分析
- 物体发现: 零样本的HQES和SAM在Movi-C/E等基准上的物体发现指标(FG-ARI, mBO)显著优于SOTA OCL方法(如SlotDiffusion, FT-Dinosaur)。
- 鲁棒分类: 在多个包含虚假背景关联的数据集(如Waterbirds, UrbanCars, ImageNet-D, ImageNet-9)上,使用OCCAM框架(基于HQES分割 + Class-Aided Oracle选择器)得到的分类准确率/WGA显著优于原始模型和slot-based OCL方法,甚至接近完美。
- 前景选择挑战: 实际的前景选择器(如基于集成熵的方法)性能远不如Oracle选择器,表明鲁棒的前景物体识别仍是挑战。
- 数据集分析 (CounterAnimals): 利用OCCAM分析发现,CounterAnimals数据集中Counter子集相比Common子集的性能下降,并非完全由虚假背景导致,移除背景后性能差距依然存在,说明Counter子集本身可能更难。
- OCCAM定位: OCCAM 主要作为分析OCL表示和数据集设计的工具,而非提出新的SOTA分类模型。
评述与展望
论文有力地论证了,随着强大分割工具的普及,OCL领域不应再过度专注于设计新的无监督物体分割/发现机制。社区的重心应该转移到:
- 利用现有强大的对象表示(来自分割模型)来解决更下游、更具挑战性的任务,如OOD泛化、组合性推理、场景理解、因果发现等。
- 开发更好的前景物体选择机制,这是发挥OCL表示潜力的关键瓶颈。
- 设计更符合OCL根本目标的基准和评估方法,超越简单的物体发现指标。
- 探索OCL在理解人类认知(如婴儿物体感知)中的作用,考虑更符合发育过程的多模态线索。
作者呼吁社区利用提供的OCCAM工具箱,共同推动OCL向更深层次的目标迈进。