Skip to content

Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise

grok-3-latest
Score: 0.50
Published: at 12:53

Summary: 本文系统分析了视觉变换器在主动学习和标签噪声环境下的表现,揭示模型规模和补丁大小对准确率、校准和效率的影响,为资源受限场景下的模型选择提供实用指导。

Keywords: Vision Transformer, Active Learning, Label Noise, Model Calibration, Computational Efficiency

Authors: Moseli Mots’oehli, Hope Mogale, Kyungim Baek

Institution(s): University of Hawai‘i at Manoa, University of Pretoria

Problem Background

视觉变换器(Vision Transformers, ViT)在主动学习(Active Learning)场景下的应用研究较少,尤其是在标签噪声(Label Noise)普遍存在的现实环境中,如何平衡分类准确率、模型校准和计算效率仍是一个未充分探索的问题。 论文旨在解决在有限标注预算和资源约束下,标签噪声对不同规模和配置的 ViT 模型性能的影响,以及如何选择合适的模型配置以优化性能与效率的权衡。

Method

Experiment

Further Thoughts

论文揭示了较大规模 ViT 模型在噪声环境下的鲁棒性,启发我们思考是否可以通过模型剪枝或知识蒸馏在小模型上模拟大模型的鲁棒性;补丁大小的非直觉性影响(ViTl32 优于 ViTl16)提示是否可以通过动态调整补丁大小适应不同任务需求;主动学习策略在高噪声下校准不佳,是否可以设计联合优化准确率和校准的查询策略;此外,如何构建一个根据任务需求自动推荐最优模型配置的决策框架也值得探索。