Skip to content

Software Development Life Cycle Perspective: A Survey of Benchmarks for CodeLLMs and Agents

grok-3-latest
Score: 0.39
Published: at 14:27

Summary: 本文通过系统分析181个CodeLLMs和代理基准测试,揭示了SDLC各阶段评估的不平衡性,并为未来基准测试设计提供了全面指导。

Keywords: LLM, Code Generation, Software Engineering, Benchmarking, SDLC

Authors: Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Bin Shi

Institution(s): Xi’an Jiaotong University, Nanyang Technological University

Problem Background

代码大语言模型(CodeLLMs)和代理在软件工程中的应用日益广泛,展现出比传统方法更强的复杂任务处理能力和跨任务泛化能力。然而,现有基准测试(Benchmarks)缺乏系统性综述,无法全面评估这些模型在软件开发生命周期(SDLC)各阶段的表现,尤其是在需求工程和软件设计等早期阶段的覆盖不足,难以反映模型在真实场景中的应用潜力。

Method

Experiment

Further Thoughts

论文提出的跨阶段评估理念启发了我,未来可以设计‘端到端’基准测试,模拟从需求分析到维护的全流程任务,评估模型在阶段间协作和信息传递中的表现;此外,多模态基准测试的潜力值得探索,例如从UI设计草图生成代码,或从视频教程提取编程逻辑,以更贴近实际开发场景;最后,人机协作评估是一个被忽视但重要的方向,可以设计基准测试评估模型在与人类开发者交互时的效率提升和意图理解能力。