Skip to content

YABLoCo: Yet Another Benchmark for Long Context Code Generation

grok-3-latest
Score: 0.65
Published: at 13:42

Summary: YABLoCo 提出一个针对 C/C++ 语言的大型代码库代码生成基准,填补长上下文评估空白,并通过实验验证上下文对 LLMs 性能的显著影响。

Keywords: LLM, Code Generation, Long Context, Benchmark, Repository

Authors: Aidar Valeev, Roman Garaev, Vadim Lomshakov, Irina Piontkovskaya, Vladimir Ivanov, Israel Adewuyi

Institution(s): Innopolis University, St. Petersburg Department of the Steklov Institute of Mathematics, Huawei Noah’s Ark Lab

Problem Background

大型语言模型(LLMs)在代码生成任务中的性能评估主要集中于小规模或中等规模上下文(几千行代码),而现实世界软件项目可能包含数百万行代码(LoC),且现有基准多针对 Python 和 Java,缺乏对 C/C++ 等语言的支持。 YABLoCo 旨在解决这一问题,通过构建一个针对大型代码库(200K 到 2M LoC)的代码生成基准,评估 LLMs 在长上下文环境下的表现,特别是处理复杂函数依赖和生成可运行代码的能力。

Method

Experiment

Further Thoughts

YABLoCo 的上下文依赖分类(none 到 project)为研究上下文对代码生成的影响提供了细粒度视角,未来可以探索动态上下文选择机制,根据任务需求自动调整上下文范围;此外,合成 docstring 的尝试启发我们利用 LLMs 增强数据集质量,特别是在专业领域代码中数据稀缺的情况下;评估管道的可扩展性也提示我们可以构建通用化的代码生成评估框架,覆盖更多语言和代码库。