Skip to content

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

grok-3-latest
Score: 0.81
Published: at 07:38

Summary: 本文通过系统性重写预训练数据,构建 SwallowCode 和 SwallowMath 数据集,显著提升了大型语言模型在代码生成和数学推理任务上的性能,提出了一种创新的‘改造并保留’数据处理范式。

Keywords: LLM, Pre-Training, Data Quality, Code Generation, Mathematical Reasoning

Authors: Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki

Institution(s): Institute of Science Tokyo, Department of Computer Science, National Institute of Advanced Industrial Science and Technology, Institute of Science Tokyo, Institute of Integrated Research, Supercomputing Research Center

Problem Background

大型语言模型(LLMs)在程序合成和数学推理方面的性能受限于预训练数据的质量,现有公开数据集(如 The-Stack-v1/v2 和 Finemath-4+)常包含噪声、冗余和风格不一致的内容,通过规则过滤或模型评分虽有改进,但仍不足以支持高效的模型学习。 作者提出通过系统性重写预训练数据,消除这些问题,提升数据质量和模型性能。

Method

Experiment

Further Thoughts

‘改造并保留’的理念非常具有启发性,传统数据处理多通过过滤丢弃低质量样本,而本文利用 LLM 重写数据,将低质量内容转化为高质量资源,这种思路可推广至其他领域,如自然语言文本清洗、对话数据优化或多模态数据处理;此外,流水线对编程语言的通用性(仅需语法检查和 linter 工具)启发我们思考如何将类似方法应用于其他结构化数据(如 SQL 查询、配置文件)或非结构化数据的质量提升;另一个值得探索的方向是重写过程中是否可以引入多模型协作或领域专家反馈,进一步减少模型偏见并提升重写质量。