A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

Summary: 本文提出了一种概率驱动的提示方法，利用大型语言模型估计条件分布并进行采样，显著提升了合成表格数据的统计准确性和计算效率。

Keywords: LLM, Synthetic Data, Tabular Data, Probability Distribution, Prompting

Authors: Andrey Sidorenko

Institution(s): MOSTLY AI

Problem Background

表格数据在金融、医疗和电子商务等领域至关重要，但由于隐私限制、数据稀缺和不平衡等问题，获取高质量真实数据面临挑战。合成数据生成成为解决这一问题的有效手段，而大型语言模型（LLMs）因其强大的生成能力被应用于此领域。然而，LLMs 由于自回归生成机制，在捕捉复杂特征依赖性（尤其是分类变量之间的关系）方面存在不足，导致生成的合成数据缺乏统计一致性和现实性。

Method

核心思想: 提出一种概率驱动的提示方法（Probability-Driven Prompting Approach），通过利用 LLMs 估计条件概率分布，指导合成表格数据的生成，以提高统计准确性和特征间相关性的保真度。
具体步骤:
- 上下文提示: 首先设计结构化提示，定义数据集的上下文，包括变量及其类别，确保模型理解生成任务的背景。
- 概率分布预测: 利用 LLMs 预测不同变量类别的概率分布，特别是条件概率分布（如基于年龄组的种族分布），以捕捉特征间的依赖关系。
- 随机采样生成: 基于预测的概率分布进行随机采样，生成每一行数据，确保生成的合成数据符合真实数据的统计特性。
效率优化: 该方法只需少量提示（5-6 次分布级查询）即可生成大规模数据集，避免了逐行或逐单元生成带来的高计算成本。
关键创新: 不同于传统的自回归生成，该方法通过概率分布的后处理采样，减少了自回归生成中的偏差累积，同时利用 LLMs 的隐式知识建模复杂分布。

Experiment

数据集与设置: 实验基于加利福尼亚州人口分布数据（来自美国人口普查局），涉及年龄组和种族组两个主要变量，生成包含 10,000 行的合成数据集，比较了表级生成、逐单元生成和概率驱动提示方法的效果。
效果对比: 表级生成速度快，但分布平滑过度，未能准确捕捉年龄与种族的依赖关系；逐单元生成未能保持人口异质性，分布近乎均匀；概率驱动提示方法在保持年龄依赖的种族分布方面表现最佳，生成的合成数据与真实分布最为接近，尤其在主导群体和少数群体的平衡上表现优异。
计算效率: 该方法无论生成多少行数据，LLM 调用次数固定在分布级查询（5-6 次），相比逐单元生成的高计算成本具有显著优势。
局限性: 实验设置较为简单，仅基于一个低维度数据集，是否能在更复杂或高不平衡数据集上保持同样效果仍需进一步验证。

Further Thoughts

论文提出的概率驱动提示方法启发了我思考如何进一步挖掘 LLMs 的隐式知识用于结构化数据生成任务，例如时间序列或图数据的合成。是否可以通过结合其他概率模型（如贝叶斯网络）增强条件分布建模能力？此外，该方法是否可以与领域特定数据的微调结合，进一步提升生成数据的定制化能力，适应更广泛的应用场景？