Summary: 本文提出了一种概率驱动的提示方法,利用大型语言模型估计条件分布并进行采样,显著提升了合成表格数据的统计准确性和计算效率。
Keywords: LLM, Synthetic Data, Tabular Data, Probability Distribution, Prompting
Authors: Andrey Sidorenko
Institution(s): MOSTLY AI
Problem Background
表格数据在金融、医疗和电子商务等领域至关重要,但由于隐私限制、数据稀缺和不平衡等问题,获取高质量真实数据面临挑战。 合成数据生成成为解决这一问题的有效手段,而大型语言模型(LLMs)因其强大的生成能力被应用于此领域。 然而,LLMs 由于自回归生成机制,在捕捉复杂特征依赖性(尤其是分类变量之间的关系)方面存在不足,导致生成的合成数据缺乏统计一致性和现实性。
Method
- 核心思想: 提出一种概率驱动的提示方法(Probability-Driven Prompting Approach),通过利用 LLMs 估计条件概率分布,指导合成表格数据的生成,以提高统计准确性和特征间相关性的保真度。
- 具体步骤:
- 上下文提示: 首先设计结构化提示,定义数据集的上下文,包括变量及其类别,确保模型理解生成任务的背景。
- 概率分布预测: 利用 LLMs 预测不同变量类别的概率分布,特别是条件概率分布(如基于年龄组的种族分布),以捕捉特征间的依赖关系。
- 随机采样生成: 基于预测的概率分布进行随机采样,生成每一行数据,确保生成的合成数据符合真实数据的统计特性。
- 效率优化: 该方法只需少量提示(5-6 次分布级查询)即可生成大规模数据集,避免了逐行或逐单元生成带来的高计算成本。
- 关键创新: 不同于传统的自回归生成,该方法通过概率分布的后处理采样,减少了自回归生成中的偏差累积,同时利用 LLMs 的隐式知识建模复杂分布。
Experiment
- 数据集与设置: 实验基于加利福尼亚州人口分布数据(来自美国人口普查局),涉及年龄组和种族组两个主要变量,生成包含 10,000 行的合成数据集,比较了表级生成、逐单元生成和概率驱动提示方法的效果。
- 效果对比: 表级生成速度快,但分布平滑过度,未能准确捕捉年龄与种族的依赖关系;逐单元生成未能保持人口异质性,分布近乎均匀;概率驱动提示方法在保持年龄依赖的种族分布方面表现最佳,生成的合成数据与真实分布最为接近,尤其在主导群体和少数群体的平衡上表现优异。
- 计算效率: 该方法无论生成多少行数据,LLM 调用次数固定在分布级查询(5-6 次),相比逐单元生成的高计算成本具有显著优势。
- 局限性: 实验设置较为简单,仅基于一个低维度数据集,是否能在更复杂或高不平衡数据集上保持同样效果仍需进一步验证。
Further Thoughts
论文提出的概率驱动提示方法启发了我思考如何进一步挖掘 LLMs 的隐式知识用于结构化数据生成任务,例如时间序列或图数据的合成。 是否可以通过结合其他概率模型(如贝叶斯网络)增强条件分布建模能力? 此外,该方法是否可以与领域特定数据的微调结合,进一步提升生成数据的定制化能力,适应更广泛的应用场景?