Skip to content

How well do LLMs reason over tabular data, really?

grok-3-latest
Score: 0.70
Published: at 11:35

Summary: 本文通过提出 LLM-as-a-judge 评估方法和引入现实世界表格特性,揭示了大型语言模型在表格推理上的显著性能不足,并强调了提升鲁棒性的必要性。

Keywords: LLM, Tabular Data, Reasoning, Evaluation Metrics, Robustness

Authors: Cornelius Wolff, Madelon Hulsebos

Institution(s): Centrum Wiskunde & Informatica

Problem Background

大型语言模型(LLMs)在自然语言任务上表现出色,但其在表格数据上的推理能力尚未被充分验证,尤其是在面对现实世界中常见的表格特性(如缺失值、重复实体、结构变化)时;此外,现有评估方法(如 SacreBleu 和 BERT-score)无法准确反映模型在分析性表格查询上的真实性能,部分基准测试(如 TQA-Bench)通过多选题形式泄露标准答案,影响评估可靠性,因此论文聚焦于探讨 LLMs 在现实表格数据下的推理鲁棒性以及如何更真实地评估其性能。

Method

Experiment

Further Thoughts

LLM-as-a-judge 方法可推广至其他复杂生成任务的评估,如开放式问答或代码生成;通过针对缺失值和重复实体进行数据增强或结合传统数据库查询技术,或许能提升 LLMs 在表格推理中的鲁棒性;此外,训练模型生成带有不确定性声明的答案(如承认数据缺失)可能提高下游任务的可信度。