Tag: Robustness
All the papers with the tag "Robustness".
How well do LLMs reason over tabular data, really?
grok-3-latestScore: 0.70Published: at 11:35本文通过提出 LLM-as-a-judge 评估方法和引入现实世界表格特性,揭示了大型语言模型在表格推理上的显著性能不足,并强调了提升鲁棒性的必要性。
All the papers with the tag "Robustness".
本文通过提出 LLM-as-a-judge 评估方法和引入现实世界表格特性,揭示了大型语言模型在表格推理上的显著性能不足,并强调了提升鲁棒性的必要性。