Skip to content

TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering

grok-3-latest
Score: 0.62
Published: at 17:12

Summary: 本文提出 TRANS PRO QA,一种基于 LLM 的问答框架,通过融入专业翻译者视角评估文学翻译质量,显著提升了与人类判断的相关性和充分性,超越现有 SOTA 指标。

Keywords: LLM, Literary Translation, Evaluation Metric, Question Answering, Cultural Adaptation

Authors: Ran Zhang, Wei Zhao, Lieve Macken, Steffen Eger

Institution(s): University of Mannheim, University of Aberdeen, University of Gent, University of Technology Nuremberg, Natural Language Learning and Generation Lab

Problem Background

大型语言模型(LLMs)在文学翻译等创意领域的应用日益广泛,但现有自动评估指标(如 BLEU, BERTScore, XCOMET)主要关注语义准确性和语言流畅性,忽视了文学翻译中关键的文学特质,包括文化背景、文学修辞和作者风格,导致机器翻译(MT)常被高估,而专业人类翻译的价值被低估,长期可能损害翻译质量和文化真实性。 论文旨在开发一个专门针对文学翻译的评估指标,解决现有指标无法捕捉文学细微差别、缺乏专业翻译者视角的问题。

Method

Experiment

Further Thoughts

TRANS PRO QA 通过 QA 形式将人类专家的评估标准结构化地融入 LLM 评估,这一思路启发我们可以在其他主观性强的领域(如诗歌生成、叙事创作)设计领域特定问题列表,提升评估的细粒度和对齐度;此外,翻译者投票加权的机制提示未来可以探索动态权重调整或多轮专家反馈机制,以进一步逼近人类评估水平;最后,其无训练特性表明提示工程可能在特定领域评估中比微调更高效,值得研究如何通过精心设计的提示框架最大化利用现有模型能力。