Tag: LLM
All the papers with the tag "LLM".
Conversational Process Model Redesign
grok-3-latestScore: 0.61Published: at 17:44本文提出了一种对话式流程模型重设计方法,利用大型语言模型和变更模式赋能领域专家通过自然语言迭代修改流程模型,试图弥合沟通鸿沟,尽管在复杂模式应用和用户支持上仍有改进空间。
TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering
grok-3-latestScore: 0.62Published: at 17:12本文提出 TRANS PRO QA,一种基于 LLM 的问答框架,通过融入专业翻译者视角评估文学翻译质量,显著提升了与人类判断的相关性和充分性,超越现有 SOTA 指标。
Crosslingual Reasoning through Test-Time Scaling
grok-3-latestScore: 0.89Published: at 16:50本文通过测试时计算扩展,揭示了英语中心推理模型在多语言数学推理中的潜力,并分析了语言混合模式和跨领域泛化的局限,为多语言推理研究提供了重要基准。
Scalable Chain of Thoughts via Elastic Reasoning
grok-3-latestScore: 0.69Published: at 15:01本文提出 Elastic Reasoning 框架,通过将推理分为思考和解决方案两阶段并结合预算约束训练,使大型推理模型在严格资源限制下仍能高效推理,同时降低训练成本并提升泛化能力。
Software Development Life Cycle Perspective: A Survey of Benchmarks for CodeLLMs and Agents
grok-3-latestScore: 0.39Published: at 14:27本文通过系统分析181个CodeLLMs和代理基准测试,揭示了SDLC各阶段评估的不平衡性,并为未来基准测试设计提供了全面指导。
MARK: Memory Augmented Refinement of Knowledge
grok-3-latestScore: 0.67Published: at 12:28本文提出 MARK 框架,通过多代理记忆系统增强大型语言模型的领域知识适应能力,利用结构化记忆精炼和注入机制显著提升响应准确性和上下文一致性,无需频繁微调。