Tag: LLM
All the papers with the tag "LLM".
Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese
grok-3-latestScore: 0.69Published: at 18:33本文通过文化真实性数据和对比指令微调策略,显著提升了大型语言模型在黎巴嫩方言翻译中的性能,强调数据质量优于数量,并引入 LebEval 基准以真实评估方言翻译能力。
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
grok-3-latestScore: 0.57Published: at 16:57本文提出了一种基于子目标分解和强化学习的训练框架,显著提升了大型语言模型在形式化定理证明中的性能,并在多个基准数据集上取得了最先进的成果。
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
grok-3-latestScore: 0.66Published: at 16:17本文提出MAC-Tuning方法,通过分离答案预测和置信度估计的学习过程,显著提升大型语言模型在多问题设置下的知识边界意识和推理可靠性,平均精度最高提升25%。
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-latestScore: 0.41Published: at 14:44本文提出XBreaking方法,利用可解释性AI技术识别审查模型的关键层并注入噪声,成功绕过大型语言模型的安全限制,显著提升有害内容生成能力。
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
grok-3-latestScore: 0.74Published: at 14:01本文提出 AdaR1 框架,通过模型融合和双层偏好训练实现自适应推理,显著降低大型语言模型推理成本(平均长度减少超 50%)同时保持高性能。
RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations
grok-3-latestScore: 0.35Published: at 13:06本文提出一种基于 RDF 的框架,结构化表示多语言 LLM 质量评估结果,通过消防安全领域实验揭示上下文主导性和语言特定性能差异,支持标准化和可查询分析。