Tag: LLM
All the papers with the tag "LLM".
Bielik 11B v2 Technical Report
grok-3-latestScore: 0.66Published: at 07:03本文提出 Bielik 11B v2,一个针对波兰语优化的高效语言模型,通过深度扩展、创新训练方法和高质量数据,在波兰语任务上实现与更大模型相当的性能,同时保持参数效率和部署灵活性。
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
grok-3-latestScore: 0.58Published: at 06:26本文提出GVM-RAFT方法,通过动态采样分配策略最小化梯度方差,显著提升大型语言模型在链式思维推理任务中的训练效率和性能。
RM-R1: Reward Modeling as Reasoning
grok-3-latestScore: 0.83Published: at 06:11本文提出 RM-R1 模型家族, 通过将奖励建模转化为推理任务,利用蒸馏和强化学习显著提升了奖励模型的解释性和性能,超越了更大规模的开源和商业模型。
RM-R1: Reward Modeling as Reasoning
grok-3-latestScore: 0.83Published: at 06:11本文提出将奖励建模作为推理任务的范式,通过推理链蒸馏和强化学习训练 RM-R1 模型,显著提升了奖励模型的解释性和性能,超越了更大规模的开源和闭源模型。
Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques
grok-3-latestScore: 0.70Published: at 01:27本文综述了大型语言模型(LLMs)在资源受限环境中的压缩技术,包括知识蒸馏、模型量化和模型剪枝,系统分析了其原理、变体及应用效果,并探讨了未来研究方向,为边缘设备部署 LLMs 提供了重要参考。
Parameter-Efficient Transformer Embeddings
grok-3-latestScore: 0.84Published: at 21:47本文提出一种参数高效的 Transformer 嵌入方法,通过傅里叶展开和轻量 MLP 替代传统嵌入矩阵,显著减少参数量和训练时间,同时在小规模实验中保持竞争性能。