Tag: Parameter Efficiency
All the papers with the tag "Parameter Efficiency".
Bielik v3 Small: Technical Report
grok-3-latestScore: 0.67Published: at 10:39本文通过创新架构设计、高质量波兰语数据处理和高效训练策略,开发了参数高效的 Bielik v3 模型(1.5B 和 4.5B),为资源受限语言的语言模型开发树立了新标杆。
SEFE: Superficial and Essential Forgetting Eliminator for Multimodal Continual Instruction Tuning
grok-3-latestScore: 0.61Published: at 09:09本文提出 SEFE 方法,通过 ASD 范式和 RegLoRA 分别缓解多模态持续指令微调中的表面遗忘和本质遗忘,显著提升模型在持续学习中的性能。
Bielik 11B v2 Technical Report
grok-3-latestScore: 0.66Published: at 07:03本文提出 Bielik 11B v2,一个针对波兰语优化的高效语言模型,通过深度扩展、创新训练方法和高质量数据,在波兰语任务上实现与更大模型相当的性能,同时保持参数效率和部署灵活性。
Parameter-Efficient Transformer Embeddings
grok-3-latestScore: 0.84Published: at 21:47本文提出一种参数高效的 Transformer 嵌入方法,通过傅里叶展开和轻量 MLP 替代传统嵌入矩阵,显著减少参数量和训练时间,同时在小规模实验中保持竞争性能。