Tags
1 page
预训练
每日论文:Predictable Scale: Part I — 大模型预训练超参数缩放定律