本文提出了一种量化语言生成中广度与有效性权衡的密度度量方法,基于极限语言生成框架,通过动态调整、回退机制、令牌系统和树结构优化生成算法,确保高密度输出。
本文提出 ThoughtMani,一种无需训练的方法,通过利用小模型生成的链式思维(CoT)减少大型推理模型的冗余推理,提升效率和安全性。
本文提出反蒸馏采样方法,通过在生成时毒化大语言模型的推理轨迹来干扰模型蒸馏,同时保持原始模型性能。
提出Meta-LoRA,一个基于元学习的LoRA框架,通过学习共享的LoRA底层组件来编码领域先验,实现扩散模型(如FLUX.1)高效且高保真度的少样本身份个性化。发布了新的评测基准Meta-PHD和指标R-FaceSim。
提出经验性超参数缩放定律 (Step Law),可根据模型和数据规模精确估算最优Batch Size和Learning Rate,并在不同模型结构、稀疏度、数据分布下表现稳健。
提出EditAR,一个基于LlamaGen的统一自回归框架,通过处理token化的图像和文本输入,结合DINOv2特征蒸馏,能够处理图像编辑、depth-to-image、edge-to-image、segmentation-to-image等多种条件生成任务。
论文认为,得益于强大的分割模型 (如HQES, SAM),无监督的物体发现任务已基本解决。提出OCCAM探测框架,论证OCL的重心应转向利用对象中心表示解决OOD泛化、组合性等下游挑战,而非继续优化分割机制。
提出Trelawney训练方法,通过在训练序列中显式插入用特殊标记(<T>, </T>)界定的未来信息(lookahead tokens),使语言模型学习规划和利用未来目标,提升其在规划、算法推理和故事生成等任务上的表现。