Daily Paper Machine

Tag: Compression

All the papers with the tag "Compression".

QuantX: A Framework for Hardware-Aware Quantization of Generative AI Workloads
grok-3-latest
Score: 0.58
Published:2025年5月12日 at 13:13
#LLM, #Quantization, #Hardware Awareness, #Post-Training, #Compression
QuantX 提出了一种硬件感知的量化框架，通过针对权重分布差异和硬件约束设计多种量化策略，将大型语言模型和视觉语言模型量化到3比特，同时保持性能损失在6%以内，显著优于现有方法。
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
grok-3-latest
Score: 0.70
Published:2025年5月8日 at 01:40
#LLM, #Reasoning, #Compression, #Confidence Guidance
本文提出 ConCISE 框架，通过信心引导的推理压缩方法，显著减少大型推理模型的推理链冗余，同时保持高准确率，为高效推理提供了新途径。
FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension
grok-3-latest
Score: 0.66
Published:2025年5月1日 at 14:53
#LLM, #Context Extension, #KV Cache, #Frequency Domain, #Compression
本文提出 FreqKV 方法，通过频率域中 KV 状态的低频分量保留实现高效压缩，显著扩展大型语言模型的上下文窗口，同时保持性能和降低计算与内存开销。