Tag: Compression
All the papers with the tag "Compression".
QuantX: A Framework for Hardware-Aware Quantization of Generative AI Workloads
grok-3-latestScore: 0.58Published: at 13:13QuantX 提出了一种硬件感知的量化框架,通过针对权重分布差异和硬件约束设计多种量化策略,将大型语言模型和视觉语言模型量化到3比特,同时保持性能损失在6%以内,显著优于现有方法。
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
grok-3-latestScore: 0.70Published: at 01:40本文提出 ConCISE 框架,通过信心 引导的推理压缩方法,显著减少大型推理模型的推理链冗余,同时保持高准确率,为高效推理提供了新途径。
FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension
grok-3-latestScore: 0.66Published: at 14:53本文提出 FreqKV 方法,通过频率域中 KV 状态的低频分量保留实现高效压缩,显著扩展大型语言模型的上下文窗口,同时保持性能和降低计算与内存开销。