Skip to content

Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity

grok-3-latest
Score: 0.62
Published: at 05:29

Summary: 本文提出 Comet 系统,通过预测激活稀疏性并设计高效私有推理协议,在保护隐私的同时显著加速大型语言模型的推理,实现了 1.87× 到 2.63× 的性能提升。

Keywords: LLM, Activation Sparsity, Private Inference, MPC, Sparse Computation

Authors: Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou

Institution(s): State Key Laboratory of Cyberspace Security Defense, Institute of Information Engineering, CAS, University of Chinese Academy of Sciences, Tsinghua University

Problem Background

随着大型语言模型(LLM)广泛部署在云端提供推理服务,用户输入的敏感数据面临隐私泄露风险。 安全多方计算(MPC)是一种有效的隐私保护方法,但其在 LLM 推理中的应用受到高通信开销的限制,尤其是在处理大规模模型时,通信时间占比超过 85%。 论文注意到 LLM 的激活稀疏性(Activation Sparsity),即非线性激活函数(如 ReLU)后大量神经元输出为零,若能预测并跳过这些零值相关的计算和通信,可显著提升私有推理效率。

Method

Experiment

Further Thoughts

激活稀疏性作为 LLM 的固有特性,不仅可用于 MPC 场景的私有推理加速,还可能启发其他隐私计算框架(如联邦学习)中的稀疏性优化策略;遗忘洗牌技术在保护隐私的同时实现高效索引,对隐私保护的数据处理任务(如安全数据库查询)具有借鉴意义;KV 缓存管理中的成本-收益预取机制,可推广至其他缓存优化问题,动态平衡计算与通信开销。