Skip to content

Large Language Model Partitioning for Low-Latency Inference at the Edge

grok-3-latest
Score: 0.63
Published: at 10:16

Summary: 本文提出一种资源感知的 Transformer 分区算法,通过注意力头级别的细粒度分区和动态块迁移,显著降低边缘环境下大型语言模型的推理延迟并优化内存使用。

Keywords: LLM, Edge Computing, Transformer Partitioning, Resource Allocation, Low-Latency Inference

Authors: Dimitrios Kafetzis, Ramin Khalili, Iordanis Koutsopoulos

Institution(s): Athens University of Economics and Business, Huawei European Research Center

Problem Background

大型语言模型(LLMs)在边缘设备上的推理面临低延迟挑战。由于边缘设备资源有限,而 LLMs 的自回归解码特性导致推理过程中内存和计算需求(尤其是 K/V 缓存)随 token 数量增加而持续增长,传统静态层级分区方法容易引发内存超载和高延迟。本文旨在通过更细粒度的分区和动态资源分配,降低推理延迟,充分利用边缘设备的集体资源。

Method

Experiment

Further Thoughts

注意力头级别的细粒度分区和动态资源分配是一个极具启发性的想法,不仅适用于 LLMs,也可能推广到其他深度学习模型(如视觉 Transformer 或多模态模型)在边缘环境下的分布式推理;此外,‘短视’策略可以通过引入有限预测(如基于历史资源使用模式)进一步优化;另一个方向是结合能量约束或请求负载预测,探索更真实的边缘场景应用。