【论文专辑】2024年大模型推理优化论文精选第六期
阎荟
2025-01-08 00:00:00
264
本指南是对OSDI 2024和SOSP 2024会议中关于优化大型语言模型(LLM)推理的研究论文的精选汇编。它涵盖了提升LLM性能和效率的创新解决方案,对于需要自然语言处理的应用至关重要。Parrot系统通过分析语义变量并公开应用级信息来优化LLM请求。ServerlessLLM通过分层存储和优化模型加载来解决无服务器LLM推理中的冷启动延迟问题。dLoRA动态地协调请求和适配器,优化处理LLM推理中不同类型的请求。Sarathi-Serve实现了无停顿批处理,以平衡LLM推理的吞吐量和延迟。
本指南是对OSDI 2024和SOSP 2024会议中关于优化大型语言模型(LLM)推理的研究论文的精选汇编。它涵盖了提升LLM性能和效率的创新解决方案,对于需要自然语言处理的应用至关重要。Parrot系统通过分析语义变量并公开应用级信息来优化LLM请求。ServerlessLLM通过分层存储和优化模型加载来解决无服务器LLM推理中的冷启动延迟问题。dLoRA动态地协调请求和适配器,优化处理LLM推理中不同类型的请求。Sarathi-Serve实现了无停顿批处理,以平衡LLM推理的吞吐量和延迟。DistServe通过分解预填充和解码计算来优化资源分配并实现负载平衡。Llumnix通过动态调度LLM服务来提高性能并解决内存碎片化问题。InfiniGen通过预测和预加载重要的键值缓存来减少LLM推理中的数据传输开销。LoongServe通过弹性序列并行性高效服务长上下文LLM,适应不同的请求和阶段。PowerInfer通过利用神经元激活的幂律分布并设计GPU-CPU混合推理引擎,在消费级GPU上实现快速LLM推理。这是一份对于对LLM推理优化的最新进展感兴趣的人来说极具价值的资源,提供了改善性能、资源利用和可扩展性的洞见。- OSDI和SOSP是计算机操作系统领域最重要的两大国际会议。
- OSDI 2024和SOSP 2024共有10篇与大语言模型推理优化相关的论文。
- Parrot系统通过语义变量实现对LLM请求的依赖关系分析和优化。
- ServerlessLLM通过层次化的存储和加载优化解决LLM无服务器推理中的模型加载延迟问题。
- dLoRA通过动态批处理技术和主动被动机制解决PEFT推理LLM中的负载不平衡问题。
- Sarathi-Serve通过Chunked-Prefill实现无停滞批处理,平衡吞吐量和延迟。
- DistServe将预填充和解码计算分配到不同的GPU上,实现性能目标的独立优化。
- Llumnix通过动态调度和无缝迁移实现对异构和不可预测请求的处理。
- InfiniGen利用CPU内存预测重要的KV Cache并减少GPU显存压力。
- LoongServe通过弹性序列并行实现对长上下文LLM的高效服务。
- PowerInfer通过GPU-CPU混合推理和神经元激活预测实现在消费级GPU上的高速LLM推理。

版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论