大模型日报（8月29日学术篇）

LLM SPACE LLM SPACE 2024年08月30日 01:10

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

高效的大语言模型调度：通过学习排序实现

摘要：在大语言模型（LLM）推断中，通常将LLM请求的输出长度视为先验未知。因此，大多数LLM服务系统采用简单的先来先服务（FCFS）调度策略，导致头阻塞（HOL）和降低吞吐量和服务质量。本文重新审视这一假设--尽管预测每个请求的确切生成长度是不可行的，但可以使用学习排名预测批量请求中输出长度的相对等级。排名信息为调度请求提供了有价值的指导。基于这一洞见，我们开发了一种新颖的LLM推断和服务调度器，可以更好地逼近最短作业优先（SJF）调度比现有方法更好。我们将这个调度器与最先进的LLM服务系统集成，并在几个重要应用中显示出显著的性能提升：聊天机器人服务延迟降低了2.8倍，合成数据生成吞吐量提高了6.5倍。我们的代码可在https://github.com/hao-ai-lab/vllm-ltr.git获取。