我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

论文
高效的大语言模型调度:通过学习排序实现
摘要:在大语言模型(LLM)推断中,通常将LLM请求的输出长度视为先验未知。因此,大多数LLM服务系统采用简单的先来先服务(FCFS)调度策略,导致头阻塞(HOL)和降低吞吐量和服务质量。本文重新审视这一假设--尽管预测每个请求的确切生成长度是不可行的,但可以使用学习排名预测批量请求中输出长度的相对等级。排名信息为调度请求提供了有价值的指导。基于这一洞见,我们开发了一种新颖的LLM推断和服务调度器,可以更好地逼近最短作业优先(SJF)调度比现有方法更好。我们将这个调度器与最先进的LLM服务系统集成,并在几个重要应用中显示出显著的性能提升:聊天机器人服务延迟降低了2.8倍,合成数据生成吞吐量提高了6.5倍。我们的代码可在https://github.com/hao-ai-lab/vllm-ltr.git获取。
http://arxiv.org/abs/2408.15792v1
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。