FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

阎荟 2025-03-14 00:00:00 85

清华大学开发的DeepSeek在AI效率方面取得了重大进展，使FP8模型能夜在更广泛的GPU上运行，而不仅仅是专门的H卡。这一创新集中体现在Chitu引擎中，其能够将推理成本减半，部署大型模型的速度提高一倍。Chitu是开源的，适用于各种计算环境，对于寻求成本效益的企业来说，它是一个改变游戏规则的工具，提供了大型模型部署解决方案。其发布标志着中国国内AI能力的重要进步，有望减轻芯片制造商的软件开发负担，并促进国内芯片行业的合作。对于那些对AI和硬件优化交叉点感兴趣的人来说，Chitu引擎代表着一个值得关注的重要进步。- 清华大学翟季冬教授团队与清程极智联合开源大模型推理引擎「赤兔」。 - 赤兔引擎实现了非 H 卡设备上运行原生 FP8 模型的突破。 - 在 A800 集群上的实测数据显示，使用赤兔引擎部署 DeepSeek-671B 满血版推理服务，GPU 数量减少了50%，输出速度提升了3.15倍。 - 赤兔引擎提供多元算力适配、全场景可伸缩和长期稳定运行等重要特性。 - 赤兔引擎通过高效处理 FP8 数据实现了非 H 卡设备上的原生运行。 - 赤兔引擎的开源有助于弥合国产芯片与国际先进芯片之间的「时间差」，并减轻芯片厂商的软件开发负担。

登录后可评论

上一篇：清华系具身大脑公司完成数千万元融资，获多家产业方支持｜硬氪首发

下一篇：没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

上一篇：清华系具身大脑公司完成数千万元融资，获多家产业方支持｜硬氪首发下一篇：没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了