Omar Sanseviero(osanseviero)：OmniAudio发布啦！超快的本地语音LLM，拥有2.6B个参数，支持文本和音频的多模态输入，统一了Gemma和Whisper

齐思GPT 2024-12-18 00:00:00 362

Omar Sanseviero宣布推出了OmniAudio，这是一款以其出色的速度而闻名的尖端本地语音语言模型。拥有26亿个参数，这个模型的独特之处在于它能够处理多模态输入，即可以处理文本和音频数据。OmniAudio之所以引人注目，是因为它集成了统一Gemma和Whisper的功能，可能为语音和语言处理任务提供更多样化和强大的工具。对于那些对技术细节感兴趣或想要看到模型实际运行的人，Sanseviero提供了一篇博客文章和一个演示链接。这对于对先进的语音识别和处理技术感兴趣的开发人员和研究人员可能是一个重要的发展。- OmniAudio是一种超快的本地语音LLM - 参数为2.6B - 支持多模态输入：文本和音频 - 统一了Gemma和Whisper - 提供博客和演示链接

登录后可评论

上一篇：2025，中国VC/PE怎么投

下一篇：Ethan Mollick(emollick)：o1-preview展示了在不同诊断、临床推理和管理推理方面表现出超人类水平的性能，相比之前的模型和人类医生。而且这是使用情景描述而不是多项选择题。根据OpenAI最新的论文，o1-preview在推理任务上远远优于医生，差距甚至很大。AI在143个难度较高的NEJM CPC诊断中的表现是80%对30%。现在不信任医生而不咨询AI模型是危险的。

上一篇：2025，中国VC/PE怎么投下一篇：Ethan Mollick(emollick)：o1-preview展示了在不同诊断、临床推理和管理推理方面表现出超人类水平的性能，相比之前的模型和人类医生。而且这是使用情景描述而不是多项选择题。根据OpenAI最新的论文，o1-preview在推理任务上远远优于医生，差距甚至很大。AI在143个难度较高的NEJM CPC诊断中的表现是80%对30%。现在不信任医生而不咨询AI模型是危险的。