MinMo：一种用于无缝语音交互的多峰值大型语言模型

阎荟 2025-01-15 00:00:00 1087

MinMo代表了语音交互技术的重大飞跃，引入了一个拥有大约80亿参数的多模态大型语言模型，旨在促进自然和实时对话。MinMo的独特之处在于其在理解和生成语音方面的最先进性能，通过对140万小时各种语音数据的广泛训练而实现。与以往模型不同，MinMo可以处理全双工对话，实现同时双向通信，就像自然的人类对话一样。此外，其新颖的语音解码器提供了先进的语音生成能力，包括能够以特定情感和方言细微差别遵循指令的能力。具有约100毫秒的极低语音转文本延迟和实际全双工延迟为800毫秒，MinMo有望彻底改变我们与机器的互动方式。该项目网页的即将发布的代码和模型表明，MinMo很快将可供进一步开发和应用，成为对语音交互领域的开发人员和研究人员具有潜在变革性的工具。- MinMo是一个多模态大型语言模型，具有约80亿个参数，用于实现无缝语音交互。 - MinMo通过多个阶段的语音到文本对齐、文本到语音对齐、语音到语音对齐和双工交互对齐进行训练，使用了140万小时的多样化语音数据和广泛的语音任务。 - MinMo在语音理解和生成方面取得了最先进的性能，并且支持全双工对话。 - MinMo提供了一个新颖且简单的语音解码器，优于以前的模型在语音生成方面的表现。 - MinMo的语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际上约为800毫秒。 - MinMo项目网页为https://funaudiollm.github.io/minmo，代码和模型即将发布。

登录后可评论

上一篇：Paul Graham(paulg)：等待ChatGPT回答时，我感到一种似曾相识的感觉，就像1996年等待网页加载一样。这就是未来的感觉，新事物几乎跟不上需求，但人们非常渴望它，所以他们愿意忍受延迟

下一篇：黄仁勋本周将赴京沪深；阿里美团携程到小红书发英文帖揽客；知名博主试驾法拉第 FF91:基本没优点｜极客早知道

上一篇：Paul Graham(paulg)：等待ChatGPT回答时，我感到一种似曾相识的感觉，就像1996年等待网页加载一样。这就是未来的感觉，新事物几乎跟不上需求，但人们非常渴望它，所以他们愿意忍受延迟下一篇：黄仁勋本周将赴京沪深；阿里美团携程到小红书发英文帖揽客；知名博主试驾法拉第 FF91:基本没优点｜极客早知道