MinMo:一种用于无缝语音交互的多峰值大型语言模型
阎荟
2025-01-15 00:00:00
690
MinMo代表了语音交互技术的重大飞跃,引入了一个拥有大约80亿参数的多模态大型语言模型,旨在促进自然和实时对话。MinMo的独特之处在于其在理解和生成语音方面的最先进性能,通过对140万小时各种语音数据的广泛训练而实现。与以往模型不同,MinMo可以处理全双工对话,实现同时双向通信,就像自然的人类对话一样。此外,其新颖的语音解码器提供了先进的语音生成能力,包括能够以特定情感和方言细微差别遵循指令的能力。
MinMo代表了语音交互技术的重大飞跃,引入了一个拥有大约80亿参数的多模态大型语言模型,旨在促进自然和实时对话。MinMo的独特之处在于其在理解和生成语音方面的最先进性能,通过对140万小时各种语音数据的广泛训练而实现。与以往模型不同,MinMo可以处理全双工对话,实现同时双向通信,就像自然的人类对话一样。此外,其新颖的语音解码器提供了先进的语音生成能力,包括能够以特定情感和方言细微差别遵循指令的能力。具有约100毫秒的极低语音转文本延迟和实际全双工延迟为800毫秒,MinMo有望彻底改变我们与机器的互动方式。该项目网页的即将发布的代码和模型表明,MinMo很快将可供进一步开发和应用,成为对语音交互领域的开发人员和研究人员具有潜在变革性的工具。- MinMo是一个多模态大型语言模型,具有约80亿个参数,用于实现无缝语音交互。
- MinMo通过多个阶段的语音到文本对齐、文本到语音对齐、语音到语音对齐和双工交互对齐进行训练,使用了140万小时的多样化语音数据和广泛的语音任务。
- MinMo在语音理解和生成方面取得了最先进的性能,并且支持全双工对话。
- MinMo提供了一个新颖且简单的语音解码器,优于以前的模型在语音生成方面的表现。
- MinMo的语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际上约为800毫秒。
- MinMo项目网页为https://funaudiollm.github.io/minmo,代码和模型即将发布。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。