Speaches v0.6.0 - Kokoro-82M and PiperTTS API endpoints

齐思GPT 2025-01-14 00:00:00 487

Speaches v0.6.0 是一次重要的更新，为对文本转语音技术感兴趣的用户带来了支持备受好评的 Kokoro 和 Piper TTS 模型的功能。这个版本之前被称为 `faster-whisper-server`，它的独特之处在于与 GPU 和 CPU 兼容，并且可以通过 Docker 部署，使其对广泛用户群体来说既方便又易于访问。值得注意的是，它与 OpenAI 的 API 兼容，确保现有工具和 SDK 可以无缝集成。使用 LocalAgreement2 算法的流式支持实时转录是对需要实时功能的用户的一个显著特点。具有动态模型加载功能，并承诺未来更新包括音频生成和情感分析，Speaches v0.6.0 有望成为开发人员和研究人员在语音处理领域的多功能工具。该项目的 GitHub 存储库和全面的文档使用户可以轻松入门并探索新功能。- Speaches v0.6.0发布，支持Piper和Kokoro文本到语音模型。 - 特性包括GPU和CPU支持，Docker部署，可配置性，与OpenAI API兼容，流媒体支持，实时转录支持，动态模型加载/卸载以及通过Kokoro和Piper模型的TTS。 - 未来更新将包括音频生成，对录音的情感分析和语音对话交互。 - 可在GitHub上找到文档和项目细节。 - 提供TTS功能演示。 - 发布的hugging face空间目前存在问题，但使用Docker可以在本地使用GradioUI。

登录后可评论

上一篇：NielsRogge(flngr)：NielsRogge很兴奋地分享ViTPose（和ViTPose++）现在可以在huggingface Transformers中使用了！这两个模型采用简单的设计（纯ViT骨干），在一般身体估计方面取得了最先进的结果，适用于人类和动物。++版本还添加了一个MoE链接

下一篇：DocWrangler是由Shreya Shankar开发的一款新颖的开源IDE，旨在增强AI驱动的数据处理能力