开发者工具 / 自托管应用 / 视频 / 音频 AI

voxtream

低延迟全流式零样本 TTS 模型

质量分92

230 Stars

2026-05-24T22:48:54Z

unknown

medium

中文速读

VoXtream：低延迟全流式零样本 TTS 模型。适合：研究低延迟语音合成的开发者；想试验声音克隆/流式输出的人。不适合：需要成熟商用语音服务 SLA 的团队；不能接受模型效果需评估的人。核心功能包括：流式 TTS、零样本语音、Docker/Hugging Face。快速试用：README 提供安装或快速开始步骤，可按项目说明做小规模试用。部署难度：medium。在当前信息下值得进入候选清单。

快速试用

在线体验live_app Hugging Face Spacehuggingface_space

适合

研究低延迟语音合成的开发者
想试验声音克隆/流式输出的人

不适合

需要成熟商用语音服务 SLA 的团队
不能接受模型效果需评估的人

选型答案

voxtream 适合什么场景？研究低延迟语音合成的开发者；想试验声音克隆/流式输出的人

voxtream 的试用和部署门槛如何？已发现 2 个试用、文档或演示入口，可从页面的“快速试用”区域打开。当前难度标记为“中等难度”，许可证记录为“unknown”。

选择 voxtream 时要注意什么？需要成熟商用语音服务 SLA 的团队；不能接受模型效果需评估的人

数据来源和更新时间GitHub 仓库 herimor/voxtream，最近记录的推送时间为 2026-05-24T22:48:54Z。

标签

视频 / 音频 AIPythonspeech-synthesisstreamingtext-to-speechttsvoice-cloning