微软 VibeVoice 开源框架可在单次推理中生成长达 90 分钟、4 人自然轮替的高保真对话音频,支持中英跨语言与情感表达,适用于播客、有声书、教育培训等场景。
核心功能
- 超长连续合成:单条音频最长 90 min,无音色漂移、无语义断裂。
- 多说话人一致性:最多 4 位角色同时在线,音色与情感全程稳定。
- 跨语言 & 唱歌:中英混合文本无缝切换,并具备即兴旋律生成能力。
- 实时流式输出:逐句生成,支持边录边播的播客场景。
- 高压缩率:24 kHz 原始音频压缩至 7.5 Hz 标记,计算量降低 3-6 倍。
- 完全开源:1.5B / 7B 双权重、MIT 许可,可商用可魔改。
技术原理
- 连续语音标记化:语义 + 声学双 Tokenizer,7.5 Hz 超低帧率保留高保真。
- LLM+扩散模型:Qwen2.5-1.5B 负责上下文与角色轮换,扩散头逐步合成波形。
- 说话者嵌入:Speaker Embedding 确保长文本中多人音色一致。
- 显存优化:梯度检查点 + FP16 混合精度,RTX 3060 8 GB 即可运行 90 min 推理。
适用场景
- 播客/有声书:一键生成多角色长篇播客或广播剧。
- 教育培训:虚拟老师与学生互动,提升学习沉浸感。
- 游戏/虚拟角色:为 NPC 赋予稳定且富情感的语音。
- 商业演示:多角色产品解说、企业培训视频。
快速上手
- 克隆 GitHub 仓库:
git clone https://github.com/microsoft/VibeVoice.git
- 安装依赖:
pip install -e .
并下载预训练权重 - 运行 CLI 或调用 Hugging Face API,输入长文本即可生成 90 min 音频
目前项目 100% 开源免费,无官方付费计划;后续如需企业级支持可关注官方公告。
相关导航
暂无评论...