VibeVoice
美国
AI音频语音合成

VibeVoice

微软 VibeVoice 开源模型可一次性生成 90 分钟、多角色、高保真对话音频,支持中英跨语言,适用于播客、有声书与虚拟角色。

标签:
其他站点:演示使用地址

微软 VibeVoice 开源框架可在单次推理中生成长达 90 分钟、4 人自然轮替的高保真对话音频,支持中英跨语言与情感表达,适用于播客、有声书、教育培训等场景。

核心功能

  • 超长连续合成:单条音频最长 90 min,无音色漂移、无语义断裂。
  • 多说话人一致性:最多 4 位角色同时在线,音色与情感全程稳定。
  • 跨语言 & 唱歌:中英混合文本无缝切换,并具备即兴旋律生成能力。
  • 实时流式输出:逐句生成,支持边录边播的播客场景。
  • 高压缩率:24 kHz 原始音频压缩至 7.5 Hz 标记,计算量降低 3-6 倍。
  • 完全开源:1.5B / 7B 双权重、MIT 许可,可商用可魔改。

技术原理

  1. 连续语音标记化:语义 + 声学双 Tokenizer,7.5 Hz 超低帧率保留高保真。
  2. LLM+扩散模型:Qwen2.5-1.5B 负责上下文与角色轮换,扩散头逐步合成波形。
  3. 说话者嵌入:Speaker Embedding 确保长文本中多人音色一致。
  4. 显存优化:梯度检查点 + FP16 混合精度,RTX 3060 8 GB 即可运行 90 min 推理。

适用场景

  • 播客/有声书:一键生成多角色长篇播客或广播剧。
  • 教育培训:虚拟老师与学生互动,提升学习沉浸感。
  • 游戏/虚拟角色:为 NPC 赋予稳定且富情感的语音。
  • 商业演示:多角色产品解说、企业培训视频。

快速上手

  1. 克隆 GitHub 仓库:git clone https://github.com/microsoft/VibeVoice.git
  2. 安装依赖:pip install -e . 并下载预训练权重
  3. 运行 CLI 或调用 Hugging Face API,输入长文本即可生成 90 min 音频

目前项目 100% 开源免费,无官方付费计划;后续如需企业级支持可关注官方公告。

相关导航

暂无评论

暂无评论...