VibeVoice - 微软开源90分钟超长多说话人语音合成模型

微软 VibeVoice 开源框架可在单次推理中生成长达 90 分钟、4 人自然轮替的高保真对话音频，支持中英跨语言与情感表达，适用于播客、有声书、教育培训等场景。

核心功能

目前项目 100% 开源免费，无官方付费计划；后续如需企业级支持可关注官方公告。

本站AI标签页提供的VibeVoice都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由AI标签页实际控制，在2025年 9月 2日 01:09收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，AI标签页不承担任何责任。

AI标签页致力于优质、实用的网络站点资源收集与分享！本文地址https://www.aitags.cn/sites/1330.html转载请注明

Spark-TTS 是一个基于大型语言模型（LLM）的高效文本到语音（TTS）系统，专为研究和生产环境设计，能够生成高质量、自然流畅的语音合成效果。

IndexTTS-2 是一款具备精准时长控制与情感音色分离能力的自回归 TTS 系统，能够实现高度真实的零样本语音克隆与丰富的情感表达。

免费语音克隆服务，仅需5秒即可生成逼真的AI语音克隆，支持多种语言，适用于多种场景。

悦音配音是制片帮旗下配音品牌，提供ai智能配音文字转语音以及真人配音服务。可以在线将文字转成语音的智能配音工具。悦音配音情绪主播声音媲美真人主播，是一款ai智能在线配音神器语音合成工具软件。深受广告片配音，宣传片配音，影视解说配音，有声书配音用户喜欢。

MOSS-TTS 是由 OpenMOSS 团队研发的旗舰级语音生成基础模型，支持高保真零样本语音克隆、超长音频稳定生成及精细化发音控制。

IndexTTS 是一款工业级的文本转语音系统，支持零样本语音合成和高效语音生成，适用于多种语言和应用场景。