Muyan-TTS

Muyan-TTS

音频工具AI语音合成AI语音识别AI音频工具
更新日期:2025年5月13日

专为播客场景打造的开源语音合成系统,支持零样本语音合成及个性化语音克隆。合成质量高,效率领先,是播客制作人和语音AI开发者的理想选择。

标签:

点评:Muyan-TTS 是目前语音播客生成领域最具实用性的开源 TTS 工具之一。其以极低的合成延迟、出色的自然度及灵活的个性化支持,成为面向播客、数字人、虚拟语音助手等场景的极佳选择。相比 GPT-SoVITS,更注重播客风格和效率,对于内容创作者和AI产品团队具有很强吸引力。

Muyan-TTS 产品介绍

智谱清言-清影

Muyan-TTS 是什么?

Muyan-TTS 是一款为播客场景优化的零样本语音合成(Zero-shot TTS)模型,预训练数据量超过 10 万小时的播客语音内容,能以惊人的自然度合成任意文本的语音。它通过结合大型语言模型与 SoVITS 编码器架构,将文本和语音对齐,生成逼真的音频输出。

其增强版本 Muyan-TTS-SFT,支持通过“几十分钟目标说话人语音”的微调实现个性化语音克隆,非常适合定制化语音内容生产。

🔧 Muyan-TTS应用场景

  • 播客制作人:快速将文案转化为自然语音,极大减少录音与剪辑工作量。
  • 语音助手开发:为对话机器人提供个性语音表达,提升用户体验。
  • 数字人/虚拟主播:构建拥有独特语音风格的数字形象,便于社媒传播。
  • 语言学习平台:合成标准、真实的语音内容,用于听力训练或自动朗读。
  • 有声书及教育内容生产者:批量生成高质量语音内容,加速内容上架。

🧠 Muyan-TTS主要功能

  • Zero-shot语音合成:无需任何训练即可生成高质量语音,仅需参考音频与提示文本。
  • Few-shot语者克隆(SFT):用几十分钟语音数据即可训练专属语音模型。
  • 多模型推理选择:支持base(零样本)与sft(微调)两种合成模式。
  • API部署接口:可部署本地服务,快速集成到生产系统中。
  • 支持VLLM加速推理:加速大语言模型部分,提高生成效率。
  • 完整开源代码与模型发布:已公开 Hugging Face、ModelScope、WiseModel 平台模型权重及训练代码。

👤 Muyan-TTS目标用户

  • 播客及音频内容创作者
  • 虚拟主播制作公司
  • 教育科技企业
  • 语音AI开发者
  • 数字人/元宇宙内容团队

🚀 如何使用 Muyan-TTS?

Muyan-TTS安装步骤:

git clone https://github.com/MYZY-AI/Muyan-TTS.git
cd Muyan-TTS
conda create -n muyan-tts python=3.10 -y
conda activate muyan-tts
make build
sudo apt install ffmpeg  # 安装FFmpeg

快速体验Muyan-TTS:

使用命令行运行:

python tts.py

或部署API:

python api.py  # 默认启动在8020端口

调用API合成语音:

import requests
response = requests.post("http://localhost:8020/get_tts", json={
    "ref_wav_path": "assets/Claire.wav",
    "prompt_text": "...",
    "text": "Welcome to the captivating world of podcasts...",
})
with open("tts.wav", "wb") as f:
    f.write(response.content)

💰 免费试用Muyan-TTS与定价模式

目前完全开源,模型权重、训练代码均可通过以下平台免费获取:

  • Hugging Face: Muyan-TTS
  • ModelScope
  • WiseModel

训练成本说明(参考值):

模块 GPU小时 费用(估算)
数据处理 60K(A10) \$30K
LLM预训练 19.2K(A100) \$19.2K
解码器训练 1.34K(A100) \$1.34K
总计 \$50.54K

⚖️ 模型性能对比(语音合成速度 r 值,越低越快)

模型 CosyVoice2 Spark-TTS GPT-SoVITS v3 🔥 Muyan-TTS
r ↓ 2.19 1.31 0.48 0.33(最快)

📊 Muyan-TTS效果评测

  • 合成质量:在播客音色、情绪与语速方面表现出色。
  • 语者相似度(SFT模型):个性化训练仅需数十分钟即可实现高还原度。
  • 推理效率:在A100 GPU上拥有领先合成速度,适合实时或大规模语音生成任务。
  • 使用便捷度:支持终端命令与API两种调用方式,适配开发与内容团队不同需求。

🔁 Muyan-TTS替代工具推荐

工具名 简要介绍
Bark by Suno 多语言、风格化TTS,适合娱乐内容
GPT-SoVITS 社区活跃,语者克隆能力优秀
OpenVoice 支持跨语种语音克隆的TTS系统
Coqui TTS 支持训练与部署多说话人模型
XTTS by Tortoise 超高自然度语音合成,支持多说话人控制

❓ Muyan-TTS常见问题解答(FAQ)

Q:Muyan-TTS 支持中文吗?
A:不支持。目前仅训练于英文播客数据,适合英文语音合成。

Q:使用 SFT 模型是否必须使用 Claire 的语音?
A:是,官方训练好的 SFT 模型基于 Claire 语音。自定义训练则可替换为任意说话人。

Q:能否用于商业用途?
A:需查看 GitHub 上许可证(MIT 或其他),多数情况下允许商用。

📢 AI工具网点评

Muyan-TTS 是目前语音播客生成领域最具实用性的开源 TTS 工具之一。其以极低的合成延迟、出色的自然度及灵活的个性化支持,成为面向播客、数字人、虚拟语音助手等场景的极佳选择。相比 GPT-SoVITS,更注重播客风格和效率,对于内容创作者和AI产品团队具有很强吸引力。

关于Muyan-TTS特别声明

本站AI工具网 提供的【Muyan-TTS】 工具信息资源来源于网站整理或服务商自行提交,从本站跳转后由【Muyan-TTS】网站提供服务,与AI工具网无关,如需付费请先进行免费试用,满足需求后再付费,请用户注意自行甄别服务和信用卡扣款方式,避免上当受骗。在【2025年5月13日 下午3:03】收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具网不承担任何责任。

替代工具