本地文本转语音演示,支持 CPU 运行、多语言生成,以及可选的音色克隆。
- 纯文本 输入文本后直接合成,默认使用模型内置音色。
- 可选音色克隆 需要时可上传提示音频,或直接选择示例音色。
基于 MOSS-TTS-Nano 构建。
Warmup complete. device=cpu elapsed=20.39s
WeTextProcessing disabled.
模型路径:/www/MOSS-TTS-Nano/weights/MOSS-TTS-Nano
音频 Tokenizer:/www/MOSS-TTS-Nano/weights/MOSS-Audio-Tokenizer-Nano