MOSS-TTS-Nano 中文版

本地文本转语音演示，支持 CPU 运行、多语言生成，以及可选的音色克隆。

基于 MOSS-TTS-Nano 构建。

示例音色

提示音频

正在使用所选示例的提示音频。

输入文本

按行分别生成并打包下载

生成参数

最大新增帧数

音色克隆最大文本 Token

最大 TTS 批大小（0=自动）

最大 Codec 批大小（0=自动）

设为 0 表示保持当前默认行为。将最大 TTS 批大小设为 1，可强制拆分后的分块逐个执行。缓冲生成会保持分块顺序，并将 codec 子批次限制在当前 TTS 批大小以内。实时流式解码会保持输出顺序，并在自动批处理、最大 TTS 批大小和最大 Codec 批大小之间选择当前最小的有效分组宽度。

CPU 线程数

当前应用仅使用 CPU。CPU 线程数会映射到该次请求的 `torch.set_num_threads`。

注意力后端

随机种子

文本温度

文本 Top P

文本 Top K

音频温度

音频 Top P

音频 Top K

音频重复惩罚

启用采样

启用 WeTextProcessing

启用 normalize_tts_text

WeTextProcessing 和 normalize_tts_text 现在可以在每次请求中分别独立开关。 WeTextProcessing 会在启动时预加载，因此启用后不会额外增加首次请求的图构建延迟。

实时流式解码

初始播放延迟（秒）

预热状态

Warmup complete. device=cpu elapsed=20.39s

文本归一化状态

WeTextProcessing disabled.

运行状态

空闲。

归一化文本

播放脚本

播放时会在这里高亮当前句子。

生成音频

默认使用模型默认音色进行纯文本合成。

生成历史

当前浏览器还没有生成历史。

模型路径：/www/MOSS-TTS-Nano/weights/MOSS-TTS-Nano

音频 Tokenizer：/www/MOSS-TTS-Nano/weights/MOSS-Audio-Tokenizer-Nano