CloneTTS 音色克隆阅读V0.5.3★克隆任何人的音色来阅读小说
来源地址: https://dooo.fun/archives/1431
CloneTTS 是一款运行在安卓系统本地的文字转语音 (TTS) 原生引擎。它可以让您在手机上离线克隆所需的声音,并直接使用这个声音来朗读书籍或长文本。无需联网,所有推理计算均在本地完成。
功能特色
离线音色克隆:录制 1~3 秒人声即可生成专属音色
系统级 TTS:注册为安卓系统 TTS 引擎,兼容开源阅读、Moon+ 等阅读器
HTTP API 服务:内置本地 HTTP 服务器,支持 GET 和 POST 请求
语速与音量调节:0.5x ~ 2.0x 语速,0% ~ 200% 音量
发音纠错:支持添加自定义的纯文本或强大的正则表达式替换规则
音色备份:ZIP 格式导入/导出,支持追加或覆盖导入
一、配置必读:电池优化与后台保活
非常重要!必做!在开始一切操作前,为了防止手机在您听书息屏时中断朗读(被系统强杀后台),请务必在应用程序底部的 “帮助说明” 页面,参考卡片上的提示:
前往手机系统设置,将本应用的电池优化策略改为 “无限制” 或 “允许完全后台行为”。
在手机的多任务(最近任务)界面,下拉本应用的卡片或点击小锁图标,防止被一键清理掉(不同品牌操作方式略有不同,部分手机可能没有此功能)。
二、下载与初次体验
下载与安装:前往本 GitHub 的 Releases 页面下载最新版 .apk 并安装。
首次启动:第一次打开 App 时,系统会在后台解压模型数据,请耐心等待几秒钟。
三、如何克隆并添加专属音色
在最下方的 “音色管理” 页面中,点击右上角的 “⋮ (更多选项)”,选择 “添加音色”。
提供参考声音:使用 录音室采音 进行高保真采音,或通过 外部选取 上传本地音频(时长要求 1~3 秒,单句清晰的无背景音人声)。
填写发音参考文本:一字不差地填写刚刚录制或上传声音里的纯文本。(文字必须完全匹配,否则发出的声音质量会极度不可视)。
算力精度 (num_steps):推荐保留默认的 2 步以获得最佳速度体验。如果您追求更高音质,可改为 4,但合成速度会相应变慢。最大值为 8,超过 8 不会有进一步的音质提升。
点击底部 保存并启用 即可。之后在”音色管理”列表点击该卡片即可激活它。
四、音色管理
选择与激活音色:点击音色卡片即可选中为当前默认音色。
自定义音色代号 (Alias):支持为音色设定专属的名称与唯一代号 (Alias)。该代号是开源阅读软件(如 Legado)通过 HTTP API 进行“分角色听书”精准调用的核心键值。
编辑属性:点击卡片右侧的 ⋮ 菜单可随时修改名字、代号及发音参考文本。系统会自动执行代号重名校验防护。
备份与迁移:支持通过 ⋮ 菜单进行音色的批量删除与 .zip 格式打包导出。导入时可智能选择“追加”或“覆盖”模式。
五、高级进阶:发音纠错与性能监控
在底部 “发音规则” 与 “高级设置” 栏中,您可以对合成体验进行底层的专业级干预:
添加发音正则替换:在 “发音规则” 界面,您可以针对特定的错误多音字添加文本或正则规则替换(例如遇到特定人名强制拼音纠错)。
高阶断句正则配置:这个选项决定了引擎切分小说长句时的停顿界限。配置紊乱时可点击“恢复系统默认”一键重置。
实时 RTF 监控瀑布台:在高级设置开启详细日志后,前端界面直通底层协程,您可直观捕捉并在页面底端查看每一句生成的 RTF(实时推理速率)和算力耗时,彻底终结盲盒合成!
六、如何接管朗读
模式 1:接管系统 TTS(兼容性最广)在手机的”设置”中,搜索 “TTS 设置”(或文字转语音输出),将默认引擎改为 CloneTTS。随后在”开源阅读”等应用中点击”朗读”即可生效,支持无级调速体验。
模式 2:HTTP API 模式(适合高级用户)切换到 “高级设置” 界面并打开首行的 “本地 HTTP API 服务”。将显示的接口地址填入外部阅读软件(如 Legado)的网络发音设置中即可。
支持两种请求方式:
GET 请求:http://127.0.0.1:8080/api/tts?text={{speakText}}&voice=音色名
POST 请求:支持 application/x-www-form-urlencoded 和 application/json 两种格式,可发送超长文本
voice 参数支持音色名称或音色代号 (Alias) 匹配。
夸克网盘下载地址: https://pan.quark.cn/s/2f956cae8027


用户评论
还没有评论,欢迎留下第一条留言。