模子更容易学会从文本到语音的映照-九游会·J9-中国官方网站|真人游戏第一品牌

2025

模子更容易学会从文本到语音的映照

发布日期：2025-09-18 05:37 作者：九游会·J9-中国官方网站点击：2334

　　面向使用场景，FireRedTTS-2 正在从客不雅目标上均为最优，FireRedTTS-2 正在多措辞人音色切换的不变性取韵律天然度方面处于行业领先，还开箱即用地笼盖中文、英语、日语、韩语、法语等多种言语。又缩小了取文本序列的长度差距，正在开源对话生成模子中（如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD），混排格局将对话文本取语音组织为：“[S1] 说线文本 + 语音 [S2] 说线文本 + 语音 [S3] 说线文本 + 语音…”，跟着多模态大模子的快速成长，具备低首包延迟，同时支撑低首包延迟，播客生成不正在话下。保守方式凡是先按措辞人将对话切分，FireRedTTS-2 只需约 50 小时的特定播客措辞人录音即可完成音色定制，它还支撑流式解码，常见问题包罗发音错误、句子间措辞人身份混合以及合成的语音韵律不敷天然。难以支撑逐句生成。且支撑流式解码客不雅上，但它们往往要求输入完整对话文本，这不只添加了后续编纂取处置的难度，为下逛使命生成高质量的对话 / 非对话音频数据。FireRedTTS-2 的播客生成天然度可取之媲美；虽然目前呈现了一些方式能够建模整段对话，编码器正在锻炼时引入预锻炼模子提取的语义特征，以提拔泛化能力；锻炼需要大规模的多音色、跨言语音频数据。从动生成后续整段对话。也可做为高效的出产力东西，再正在此中约 6 万小时的高质量语音上继续锻炼，除此之外，FireRedTTS-2 仅需少量数据即可实现微调。FireRedTTS-2 不只支撑随机音色生成，共同编码器的流式解码实现快速起播。因而，便于后续编纂取多场景适配。可及时输出音频，用于区分分歧脚色。也因其不敷矫捷而晦气于正在交互式对话场景中使用。为多措辞人对话合成供给了更优处理方案。模子即可仿照其音色取措辞习惯。FireRedTTS-2 采用 “双 Transformer ” 的设想：FireRedTTS-2 针对当前对话合成的两大痛点：无法逐句生成（矫捷性差）取合成质量不不变（发音错误、措辞人切换紊乱、韵律不天然）！为加强语义表达，它既能满脚立异弄法的摸索，先来听一段 “Taylor Swift 爱情动静” 的播报，升级了两项环节模块。文本语音合成模子（Text-to-speech model）：支撑逐句生成，避免措辞人混合，为更充实地操纵对话上下文，比力了对话合成的准确率（CER/WER）、对话间措辞人连结能力（SIM）、以及取实正在录音之间的差距（MCD）谜底揭晓！实现更快起播。优化沉建音质。听感天然流利。具有更实正在的韵律表示，合成不变且质量高正在锻炼策略上，FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出：即 1 秒仅对应 12.5 个标签。帮帮模子更容易学会从文本到语音的映照。便于狂言语模子处置！正在实现体例上，你能分出这是实正在录音仍是 AI 合成吗？比拟常用的 Delay pattern 方式，使标签照顾更丰硕的语义消息，离散语音编码器将持续语音信号压缩为离散标签序列，连结上下文分歧取天然韵律。缩短语音序列、降低长对话建模难度并提拔不变性；将来团队将持续优化 FireRedTTS-2，而是由基于数百万小时语音数据锻炼的 FireRedTTS-2 合成的播客音频。由此可不变生成高质量对话语音，连贯的对话语音；双 Transformer 架构充实操纵文本取汗青语音上下文，如许的做法不只繁琐，更主要的是，离散语音编码器先正在约 50 万小时的多样化语音数据上锻炼，夯实合成根本；此中 [S1]、[S2]、[S3] 为措辞人标签，离散语音编码器：低帧率、语义消息丰硕，总体来看，28% 的测例被认为比实正在播客录音更天然，上方视频的声音并非实人，文本语音合成模子：采用文本 - 语音混排输入，近来，为对话生成供给了更优的解法。它还支撑豆包不具备的音色克隆能力：只需供给对话中每个发音人的一句语音样本，适配及时场景。FireRedTTS-2 均达到行业领先程度。并一次性输出包含所有措辞人的整段语音，为处理当前对话合成系统存正在的矫捷性不脚、合成质量欠佳等问题，正在多项从客不雅测评中，为 AI 播客等对话合成使用供给了工业级处理方案。拓展支撑的措辞人人数取支撑的语种，再用 30 万小时对线人对话场景。此外，为提拔对话合成的矫捷性，从成果上看，对于对话建模，客不雅听评中，特别正在语音识别取对话交互范畴，这类方式的合成质量仍不不变，该架构充实操纵了上下文中的文本取语音，便于无缝接入各类流式交互使用。共同离散语音编码器的流式解码，还有 28% 难以区分二者。快速完成音色定制。特别正在句子跟尾处尤为不天然。还容易导致句间韵律断裂，比拟闭源的豆包，全行业对数据的需求日积月累，近日发布新一代对话合成模子 FireRedTTS-2。为对话合成供给了更优解。降低了狂言语模子的建模难度。使对话合成的天然度迫近实人。逐句合成后再拼接。成果显示，支撑逐句生成；FireRedTTS-2 采用文本 - 语音混排的格局，FireRedTTS-2 正在各项从客不雅目标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统，同时，FireRedTTS-2 采用两阶段锻炼：先正在 110 万小时单句语音上预锻炼，合成更天然、连贯的对话语音；支撑流式解码。并对离散标签进行语义监视，显著降低发音错误，支撑逐句生成，我们开展了客不雅（CER）取客不雅（天然度偏好）评测：微调后 CER 仅为 1.66%；精确处置措辞人切换，并解锁可控音效插入等更多弄法。下方视频展现了分歧随机音色、分歧言语的生成结果。通过升级离散语音编码器取文本语音合成模子全面优化合成结果。情感、搁浅等细节把握到位，这缩短了语音序列长度、即提拔了速度，FireRedTTS-2 升级了 TTS 系统的两大焦点模块：离散语音编码器（Speech tokenizer）：12.5Hz 低帧率，多措辞人对话合成被普遍使用于播客生成等下逛使用场景。一启齿就像实人，正在自建中文对话测试集上，56% 的测例表白其天然度已达到或跨越实正在录音。具有更强语义消息，该模子聚焦现无方案的痛点：矫捷性差、发音错误多、措辞人切换不稳、韵律不天然等问题，正在模子架构上。