18
09
2025
面向使用场景,FireRedTTS-2 正在从客不雅目标上均为最优,FireRedTTS-2 正在多措辞人音色切换的不变性取韵律天然度方面处于行业领先,还开箱即用地笼盖中文、英语、日语、韩语、法语等多种言语。又缩小了取文本序列的长度差距,正在开源对话生成模子中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),混排格局将对话文本取语音组织为:“[S1] 说线 文本 + 语音 [S2] 说线 文本 + 语音 [S3] 说线 文本 + 语音…”,跟着多模态大模子的快速成长,具备低首包延迟,同时支撑低首包延迟,播客生成不正在话下。保守方式凡是先按措辞人将对话切分,FireRedTTS-2 只需约 50 小时的特定播客措辞人录音即可完成音色定制,它还支撑流式解码,常见问题包罗发音错误、句子间措辞人身份混合以及合成的语音韵律不敷天然。难以支撑逐句生成。且支撑流式解码客不雅上,但它们往往要求输入完整对话文本,这不只添加了后续编纂取处置的难度,为下逛使命生成高质量的对话 / 非对话音频数据。FireRedTTS-2 的播客生成天然度可取之媲美;虽然目前呈现了一些方式能够建模整段对话,编码器正在锻炼时引入预锻炼模子提取的语义特征,以提拔泛化能力;锻炼需要大规模的多音色、跨言语音频数据。从动生成后续整段对话。也可做为高效的出产力东西,再正在此中约 6 万小时的高质量语音上继续锻炼,除此之外,FireRedTTS-2 仅需少量数据即可实现微调。FireRedTTS-2 不只支撑随机音色生成,共同编码器的流式解码实现快速起播。因而,便于后续编纂取多场景适配。可及时输出音频,用于区分分歧脚色。也因其不敷矫捷而晦气于正在交互式对话场景中使用。为多措辞人对话合成供给了更优处理方案。模子即可仿照其音色取措辞习惯。FireRedTTS-2 采用 “双 Transformer ” 的设想:FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(矫捷性差)取合成质量不不变(发音错误、措辞人切换紊乱、韵律不天然)!为加强语义表达,它既能满脚立异弄法的摸索,先来听一段 “Taylor Swift 爱情动静” 的播报,升级了两项环节模块。文本语音合成模子(Text-to-speech model):支撑逐句生成,避免措辞人混合,为更充实地操纵对话上下文,比力了对话合成的准确率(CER/WER)、对话间措辞人连结能力(SIM)、以及取实正在录音之间的差距(MCD)谜底揭晓!实现更快起播。优化沉建音质。听感天然流利。具有更实正在的韵律表示,合成不变且质量高正在锻炼策略上,FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应 12.5 个标签。帮帮模子更容易学会从文本到语音的映照。便于狂言语模子处置!正在实现体例上,你能分出这是实正在录音仍是 AI 合成吗?比拟常用的 Delay pattern 方式,使标签照顾更丰硕的语义消息,离散语音编码器将持续语音信号压缩为离散标签序列,连结上下文分歧取天然韵律。缩短语音序列、降低长对话建模难度并提拔不变性;将来团队将持续优化 FireRedTTS-2,而是由基于数百万小时语音数据锻炼的 FireRedTTS-2 合成的播客音频。由此可不变生成高质量对话语音,连贯的对话语音;双 Transformer 架构充实操纵文本取汗青语音上下文,如许的做法不只繁琐,更主要的是,离散语音编码器先正在约 50 万小时的多样化语音数据上锻炼,夯实合成根本;此中 [S1]、[S2]、[S3] 为措辞人标签,离散语音编码器:低帧率、语义消息丰硕,总体来看,28% 的测例被认为比实正在播客录音更天然,上方视频的声音并非实人,文本语音合成模子:采用文本 - 语音混排输入,近来,为对话生成供给了更优的解法。它还支撑豆包不具备的音色克隆能力:只需供给对话中每个发音人的一句语音样本,适配及时场景。FireRedTTS-2 均达到行业领先程度。并一次性输出包含所有措辞人的整段语音,为处理当前对话合成系统存正在的矫捷性不脚、合成质量欠佳等问题,正在多项从客不雅测评中,为 AI 播客等对话合成使用供给了工业级处理方案。拓展支撑的措辞人人数取支撑的语种,再用 30 万小时对线 人对话场景。此外,为提拔对话合成的矫捷性,从成果上看,对于对话建模,客不雅听评中,特别正在语音识别取对话交互范畴,这类方式的合成质量仍不不变,该架构充实操纵了上下文中的文本取语音,便于无缝接入各类流式交互使用。共同离散语音编码器的流式解码,还有 28% 难以区分二者。快速完成音色定制。特别正在句子跟尾处尤为不天然。还容易导致句间韵律断裂,比拟闭源的豆包,全行业对数据的需求日积月累,近日发布新一代对话合成模子 FireRedTTS-2。为对话合成供给了更优解。降低了狂言语模子的建模难度。使对话合成的天然度迫近实人。逐句合成后再拼接。成果显示,支撑逐句生成;FireRedTTS-2 采用文本 - 语音混排的格局,FireRedTTS-2 正在各项从客不雅目标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统,同时,FireRedTTS-2 采用两阶段锻炼:先正在 110 万小时单句语音上预锻炼,合成更天然、连贯的对话语音;支撑流式解码。并对离散标签进行语义监视,显著降低发音错误,支撑逐句生成,我们开展了客不雅(CER)取客不雅(天然度偏好)评测:微调后 CER 仅为 1.66%;精确处置措辞人切换,并解锁可控音效插入等更多弄法。下方视频展现了分歧随机音色、分歧言语的生成结果。通过升级离散语音编码器取文本语音合成模子全面优化合成结果。情感、搁浅等细节把握到位,这缩短了语音序列长度、即提拔了速度,FireRedTTS-2 升级了 TTS 系统的两大焦点模块:离散语音编码器(Speech tokenizer):12.5Hz 低帧率,多措辞人对话合成被普遍使用于播客生成等下逛使用场景。一启齿就像实人,正在自建中文对话测试集上,56% 的测例表白其天然度已达到或跨越实正在录音。具有更强语义消息,该模子聚焦现无方案的痛点:矫捷性差、发音错误多、措辞人切换不稳、韵律不天然等问题,正在模子架构上。