• 作者:老汪软件技巧
  • 发表时间:2024-12-30 00:04
  • 浏览量:

背景介绍现状

TTS(Text To Speech)技术可将文本转换为语音输出,货拉拉主要将其应用于智能客服和电话通知场景。智能客服利用 TTS 实现实时语音反馈,提升用户体验;电话通知则通过离线合成生成多样化语音内容。相比传统预录制方式,TTS 更能满足动态场景和多样化话术需求,实现灵活且个性化的语音合成。

存在问题

尽管TTS技术在许多方面已经取得了显著进步,但仍然存在一些问题和挑战:

解决方案

针对上述问题,提出了以下解决方案:

通过以上解决方案,进一步提升了货拉拉TTS技术的自然度、情感表达、流畅度和实时性,从而更好地满足智能客服和电话通知等应用场景的需求。

系统框架工程结构框架

图1.png

图1 自研TTS系统架构图

TTS系统从底层基础设施到业务应用,主要分为四个层次:

基础设施层:由 MySQL、OSS 和 Redis 等组件构成,提供数据存储、缓存和快速响应能力,确保系统稳定运行。

平台层:以 TTS 模型和海豚平台为核心,支撑语音合成的算法实现,提供高效、精准的语音生成能力。

应用层:支持整句语音和流式语音合成两种模式,适配不同场景需求,同时集成权限控制、资源管理、监控告警和限流熔断,保障系统安全稳定。

业务层:在最终的业务场景中,TTS 系统被应用于 AI 外呼邀约、智能客服、AI 语音通知等领域。

算法方案主流方案

目前,主流语音合成方案多基于稳定的深度学习模型,包括百度的 PaddleSpeech、谷歌的 Tacotron 系列、微软的 FastSpeech系列和 DeepMind的WaveNet等等。这些技术通过创新且稳定的模型架构,实现了高质量且自然流畅的语音输出,广泛应用于内容创作、教育、智能客服等领域。

其中,PaddleSpeech 是百度飞桨生态中的开源语音处理工具包,支持多语言、多场景的语音合成,已成功落地多个行业,与多家企业达成合作。

其 TTS 实现流程以文本前端、声学模型(如 FastSpeech2)和声码器(如 Parallel WaveGAN)为核心,生成过程清晰高效,具体流程如图2所示:

图3.png

图2 主流TTS实现方案的流程

自研方案

货拉拉自研的TTS方案支持流式合成(实时生成语音)和非流式合成(批量生成语音)。核心声学模型基于VITS2,并优化了解码器以支持流式合成。同时,借鉴Bert-VITS2的设计,引入Bert文本分析模型,利用语义特征提升语音的自然度和表现力。

图2.png

图3 自研TTS实现方案的流程

整体架构由文本前端、预训练Bert模型和声学模型三部分组成。如图3所示流程如下:文本前端负责分词和预处理,Bert模型提供语义特征,声学模型将编码好的语义信息为音频信号,最终输出高质量语音。自研TTS的模型架构的改进点如图4所示。

算法实现文本编码

货拉拉有语音监听吗_货拉拉语音播报怎么设置_

为满足流式合成的需求并确保高保真的语音质量,我们对 VITS2 模型的 TextEncoder 和 Decoder 模块进行了改进。

TextEncoder 是 TTS 系统中将原始文本转换为模型可识别的语义信息的关键组件,我们的优化如下:

此外,各模块设计相互独立,避免误差累积,同时提升文本处理速度。整体流程如图 4 所示。

图5.png

图4 文本编码器的整体架构

流式合成

Decoder的功能是将音频特征转化为音频信号。为支持流式合成,我们对VITS2模型的Decoder进行了优化。

解码器接收编码器提取的多模态特征,通过逆flow操作生成音频特征,并分块处理。每个分块实时解码为语音,去重叠处理确保块间平滑衔接。通过这种分块生成和即时返回设计,模型在保持语音自然度的同时,实现了高效的实时语音输出。

图5 Decoder的分块处理流程

情感特征的引入

在语音合成中引入情感特征,提升语音的情感真实度和表现力:

采用基于 CLAP(Contrastive Language-Audio Pretraining)的情感特征分类模型,从文本中提取情感嵌入,将这些情感特征作为语音生成模型的输入,进一步增强语音的情感表达能力。

这种方法能够在语音生成的同时保持语义准确性,并更好地呈现丰富的情感变化。

图7.png

图6 情感标签的提取

支持音色定制

音色定制是TTS个性化的关键能力,能够满足多样化的应用需求:

图8.png

图7 定制音色的流程

跨语种迁移学习

为支持多语种合成,采用迁移学习技术,通过共享升学特征将现有语言模型的知识迁移至新语种。

图9.png

图8 实现多语言的流程

总结展望

本文介绍了货拉拉自研TTS技术的应用与优化,包括情感表达、流式合成、多语种支持和音色定制等关键技术,致力于实现更加灵活、实时和自然的语音交互。未来,我们将继续推动TTS技术的创新,为货拉拉的生态系统提供更多智能化应用场景,提升用户体验。


上一条查看详情 +Spring IoC 注解式开发
下一条 查看详情 +没有了