• 实物图
  • 原理图

编号 颜色 名称 功能

1       红  VCC 电源正

2       黑  GND 电源地

3       白  TXD 串口发送引脚

4       黄  RXD 串口接收引脚

三.介绍

语音合成又称文语转换(Text to Speech,TTS)技术,是语音处理领域的一个重要的研究方向,旨在让机器生成自然动听的人类语音。TTS技术采用自然语言处理、数字信号处理和语音合成等技术,将电子文字转化为口头发音,并通过扬声器、耳机或其他设备播放出来。

CN-TTS是一款高集成度的语音合成模块,可实现中文、英文、数字的语音合成,并且支持用户的命令词或提示音的定制需求。CN-TTS控制方式简单,是通过 TTL 串口发送 GBK 编码的形式,可兼容市面上主流 5V 或 3.3V 单片机,其基本原理与TTS技术相似,但在中文语音合成方面又有所不同。CN-TTS已经被广泛应用在各种语音交互场景中,例如自然语言对话系统、智能语音助手、虚拟主持人等。

四.工作原理

CN-TTS主要通过分词、语音预测模型和韵律特征融合等步骤,将中文文本转换成口头发音,并输出到硬件设备上。具体步骤如下:

1、分词:首先会将输入文本进行分词处理,将整段话切分为单个词语。

2、语音预测模型:构建文字到语音的映射模型,这是将文本转换为语音的关键步骤。这个模型包含两个部分:音素的概率模型和声学模型。其中音素概率模型会根据输入的文本中每个字的上下文信息来预测该字对应的音素序列;声学模型则用于计算每个音素的声音特征,并将其转化成语音信号。

3、韵律特征融合:在输出语音序列之前,需要将音素序列转化成实际的语音,同时还需要根据输入文本的韵律模式来调节声音的音高、音量和语速等特征。为了实现这些调节,CN-TTS通常采用基于机器学习方法的韵律特征融合技术,也就是把韵律和声讯特征结合起来,使其达到更好的人类听感效果。

4、语音合成输出:最后将经过处理的声学特征转化为模拟声波信号,再将其输出到扬声器或耳机中播放出来。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注