(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210512268.8
(22)申请日 2022.05.12
(71)申请人 杭州倒映有 声科技有限公司
地址 310000 浙江省杭州市余杭区五常街
道高教路970 -1号5幢4楼40 3-5室
(72)发明人 李素贞 李骁 肖朔
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 40/253(2020.01)
G06F 40/211(2020.01)
G10L 25/63(2013.01)
(54)发明名称
一种基于语音合成的情绪数据标注方法
(57)摘要
本发明涉及语音合 成技术领域, 尤其涉及一
种基于语音合成的情绪数据标注方法。 包括: 获
取语音数据源; 对语音数据源进行预处理: 通过
对一句话完整性的把握, 将语义连贯的句子进行
切割, 针对文本对应的语音数据, 打上时间戳; 对
文本一致性和风格一致性进行校对; 将音频对应
的时间戳进行音频切分, 产出音频单句; 将产出
的音频单句, 进行音字韵律以及情绪层面的标
注。 本发明通过一级标签词、 二级标签词和辅助
用词的设计, 可以实现几十种情绪词映射学习,
全面提升情感表现力, 使tts的声音更具温度, 情
感表现力更加自然丰富, 与真人播讲进一步减小
差距; 能有效降低标注数据量, 降低制作成本和
复杂度, 能够更 快速的落 地应用场景。
权利要求书1页 说明书4页 附图2页
CN 115130469 A
2022.09.30
CN 115130469 A
1.一种基于语音合成的情绪数据标注方法, 其特 征在于, 包括以下步骤:
步骤1.获取语音数据源;
步骤2.对语音数据源进行 预处理, 包括以下步骤:
步骤2.1.通过对一句话完整性的把握, 将语义连贯的句子进行切割, 针对文本对应的
语音数据, 打上时间戳;
步骤2.2.对文本一 致性和风格一 致性进行校对;
步骤2.3.将音频对应的时间戳进行音频切分, 产出音频 单句;
步骤3.将产出的音频 单句, 进行音字韵律以及情绪层面的标注。
2.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤1
获取方式为:
声纹录制, 和/或, 使用过往数据;
所述声纹录制包括以下步骤:
步骤1.1.1.制定 录音计划、 准备录音材 料;
步骤1.1.2.确定 录音环境和主播状态;
步骤1.1.3.录制形成最终录音 整轨和对应文本;
所述使用过往数据包括以下步骤:
步骤1.2.1.调取录音 主播以往的音频作品内容;
步骤1.2.2.人工转写或提供原 始语料;
步骤1.2.3.产出对应音频的文本内容。
3.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤
2.1中, 针对文本对应的语音数据, 打上时间戳, 还 包括: 每句话前后保留5 00ms静音时长 。
4.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤3
中, 音字韵律层面标注包括:
标出每句话文字的声韵母以及韵律层面的音标, 并进行 人工二次校对。
5.根据权利要求1所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 步骤3
中, 情绪层面标注包括:
步骤3.1.定义情绪分类, 包括一级标签词、 二级标签词和辅助用词; 二级词 汇出现时必
定与一级部分词汇存在绑定关系;
步骤3.2.将句子进行 标签词的标注;
步骤3.3.将一句话依据一级标签词、 二级标签词区分后, 分析各类标签词的情绪在当
前句的占比, 给 出对应分值, 并进行文本标注。
6.根据权利要求5所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 所述一
级标签词包括: 疑惑、 得意、 紧张、 喜悦、 不满、 敷衍、 失望、 悲伤、 欣慰、 愤怒、 惊讶、 恐惧、 无
奈、 嘲讽、 自然;
所述二级情绪词包括: 疑问、 激动、 喜悦;
所述辅助用词包括: 好奇、 自信、 骄傲、 焦虑、 紧急、 开心、 愉快、 高兴、 赞叹、 愉悦、 满意、
厌恶、 不屑、 忧愁、 伤 心、 生气、 胆怯、 害怕、 恐慌、 嘲笑、 平静。
7.根据权利要求5所述的一种基于语音合成的情绪数据标注方法, 其特征在于, 所述分
值为10分制分值。权 利 要 求 书 1/1 页
2
CN 115130469 A
2一种基于语音合成的情绪数据标注方 法
技术领域
[0001]本发明涉及语音合成技术领域, 尤其涉及一种基于语音合成的情 绪数据标注方
法。
背景技术
[0002]从早期的语音合成开始发展至今, 其应用场景经历了较大的转 变。 过去语音合成
应用主要用于简单的文本播报, 场景相对单调, 现 其应用场景更复杂更多样, 智能助手、 智
能机器人、 文字阅读等诸多 领域都能见到语音合成技 术的身影。
[0003]如在有声阅读方面, 用户需求越来越个性化; 机场、 车站广播等 服务业, 甜美温柔
的音质可以拉进与乘客间的距离, 让乘客在繁忙的 旅途中感受到温暖; 服务业客服场景
下, 人们倾向于声音 更加热情、 亲切。 如何让合 成的声音听起来自然并富有情感, 是语音合
成领域的 一个主要发展方向。
[0004]随着语音合成技术的发展, 语音合成(TTS)已经应用于生活中 的各个场景, 实现
在语音外呼、 智能交 互、 内容生产、 新闻播报等 落 地, 但现有语音合成存在着以下缺陷:
[0005]当前的tts相对来说比较成熟, 但实际落地在业务场景上用户一 般都能够辨别出
是否是合成音, 由于合成的整体节奏韵律感还是对比 真人演绎来说相差很多, 真人的朗读
更多追求口气和情感的, 而合成 的机械感和句与句之前的停顿节 奏都比较固定和统一, 情
感表达不会 随着上下文的内容发生明显起伏。
[0006]人在表达时, 会通过声音来传达出喜怒哀乐。 比如在小说朗读中, 不同的语境不
同的情景非常多, tts合成的声音无论是痛苦还是高兴 输出的情绪都非常中性, 无法给人
以带入感, 整体的情感表现都是平 稳的。
发明内容
[0007]本发明的目的是提供一种基于语音合成的情绪数据标注方法,用 于解决现有技
术问题: 合成的声 音都非常中性, 无法给 人以带入感。
[0008]为了实现上述目的, 本发明采用了如下技 术方案:
[0009]一种基于语音合成的情绪数据标注方法, 包括以下步骤:
[0010]步骤1.获取语音数据源;
[0011]步骤2.对语音数据源进行 预处理, 包括以下步骤:
[0012]步骤2.1.通过对一句话完整性的把握, 将语义连贯的句子 进行切割, 针对文本对
应的语音数据, 打上时间戳;
[0013]步骤2.2.对文本一 致性和风格一 致性进行校对;
[0014]步骤2.3.将音频对应的时间戳进行音频切分, 产出音频 单 句;
[0015]步骤3.将产出的音频 单句, 进行音字韵律以及情绪层面的标注。
[0016]进一步地, 步骤1 获取方式为:
[0017]声纹录制, 和/或, 使用过往数据;说 明 书 1/4 页
3
CN 115130469 A
3
专利 一种基于语音合成的情绪数据标注方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:38上传分享