专利 一种基于语音合成的情绪数据标注方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210512268.8 (22)申请日 2022.05.12 (71)申请人杭州倒映有声科技有限公司地址 310000 浙江省杭州市余杭区五常街道高教路970 -1号5幢4楼40 3-5室 (72)发明人李素贞　李骁　肖朔　 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/211(2020.01) G10L 25/63(2013.01) (54)发明名称一种基于语音合成的情绪数据标注方法 (57)摘要本发明涉及语音合成技术领域，尤其涉及一种基于语音合成的情绪数据标注方法。包括：获取语音数据源；对语音数据源进行预处理：通过对一句话完整性的把握，将语义连贯的句子进行切割，针对文本对应的语音数据，打上时间戳；对文本一致性和风格一致性进行校对；将音频对应的时间戳进行音频切分，产出音频单句；将产出的音频单句，进行音字韵律以及情绪层面的标注。本发明通过一级标签词、二级标签词和辅助用词的设计，可以实现几十种情绪词映射学习，全面提升情感表现力，使tts的声音更具温度，情感表现力更加自然丰富，与真人播讲进一步减小差距；能有效降低标注数据量，降低制作成本和复杂度，能够更快速的落地应用场景。权利要求书1页说明书4页附图2页 CN 115130469 A 2022.09.30 CN 115130469 A 1.一种基于语音合成的情绪数据标注方法，其特征在于，包括以下步骤：步骤1.获取语音数据源；步骤2.对语音数据源进行预处理，包括以下步骤：步骤2.1.通过对一句话完整性的把握，将语义连贯的句子进行切割，针对文本对应的语音数据，打上时间戳；步骤2.2.对文本一致性和风格一致性进行校对；步骤2.3.将音频对应的时间戳进行音频切分，产出音频单句；步骤3.将产出的音频单句，进行音字韵律以及情绪层面的标注。 2.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤1 获取方式为：声纹录制，和/或，使用过往数据；所述声纹录制包括以下步骤：步骤1.1.1.制定录音计划、准备录音材料；步骤1.1.2.确定录音环境和主播状态；步骤1.1.3.录制形成最终录音整轨和对应文本；所述使用过往数据包括以下步骤：步骤1.2.1.调取录音主播以往的音频作品内容；步骤1.2.2.人工转写或提供原始语料；步骤1.2.3.产出对应音频的文本内容。 3.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤 2.1中，针对文本对应的语音数据，打上时间戳，还包括：每句话前后保留5 00ms静音时长。 4.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤3 中，音字韵律层面标注包括：标出每句话文字的声韵母以及韵律层面的音标，并进行人工二次校对。 5.根据权利要求1所述的一种基于语音合成的情绪数据标注方法，其特征在于，步骤3 中，情绪层面标注包括：步骤3.1.定义情绪分类，包括一级标签词、二级标签词和辅助用词；二级词汇出现时必定与一级部分词汇存在绑定关系；步骤3.2.将句子进行标签词的标注；步骤3.3.将一句话依据一级标签词、二级标签词区分后，分析各类标签词的情绪在当前句的占比，给出对应分值，并进行文本标注。 6.根据权利要求5所述的一种基于语音合成的情绪数据标注方法，其特征在于，所述一级标签词包括：疑惑、得意、紧张、喜悦、不满、敷衍、失望、悲伤、欣慰、愤怒、惊讶、恐惧、无奈、嘲讽、自然；所述二级情绪词包括：疑问、激动、喜悦；所述辅助用词包括：好奇、自信、骄傲、焦虑、紧急、开心、愉快、高兴、赞叹、愉悦、满意、厌恶、不屑、忧愁、伤心、生气、胆怯、害怕、恐慌、嘲笑、平静。 7.根据权利要求5所述的一种基于语音合成的情绪数据标注方法，其特征在于，所述分值为10分制分值。权　利　要　求　书 1/1 页 2 CN 115130469 A 2一种基于语音合成的情绪数据标注方法技术领域 [0001]本发明涉及语音合成技术领域，尤其涉及一种基于语音合成的情绪数据标注方法。背景技术 [0002]从早期的语音合成开始发展至今，其应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报，场景相对单调，现其应用场景更复杂更多样，智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。 [0003]如在有声阅读方面，用户需求越来越个性化；机场、车站广播等服务业，甜美温柔的音质可以拉进与乘客间的距离，让乘客在繁忙的旅途中感受到温暖；服务业客服场景下，人们倾向于声音更加热情、亲切。如何让合成的声音听起来自然并富有情感，是语音合成领域的一个主要发展方向。 [0004]随着语音合成技术的发展，语音合成(TTS)已经应用于生活中的各个场景，实现在语音外呼、智能交互、内容生产、新闻播报等落地，但现有语音合成存在着以下缺陷： [0005]当前的tts相对来说比较成熟，但实际落地在业务场景上用户一般都能够辨别出是否是合成音，由于合成的整体节奏韵律感还是对比真人演绎来说相差很多，真人的朗读更多追求口气和情感的，而合成的机械感和句与句之前的停顿节奏都比较固定和统一，情感表达不会随着上下文的内容发生明显起伏。 [0006]人在表达时，会通过声音来传达出喜怒哀乐。比如在小说朗读中，不同的语境不同的情景非常多， tts合成的声音无论是痛苦还是高兴输出的情绪都非常中性，无法给人以带入感，整体的情感表现都是平稳的。发明内容 [0007]本发明的目的是提供一种基于语音合成的情绪数据标注方法,用于解决现有技术问题：合成的声音都非常中性，无法给人以带入感。 [0008]为了实现上述目的，本发明采用了如下技术方案： [0009]一种基于语音合成的情绪数据标注方法，包括以下步骤： [0010]步骤1.获取语音数据源； [0011]步骤2.对语音数据源进行预处理，包括以下步骤： [0012]步骤2.1.通过对一句话完整性的把握，将语义连贯的句子进行切割，针对文本对应的语音数据，打上时间戳； [0013]步骤2.2.对文本一致性和风格一致性进行校对； [0014]步骤2.3.将音频对应的时间戳进行音频切分，产出音频单句； [0015]步骤3.将产出的音频单句，进行音字韵律以及情绪层面的标注。 [0016]进一步地，步骤1 获取方式为： [0017]声纹录制，和/或，使用过往数据；说　明　书 1/4 页 3 CN 115130469 A 3

专利 一种基于语音合成的情绪数据标注方法

专利一种基于语音合成的情绪数据标注方法