(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210650519.9
(22)申请日 2022.06.09
(71)申请人 杭州师范大学
地址 311121 浙江省杭州市余杭区余杭塘
路2318号
(72)发明人 黄剑平 巩帅 谢天豪 付雨
薛涛
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱亚冠
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/211(2020.01)
G06F 40/289(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种提高数据意图识别能力的文本数据增
强方法及装置
(57)摘要
本发明公开一种提高数据意图识别能力的
文本数据增强方法及装置, 该方法基于依存句法
解析树, 将具有相同结构的依存句法解析子树的
部分句子进行混合数据增强, 具有不相同结构的
依存句法解析子树的部分句子输入到掩码语言
模型中进行预测。 通过所述方法可以将一个少样
本的数据集扩增为一个形式丰富的数据集, 从而
可以用意图分类识别的训练任务, 提高其识别能
力, 增强其鲁棒 性。
权利要求书2页 说明书5页 附图2页
CN 114896372 A
2022.08.12
CN 114896372 A
1.一种提高数据意图识别能力的文本数据增强方法, 其特 征在于, 包括:
步骤(1)、 使用自然语言处理技术将待增强文本数据进行分词、 词性标注和依存句法分
析, 从而生成每个句 子的依存句法解析树; 所述依存句法解析树的每个节点包含分词和所
述分词所属的依存关系; 同时对每 个句子进行 标注, 所述标签为所属类别;
步骤(2)、 遍历所有句子, 对每个句子Si,i=1,2, …,N进行数据增强, 直至完成所有句子
的数据增强, 具体如下:
2‑1遍历所有句子, 对句子Si,i=1,2, …,N与其他句子Sj,j=1,2, …,N,i≠j进行依存
句法解析树分析, 获得多个当前句子Si与其他句子Sj,j=1,2, …,N,i≠j具有相同树结构部
分和不同树结构部 分, 其中与其他句子具有相同树结构部 分记为具有相同结构的依存句法
解析子树, 与其 他句子具有不同树结构部分记为具有不相同结构的依存句法解析子树;
2‑2对句子Si的与句子Sj具有相同结构的依存句法解析子树进行混合数据增强; 具体
是:
2‑2‑1判断当前依存句法解析子树是否满足树高度小于预设值P, 若否则不做操作; 若
是则继续判断句子Si与句子Sj的当前依存句法解析子树上节点对应的分词是否相同, 若相
同则将句子Si中当前依存句法解析子树所有节点对应分词使用词向量模型进行语义替换,
若不同则跳转至步骤(2 ‑2‑2);
2‑2‑2判断当前依存句法解析子树上节点对应分词的标签是否相同, 若相同则将句子Si
与句子Sj具有相同结构的依存句法解析子树所有节点对应分词进行随机替换, 若不同则将
句子Si与句子Sj具有相同结构的依存句法解析子树所有节点对应分词进行随机替换, 并把
类别标签按照替换后的节点数量在当前依存句法解析子树节点数量的比例作为 新的标签;
2‑3、 将句子Si的与句子Sj具有不相同结构的依存句法解析子树节点对应的分词输入到
掩码语言模型中进行 预测;
2‑4、 将步骤2 ‑2和步骤2 ‑3的输出数据进行拼接, 数据标签更新与步骤2 ‑2中的标签保
持一致;
2‑5、 重复步骤2 ‑1至2‑4直至完成句子Si与所有句子的依存句法解析树分析与数据增
强。
2.根据权利要 求1所述方法, 其特征在于, 步骤(2)中若句子Sj中具有相同结构的依存句
法解析子树数目与具有不相同结构的依存句法解析子树数目之比大于预设值P, 则认为句
子Si与句子Sj相似度高, 执行Dropout操作, 忽略句子Sj, 然后将句子Si与下一个句子进行比
较, 重复步骤(2)。
3.根据权利要求1所述方法, 其特征在于, 步骤(4)中所述掩码语言模型采用改进Bert
模型; 所述改进Bert模型包括多层堆叠的tran sformer的encoder单元, 所述transformer的
encoder单元由多头注意力机制层Muliti ‑Head‑Attention、 归一化层Layer
Normalization、 前馈层F eedforword、 归一 化层LayerN ormalization堆叠产生。
4.根据权利要求3所述方法, 其特征在于, 所述多头注意力 机制层的输入编码向量是由
掩码处理后的单词嵌入, 以及位置嵌入和分割嵌入进行单位和, 然后再拼接上分句符号
[SEP]构成, 其中掩码处理后的单词嵌入 是单词嵌入进行随机MASK掩码处理得到, 单词嵌入
表示当前单词的语义信息, 分割嵌入表示当前单词所在句 子的索引嵌入, 位置嵌入表示当
前单词在句子中的位置信息 。权 利 要 求 书 1/2 页
2
CN 114896372 A
25.根据权利要求3所述方法, 其特征在于, 所述归一化层是使用Sigmoid函数代替原来
的Softmax函数进行归一化, Sigmoid函数是可以将多头注意力机制层的输出映射在区间
(0,1)之间, 在有限的输出 范围之间可以使得归一 化层优化更加稳定 。
6.根据权利要求3所述方法, 其特征在于, 所述改进Bert模型的具体训练过程是: 假设
SENT_a和SENT_b是一组相似句, 在同一个batch中, 由掩码 处理后的单词嵌入, 以及位置嵌
入和分割嵌入进行单位和, 然后再拼接上分句符号[SEP]作为改进Bert模型中多头注意力
机制层的输入编码向量, 在 整个batch内剔除的句向量特征[ CLS]去生 成一个句向量矩阵V,
即b*d, 其维度是b是batch_size, d是hidden_size, 然后对句向量矩阵V在d维度上做0均值
标准化, 得到矩阵
对
进行两两内积, 得到相似度矩阵
然后掩盖矩阵
的对角线部分,
最后在归一化层对于相似度矩阵
每一行使用Sigmoid函数进行归一化, 使用交叉熵作为损
失函数, 最后在每 个transformer的encoder单 元得到每个单词新的向量表示。
7.实现权利要求1 ‑6任一项所述方法的文本数据增强装置, 其特 征在于包括:
数据分词模块, 用于将待增强文本数据进行分词;
数据词性标注模块, 用于将数据分词模块得到的单词进行词性标注;
数据依存句法分析模块, 用于将数据分词模块得到的单词和数据词性标注模块得到的
单词词性进行依存句法分析, 生成每 个句子的依存句法解析树;
数据增强模块, 对所有句子 完成数据增强。
8.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中
执行时, 令计算机执 行权利要求1 ‑6中任一项所述的方法。
9.一种计算设备, 包括存储器和处理器, 所述存储器中存储有可执行代码, 所述处理器
执行所述可执行代码时, 实现权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114896372 A
3
专利 一种提高数据意图识别能力的文本数据增强方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:09:03上传分享