(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210555421.5
(22)申请日 2022.05.19
(71)申请人 信雅达科技股份有限公司
地址 310051 浙江省杭州市滨江区江南大
道3888号信雅达科技大厦
(72)发明人 操玉琴 宣明辉 李宇豪
(74)专利代理 机构 杭州裕阳联合专利代理有限
公司 33289
专利代理师 杨琪宇
(51)Int.Cl.
G06F 40/274(2020.01)
G06F 40/284(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于语义模型生成式数据增强方法和
系统
(57)摘要
本发明公开了一种基于语义模型的生成式
数据增强方法和系统, 所述方法包括: 获取无监
督数据, 将所述无监督数据转化为满足bert模型
输入格式的样本数据; 设置均匀遮掩策略, 并设
置至少30%的遮掩率配置遮掩符; 根据所述均匀
遮掩策略和遮掩率设置对所述样本数据中的句
子进行采样 遮掩, 预训练所述bert模型后得到语
言遮掩模型; 将需要增强的数据句子进行分词后
对每个分词结果进行遮掩, 并将遮掩后的分词结
果输入到 所述语言遮掩模型中, 输出预测的相似
句。 所述方法和系统通过提高遮掩率条件下, 更
大的token被遮蔽了, 从而降低了上下文长度, 模
型需要做更多的预测, 在更多预测的条件下, 模
型将学习到更多特 征。
权利要求书1页 说明书5页 附图1页
CN 115017892 A
2022.09.06
CN 115017892 A
1.一种基于语义模型的生成式数据增强方法, 其特 征在于, 所述方法包括:
获取无监督数据, 将所述无监 督数据转 化为满足ber t模型输入格式的样本数据;
设置均匀遮 掩策略, 并设置 至少30%的遮掩率配置遮 掩符;
根据所述均匀遮掩策略和遮掩率设置对所述样本数据中的句子进行采样遮掩, 预训练
所述bert模型后得到语言遮 掩模型;
将需要增强的数据句子进行分词后对每个分词结果进行遮掩, 并将遮掩后的分词结果
输入到所述语言遮 掩模型中, 输出 预测的相似句。
2.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 所述
均匀遮掩 策略包括: 获取样 本数据中的句子, 计算每一个句子的长度和总句子长度, 根据句
子总长度生成均匀分布随机数, 根据所述均匀分布随机数利用遮掩符替换对应的字符得到
所有句子的遮 掩结果。
3.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 所述
均匀遮掩 策略包括: 获取样 本数据中的句子后, 将所述句子进 行首尾排序, 每个字符得到排
序序号, 根据总的排序个数生成总个数范围内的均匀分布随机数, 根据所述均匀分布随机
数利用掩码符将对应位置的字符进行替换。
4.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 所述
掩码率的配置方法包括: 获取样本数据中的句子后, 计算首尾排序后句子的总字符数, 并根
据所述总字符数条件 下配置至少30%的掩码率, 根据预先配置的掩码率和总字符数得到所
述均匀分布随机数的个数, 根据所述均匀分布随机数 下对应字符的掩码替换操作。
5.根据权利要求4所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 计算
所有排序后句子的总字符数, 并将总字符数的40%作为当前句子的掩码率, 利用均匀分布
随机数和掩码符将对应字符进行替换。
6.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 将分
词后被遮掩的句子输入到训练好的语言遮掩模型中, 使用token进行变换得到字典词数大
小的输出, 用于判断预测位置的输出。
7.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 所述
方法包括: 获取所述语言遮掩模型输出的矩阵中对应被遮掩对应位置的向量进行线性分
类, 根据线性分类的结果获取被遮 掩的字符在对应字典中的下 标, 进一步获取相似句。
8.根据权利要求1所述的一种基于语义模型的生成式数据增强方法, 其特征在于, 所述
方法包括: 获取同一句 子中不同分词 结果后的被遮掩的句 子集合, 进一步根据所述语言遮
掩模型输出的矩阵中对应 被遮掩对应位置的向量进行线性分类, 得到不同的相似句集 合。
9.一种基于语义模型的生成式数据增强系统, 其特征在于, 所述系统执行上述权利要
求1‑8中任意一项所述的一种基于语义模型的生成式数据增强方法。
10.一种计算机可读存储介质, 其特征在于, 计算机可读存储介质存储有计算机程序,
所述计算机程序可被处理器执行权利要求 1‑8中任意一项 所述的一种基于语义模型的生成
式数据增强方法。权 利 要 求 书 1/1 页
2
CN 115017892 A
2一种基于语 义模型生成式数据增强方 法和系统
技术领域
[0001]本发明涉及数据增强技术领域, 特别涉及 一种基于语义模型的生成式数据增强方
法和系统。
背景技术
[0002]目前现有针对银行等保密机构系统开发的Transformer模型越来越大, 参数越来
越多, 2021年, Google推出了1.6万亿参数的Switch Transformer。 预训练模型的效果在很
多竞赛中得到展现, 但是回到实际场景中发现利用预训练模型并不能很好的解决下游任
务, 究其原因是因为没有足够的领域数据, 预训练模型进行微调后得到的模型没有足够的
泛化能力, 严重影响了下游任务的准确度, 降低用户体验。 上述现现有技术存在如下技术问
题: 1、 银行政府等机构的数据保密性高, 数据难以收集, 训练数据有限; 2、 数据量不足在深
度学习训练 时容易过拟合, 鲁棒性差; 3、 数据不 足导致银行下游分类任务识别准确性差, 降
低用户的体验, 导 致投诉率高。
发明内容
[0003]本发明其中一个发明目的在于提供一种基于语义模型的生成式数据增强方法和
系统, 所述方法和系统通过Bert中的MASK机制选择更高比例的token, 并且不再执行分区掩
码, 直接执行随机均匀掩码, 然后才进一步执行b ert预训练任务, 从而得到遮蔽语言模型,
所述遮蔽语言模型通过均匀掩码策略可以增加遮蔽高相关字符的几率, 从而 可以大幅减少
琐碎的to ken, 使得模型的鲁棒 性更好。
[0004]本发明其中一个发明目的在于提供一种基于语义模型的生成式数据增强方法和
系统, 所述方法和系统通过提高遮掩率条件下, 更大的token被遮蔽了, 从而降低了上下文
长度, 模型需要做更多的预测, 在更多预测的条件下, 模型将学习到更多特 征。
[0005]本发明其中一个发明目的在于提供一种基于语义模型的生成式数据增强方法和
系统, 所述方法和系统在基于高遮掩率条件下执行均匀遮掩策略, 可以产生相比于复杂遮
掩策略的模型效果, 从而 使得大幅降低复杂遮 掩策略的任务操作, 模型训练更加便捷。
[0006]本发明其中一个发明目的在于提供一种基于语义模型的生成式数据增强方法和
系统, 所述方法和系统设置的模型采用的是 无监督数据, 因此 无需人工对数据进行 标注,
[0007]为了实现至少一个上述发明目的, 本发明进一步提供一种基于语义模型的生成式
数据增强方法, 所述方法包括:
[0008]获取无监督数据, 将所述无监 督数据转 化为满足ber t模型输入格式的样本数据;
[0009]设置均匀遮 掩策略, 并设置 至少30%的遮掩率配置遮 掩符;
[0010]根据所述均匀遮掩策略和遮掩率设置对所述样本数据中的句子进行采样遮掩, 预
训练所述ber t模型后得到语言遮 掩模型;
[0011]将需要增强的数据句子进行分词后对每个分词结果进行遮掩, 并将遮掩后的分词
结果输入到所述语言遮 掩模型中, 输出 预测的相似句。说 明 书 1/5 页
3
CN 115017892 A
3
专利 一种基于语义模型生成式数据增强方法和系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:34上传分享