(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210806846.9
(22)申请日 2022.07.08
(71)申请人 重庆大学
地址 400044 重庆市沙坪坝区沙正 街174号
(72)发明人 曾骏 钟林 陶泓锦 王子威
周魏 文俊浩
(74)专利代理 机构 重庆晟轩知识产权代理事务
所(普通合伙) 50238
专利代理师 孔玲珑
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 40/247(2020.01)
G06K 9/62(2022.01)
G06F 16/35(2019.01)
(54)发明名称
一种基于动态多掩码和增强对抗的文本匹
配方法
(57)摘要
本发明涉及一种基于动态多掩码和增强对
抗的文本匹配方法, 包括如下步骤: 选取公开数
据集; 采用现有模型BERT作为基线模型构建
DAINet模型, DAINet模型包括W个掩码增强对抗
模块和一个集 成输出模块I O, 每个掩码增强对抗
模块包括一个动态多掩码模组和一个增强对抗
模组; 所述IO通过对W个掩码增强对抗模块的输
出进行加权求和得到DAINet模型的输 出。 使用本
发明模型可以提高中文文本匹配任务的匹配精
度和运行稳定性。
权利要求书3页 说明书12页 附图1页
CN 115081446 A
2022.09.20
CN 115081446 A
1.一种基于动态多掩码和 增强对抗的文本匹配方法, 其特 征在于: 包括如下步骤:
S100: 选取公开数据集 I作为训练样本集;
S200: 采用现有模型作为基线模型构建DAINet模型, DAINet模型包括W个掩码增强对抗
模块和一个集成输出模块IO, 每个掩码增强对抗模块包括一个动态多掩码模组和一个增强
对抗模组; 所述IO通过对W个掩码增强对抗模块的输出进行加 权求和得到DAINet模型的输
出;
每个掩码增强对抗模块均通过如下 方法获得:
将现有模型中的单一掩码策略改进为动态多掩码策略得到动态多掩码模组, 记为DMM;
在现有模型中增 加多种方式对数据进行 数据增强得到增强对抗模组, 记为A A;
S300: 设置最大迭代次数, 采用公开数据集I中的训练样本集数据对W个掩码增强对抗
模块中的每个DMM进行训练, 当达到最大迭代次数时, 则认为W个DMM训练完成得到W个最优
DMM;
S400: 对于一个测试任务, 获取与该测试任务相同类型的公开数据集II, 分为测试集和
训练集, 公开数据集II中包括N组中文语句对和与N组语句对一一对应的一致性标签, 每组
中文语句对 包括语句Sa和语句Sb, 语句Sa和语句Sb形式如下:
其中,
表示语句Sa中的第r个中文字符,
表示语句Sb中的第k个中文字符;
S500: 每个掩码增强对抗模块中的AA使用与其在同一掩码增强对抗模块中的最优DMM
的参数;
将公开数据集II中的测试集中所有数据输入AA中, 如果测试准确率达到设定的阈值,
则使用最优DM M的参数的A A为训练好A A, 并执行S700; 否则执 行S600;
S600: 使用训练集对W个掩码增强对抗模块中的A A进行训练, 训练过程如下:
S610: 每个掩码增强对抗模块中的AA使用与其在同一掩码增强对抗模块中的最优DMM
的参数;
S611: 令batc h=1;
S612: 从训练集中随机 选择M个训练样本作为 一个batc h;
S620: 选择训练样本集中第j个训练样本语句对(Saj,Sbj)以及相对应的一致性标签, 作
为第j个训练样本, 使用A A对第j个训练样本进行处 理得到微调损失函数L, 具体步骤如下:
S621: 使用A A对训练样本语句对(Saj,Sbj)进行数据增强处 理;
S622: 定义第j个训练样本的嵌入向量 为
表达式如下:
其中, vw是第j个训练样本语句中中文字符w的嵌入向量, ( ‑∈gw/||gw||2)表示根据梯度
计算得到 的扰动值, gw表示采用交叉熵损失计算得到 的扰动梯度, ∈表示调整扰动大小的
超参数;
其中,
表示梯度计算操作, P(y/vw)表示条件概 率,
表示AA的整体参数;
S623: 通过对中文字符的特征拼接处理, 计算第j个训练样本中的语义标签
表达权 利 要 求 书 1/3 页
2
CN 115081446 A
2式如下:
其中, FFN表示线性层函数,
表示第j个训练样本中的语义标签, Vjbm25、 Vjtf‑id和
Vjelmo分别表示现有的三种不同的拼接特征技术, hcls表示AA对中文字符进行池化处理得到
的池化输出;
S624: 利用
计算(Saj, Sbj)经过DMM处理后的最终输出
计算表达式如下:
其中,
S625: 将j遍历其所有取值, 重复S620 ‑S624;
S626: 计算A A的基线损失函数L ′base, 计算表达式如下:
其中, N表示样本总数, yj∈{0, 1}表示第j个训练样本的标签;
S627: 将batc h中的所有训练样本 输入AA, 计算AA的对抗损失函数Ladv( θ ), 表达式如下:
其中, m表示第m个batc h, M表示batc h总数, pj表示给定vw对应的条件概 率值;
S628: 计算每 个AA的微调损失函数L, 计算表达式如下:
L=L′base+α Ladv( θ ); (8)
其中, α 表示损失项的权 重;
S629: 当微调损失函数L收敛不再变化时, 停止训练得到训练好的AA, 并执行下一步; 否
则采用梯度下降法 反向更新每 个AA中的参数, 令batc h=batch+1, 并返回S612;
S700: 将待预测中文文本分别输入到W个训练好AA中, 得到W个输出, W个输出作为IO的
输入, IO将W个输入进行加权求和得到待预测中文 文本预测结果 logits, 计算表达式如下:
其中,
是第W个训练好A A的输出, αw表示第W个训练好A A的输出所占的权 重。
2.如权利要求1所述的一种基于动态多掩码和增强对抗的文本匹配方法, 其特征在于:
所述S200中集成输出模块 IO是由BERT, NEZHA, RoBERTa和macBERT模型集成得到 。
3.如权利要求2所述的一种基于动态多掩码和增强对抗的文本匹配方法, 其特征在于:
所述S200中动态掩码模块中包括的多种掩码策略为原始单掩码方法MLM, 全词掩码方法WWM
和N‑Gram掩码方法NGM 。
4.如权利要求3所述的一种基于动态多掩码和增强对抗的文本匹配方法, 其特征在于:
所述S621中AA对训练样本语句对(Saj, Sbj)进行数据增强处理包括对训练样本语句对(Saj,
Sbj)依次进行 标签转换、 对偶训练和同义词替换。
5.如权利要求4所述的一种基于动态多掩码和增强对抗的文本匹配方法, 其特征在于:
所述S300中对W个掩码增强对抗模块中的每 个DMM进行训练的具体步骤为:
S310: 从训 练样本集中选择第i组语句对(Sai, Sbi)作为DMM模组的输入, 第i组语句对权 利 要 求 书 2/3 页
3
CN 115081446 A
3
专利 一种基于动态多掩码和增强对抗的文本匹配方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:28上传分享