国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210861283.3 (22)申请日 2022.07.20 (71)申请人 杭州一知智能科技有限公司 地址 311200 浙江省杭州市萧 山区启迪路 198号杭州湾信息 港F座7楼 (72)发明人 张涛 姜兴华 陈煦 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 一种基于鉴别器思想的文本蒸馏方法、 系统 和存储介质 (57)摘要 本发明公开了一种基于鉴别器思想的文本 蒸馏方法、 系统和存储介质, 属于自然语言处理 领域。 方法包括: 获取已标注的第一文本数据集 和未标注的第二文本数据集; 利用所述的第一文 本数据集对 预训练模型进行训练, 将训练好的预 训练模型作为教师模型; 所述的预训练模型包括 若干相同的网络层; 构建学生模型, 利用第二文 本数据集对教师模型和学生模型进行知识蒸馏 训练, 并采用掩码训练法测试学生模 型的学习效 果, 结合知识蒸馏损失和掩码训练损失更新学生 模型的参数; 将训练好的学生模型代替教师模 型。 本发明对传统的知识蒸馏算法进行了改进, 让学生模型在参数量尽可能小的情况下提高性 能, 使其在性能表现上像教师模型一样优秀。 权利要求书2页 说明书8页 附图2页 CN 115271064 A 2022.11.01 CN 115271064 A 1.一种基于鉴别器思想的文本蒸馏方法, 其特 征在于, 包括: 获取已标注的第一文本数据集和未 标注的第二文本数据集; 利用所述的第 一文本数据集对预训练模型进行训练, 将训练好的预训练模型作为教师 模型; 所述的预训练模型包括 n个相同的网络层; 构建由m个与所述的预训练模型相同的网络层组成的学生模型, 利用第二文本数据集 对教师模型和学生模型进行知识蒸馏训练, 并采用掩码训练法测试学生模型 的学习效果, 结合知识蒸馏损失和掩码训练损失更新学生模型的参数; 其中, m<n; 将训练好的学生模型代替教师模型。 2.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的预训练 模型由12层t ransformer网络组成。 3.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 还包括测试训 练好的学生模型的训练效果的步骤, 具体为: 测试教师模型和学生模 型的准确率的差值, 若 差值高于阈值, 则构建由m+1个与所述的预训练模型相同的网络层组成的学生模型重新进 行训练。 4.根据权利要求3所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的学生模 型初始化 为由2‑4个与所述的预训练模型相同的网络层构成。 5.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的学生模 型中的最后一层网络层之后还设有一层或多层全连接层。 6.根据权利要求5所述的基于鉴别器思想的文本蒸馏方法, 其特征在于, 所述的采用掩 码训练法测试 学生模型的学习效果, 包括: 对第二文本数据集中的原始文本语句进行随机掩码, 将教师模型作为生成器, 将掩码 后的文本语句作为教师模型 的输入, 由教师模型输出将掩码部分填充后的预测文本语句; 对比预测文本语句和原始文本语句, 将不一致的字符标记 为1, 其余标记为0, 将标记结果作 为每一条 预测文本语句的真实标签; 将学生模型作为为鉴别器, 将预测文本语句作为学生模型的输入, 由学生模型判断预 测文本语句中每一个字符是否经 过修改, 由全连接层输出 预测结果; 根据教师模型生成的真实标签和学生模型生成的预测结果计算掩码训练损失。 7.一种基于鉴别器思想的文本蒸馏系统, 其特 征在于, 包括: 文本数据获取模块, 其用于获取已标注的第一文本数据集和未标注的第二文本数据 集; 第一训练模块, 其用于利用所述的第一文本数据集对预训练模型进行训练, 将训练好 的预训练模型作为教师模型; 所述的预训练模型包括 n个相同的网络层; 学生模型构建模块, 其用于构建由m个与所述的预训练模型相同的网络层组成的学生 模型; 第二训练模块, 其用于利用第二文本数据集对教师模型和学生模型进行知识蒸馏训 练, 计算知识蒸馏损失; 掩码测试模块, 其用于采用掩码训练法测试 学生模型的学习效果, 计算掩码训练损失; 学生模型参数更新模块, 其用于结合知识蒸馏损失和掩码训练损失更新学生模型的参 数。权 利 要 求 书 1/2 页 2 CN 115271064 A 28.根据权利要求7 所述的基于鉴别器思想的文本蒸馏系统, 其特 征在于, 还 包括: 训练效果测试模块, 其用于测试教师模型和学生模型的准确率的差值, 若差值高于阈 值, 则由学生模型构建模块构建由m+1个与所述的预训练模型相同的网络层组成的学生模 型重新进行训练。 9.一种电子设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储计算机程序; 所述处理器, 用于当执行所述计算机程序时, 实现如权利要求1至6任一项所述的基于 鉴别器思想的文本蒸馏方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时, 实现如权利要求1至 6任一项所述的基于鉴别器思想的文本蒸馏方法。权 利 要 求 书 2/2 页 3 CN 115271064 A 3
专利 一种基于鉴别器思想的文本蒸馏方法、系统和存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:41
上传分享
举报
下载
原文档
(489.7 KB)
分享
友情链接
关键信息基础设施网络安全保护基本要求 关基安全保护基本要求报批稿 2019.11.5 .pdf
GA-T 1177-2014 信息安全技术 第二代防火墙安全技术要求.pdf
DB63-T1868-2020 市场监管信息系统运维规范 青海省.pdf
GB-T 42581-2023 信息技术服务 数据中心业务连续性等级评价准则.pdf
NB-T 10533-2021 采煤沉陷区治理技术规范.pdf
DB33-T 310016—2023 工业园区挥发性有机物传感器法网格化监测技术规范 浙江省.pdf
GB-T 19472.1-2019 埋地用聚乙烯 PE 结构壁管道系统 第1部分:聚乙烯双壁波纹管材.pdf
GB-T 41831-2022 项目管理专业人员能力评价要求.pdf
T-CI 155—2023 基于多模态大模型的智慧交通出行技术规范.pdf
TB-T 1495-2020 弹条Ⅰ型扣件.pdf
T-GIES 012—2023 LED驱动电源技术规范.pdf
GB-T 36687-2018 保险术语.pdf
GB-T 13861-2022 生产过程危险和有害因素分类与代码.pdf
NIST 软件开发安全框架SSDF v1.0 2020 英文版.pdf
GB-T 33319-2016 塑料 聚乙烯 PE 透气膜专用料.pdf
GB-T 41864-2022 信息技术 计算机视觉 术语.pdf
YD-T 4047.3-2022 分布式中间件服务技术能力要求 第3部分:API网关.pdf
DB14-T 2136-2020 《特种设备风险分级管控实施指南》 山西省.pdf
NB-T 10682-2021 数字化继电保护现场系统级检测规范.pdf
GB-T 36595-2018 纳米钛酸钡.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(489.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。