国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210550303.5 (22)申请日 2022.05.20 (71)申请人 大连大学 地址 116622 辽宁省大连市经济技 术开发 区学府大街10号 (72)发明人 汪祖民 徐畅 季长清 秦静 (74)专利代理 机构 大连智高专利事务所(特殊 普通合伙) 2123 5 专利代理师 盖小静 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于生成对抗网络的规范医疗文本改 写方法 (57)摘要 本发明公开了一种基于生成对抗网络的规 范医疗文本改写方法, 包括: 抽取口语化和规范 化的医疗问答语料进行处理, 获得数据集; 采用 Transformer模型构建规范化医疗文本生成器与 口语化医疗文本生成器, 通过用户健康术语映射 表进行预训练, 得到规范化医疗文本; 采用LSTM 神经网络构建规范化医疗文本判别器与口语化 医疗文本判别器; 结合医疗文本特征, 使用损失 函数分别优化规范化医疗文本判别器与口语化 医疗文本判别器; 采用强化学习方式优化规范化 医疗文本生成器与口语化医疗文本生成器。 本发 明实现了口语化文本与规范化文本之间相互迁 移改写, 解决传统文本迁移模型对 标注语料的过 分依赖问题, 使模型在没有平行语料的情况下仍 然可靠, 减少人工标注数据需要耗费的工作量。 权利要求书4页 说明书7页 附图2页 CN 114757188 A 2022.07.15 CN 114757188 A 1.一种基于生成对抗网络的规范医疗文本改写方法, 其特 征在于, 包括: 抽取口语化和规范化的医疗问答语料进行处 理, 获得数据集; 采用Tran sformer模型构建规范化医疗文本生成器 与口语化医疗文本生成 器 通过用户健康术语映射表进行 预训练, 得到规范化医疗文本; 采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器 DΦ2(X)(X); 结合医疗文本特征, 使用 损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化 医疗文本判别器DΦ2(X)(X); 采用强化学习方式优化规范化医疗文本生成器 与口语化医疗文本生成器 2.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 所述数据集中口语化的语句作为X风格样本, 包含规范化词语的语句作为要转换的Y目标风 格的伪平行样本; 通过用户健康术语映射表对测试集中能够与术语映射的口语化语句进 行 标注, 作为隐藏层提供 给规范化医疗文本生成器 3.根据权利要求2所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 所述数据集包括: 数据集X={x1, x2,…, xi,…, xn}, 数据集Y={y1, y2,…, yi,…, yn}, 其中, i 表示第i条样本, n表示共有n条样 本, x与y分别表 示口语化风格的样本语句与规范化风格的 样本语句; 口语化风格的样本语句表示为: 表示句子的第t个词, T表示句子长 度, 即词的数量; 为了能够使口语化风格的样本语句与规范化风格的样本语句相互关联, 通过分词识别 出每条语句中的医疗实体后, 结合用户健康术语映射表对未规范的口语化风格的样本语句 进行标注, 标注序列记为 其中, 需要进行规范化的样本语句对应位置标注为 1, 无需规范化的样本语句则标注为0 。 4.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用Transformer模型构建规范化医疗文本生成器 与口语化医疗文本生成器 具体为: 采用C ycleGAN结构, 构建规范化医疗文本生 成器 与口语 化医疗文本 生成器 两个生成器的生成方向相反, 连接后能够形成闭环互相提 供反馈信息 。 5.根据权利要求4所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 使用最大似然估计预训练规范化医疗文本生成器 与口语化医疗文本生成器 具体方式为: 设置生成句式最长长度为30个词, 给定词嵌入维度Embedding_ size值为512, 编码器Encoder和解码器Decoder均为六层结构; 将用户健康术语映射表设为 生成词表, 使用从口语化风格样本语句与规范化风格样本语句中划分出的训练集一起预训 练词向量, 生成单词对应的Embed ding初始值。 6.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X)权 利 要 求 书 1/4 页 2 CN 114757188 A 2(X), 具体为: 将LSTM神经网络的最后一个隐藏层Hn替换为二元逻辑回归层, 确定输入的医疗文本是 来自于数据集Y的真实样本还是由规范化医疗文本生成器生成的样本 对于输入的医疗文本高维序列进行非线性转换, 得到序列中单词的Embeddin g, 然后输 入到每个基本单元cell中, 结合全连接隐藏层得到 输出每个单词的概 率。 7.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 使用损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X) (X), 具体为: 在生成器可调 参数θ1固定的情况下随机采样数据集Y的真实样本以及规范化医疗文本 生成器生成的样本 然后最小化交叉熵; 规范化医疗文本判别器DΦ1(Y)(Y)的损失函数如 下: Lall=β1L1+β2L2 其中L1为规范化医疗文本判别器的生成对抗损失, β1为损失项系数, L2为序列标注损 失, β2为损失项系数, β1与β2的范围均小于 0.5; 在生成器可调 参数θ2固定的情况下随机采样数据集X的真实样本以及口语化医疗文本 生成器生成的样本 然后最小化交叉熵; 口语化医疗文本判别器DΦ2(X)(X)的损失函数如 下: L′all=β1L′1+β2L′2 其中L′1为口语化医疗文本判别器的生成对抗损失, β1为损失项系数, L ′2为序列标注损 失, β2为损失项系数, β1与β2的范围均小于 0.5。 8.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法, 其特征在于, 采用强化学习方式优化 规范化医疗文本生成器, 具体为: 规范化医疗文本生成器采用最小化交叉熵损失函数来优化: 上述公式的梯度等于下式: 结合强化学习机制, 获取规范化医疗文本生成器 的奖励函数为:权 利 要 求 书 2/4 页 3 CN 114757188 A 3
专利 一种基于生成对抗网络的规范医疗文本改写方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:20
上传分享
举报
下载
原文档
(956.0 KB)
分享
友情链接
T-SDCMIA DD15—2019 中华大蟾蜍养殖技术规范.pdf
NB-T 13007—2021 生物柴油(BD100)原料 废弃油脂.pdf
GB-T 38548.4-2020 内容资源数字化加工 第4部分:元数据.pdf
GB-T 15320-2001节能产品评价导则.pdf
GB-T 40653-2021 信息安全技术 安全处理器技术要求.pdf
GB-T 34934-2017 机械电气安全 安全相关设备中的通信系统使用指南.pdf
GB-T 3408.2-2008 大坝监测仪器 应变计 第2部分:振弦式应变计.pdf
GB-T 36637-2018 信息安全技术 ICT供应链安全风险管理指南.pdf
GB-T 25056-2018 信息安全技术 证书认证系统密码及其相关安全技术规范.pdf
GB-T 43555-2023 智能服务 预测性维护 算法测评方法.pdf
GB-T 21023-2007 中文语音识别系统通用技术规范.pdf
GB 12676-2014 商用车辆和挂车制动系统技术要求及试验方法.pdf
DB31-T 945.5-2020 节能服务业服务规范 第5部分:节能量审核 上海市.pdf
GB-T 22024-2008 气雾剂级正丁烷 A-17.pdf
GB-T 28451-2023 信息安全技术 网络入侵防御产品技术规范.pdf
SN-T 4261-2015 出口中药材中苯并(a)芘残留量的测定.pdf
GB-T 20042.3-2022 质子交换膜燃料电池 第3部分:质子交换膜测试方法.pdf
GB-T 36558-2023 电力系统电化学储能系统通用技术条件.pdf
民航 MH-T 6038-2012 民用航空燃料水路运输质量控制.pdf
GA-T 1781-2021 公共安全社会视频资源安全联网设备技术要求.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(956.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。