专利 一种基于生成对抗网络的规范医疗文本改写方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210550303.5 (22)申请日 2022.05.20 (71)申请人大连大学地址 116622 辽宁省大连市经济技术开发区学府大街10号 (72)发明人汪祖民　徐畅　季长清　秦静　 (74)专利代理机构大连智高专利事务所(特殊普通合伙) 2123 5 专利代理师盖小静 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于生成对抗网络的规范医疗文本改写方法 (57)摘要本发明公开了一种基于生成对抗网络的规范医疗文本改写方法，包括：抽取口语化和规范化的医疗问答语料进行处理，获得数据集；采用 Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器，通过用户健康术语映射表进行预训练，得到规范化医疗文本；采用LSTM 神经网络构建规范化医疗文本判别器与口语化医疗文本判别器；结合医疗文本特征，使用损失函数分别优化规范化医疗文本判别器与口语化医疗文本判别器；采用强化学习方式优化规范化医疗文本生成器与口语化医疗文本生成器。本发明实现了口语化文本与规范化文本之间相互迁移改写，解决传统文本迁移模型对标注语料的过分依赖问题，使模型在没有平行语料的情况下仍然可靠，减少人工标注数据需要耗费的工作量。权利要求书4页说明书7页附图2页 CN 114757188 A 2022.07.15 CN 114757188 A 1.一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，包括：抽取口语化和规范化的医疗问答语料进行处理，获得数据集；采用Tran sformer模型构建规范化医疗文本生成器与口语化医疗文本生成器通过用户健康术语映射表进行预训练，得到规范化医疗文本；采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器 DΦ2(X)(X)；结合医疗文本特征，使用损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X)(X)；采用强化学习方式优化规范化医疗文本生成器与口语化医疗文本生成器 2.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，所述数据集中口语化的语句作为X风格样本，包含规范化词语的语句作为要转换的Y目标风格的伪平行样本；通过用户健康术语映射表对测试集中能够与术语映射的口语化语句进行标注，作为隐藏层提供给规范化医疗文本生成器 3.根据权利要求2所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，所述数据集包括：数据集X＝{x1， x2，…， xi，…， xn}，数据集Y＝{y1， y2，…， yi，…， yn}，其中， i 表示第i条样本， n表示共有n条样本， x与y分别表示口语化风格的样本语句与规范化风格的样本语句；口语化风格的样本语句表示为：表示句子的第t个词， T表示句子长度，即词的数量；为了能够使口语化风格的样本语句与规范化风格的样本语句相互关联，通过分词识别出每条语句中的医疗实体后，结合用户健康术语映射表对未规范的口语化风格的样本语句进行标注，标注序列记为其中，需要进行规范化的样本语句对应位置标注为 1，无需规范化的样本语句则标注为0 。 4.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器具体为：采用C ycleGAN结构，构建规范化医疗文本生成器与口语化医疗文本生成器两个生成器的生成方向相反，连接后能够形成闭环互相提供反馈信息。 5.根据权利要求4所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，使用最大似然估计预训练规范化医疗文本生成器与口语化医疗文本生成器具体方式为：设置生成句式最长长度为30个词，给定词嵌入维度Embedding_ size值为512，编码器Encoder和解码器Decoder均为六层结构；将用户健康术语映射表设为生成词表，使用从口语化风格样本语句与规范化风格样本语句中划分出的训练集一起预训练词向量，生成单词对应的Embed ding初始值。 6.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，采用LSTM神经网络构建规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X)权　利　要　求　书 1/4 页 2 CN 114757188 A 2(X)，具体为：将LSTM神经网络的最后一个隐藏层Hn替换为二元逻辑回归层，确定输入的医疗文本是来自于数据集Y的真实样本还是由规范化医疗文本生成器生成的样本对于输入的医疗文本高维序列进行非线性转换，得到序列中单词的Embeddin g，然后输入到每个基本单元cell中，结合全连接隐藏层得到输出每个单词的概率。 7.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，使用损失函数分别优化规范化医疗文本判别器DΦ1(Y)(Y)与口语化医疗文本判别器DΦ2(X) (X)，具体为：在生成器可调参数θ1固定的情况下随机采样数据集Y的真实样本以及规范化医疗文本生成器生成的样本然后最小化交叉熵；规范化医疗文本判别器DΦ1(Y)(Y)的损失函数如下： Lall＝β1L1+β2L2 其中L1为规范化医疗文本判别器的生成对抗损失， β1为损失项系数， L2为序列标注损失， β2为损失项系数， β1与β2的范围均小于 0.5；在生成器可调参数θ2固定的情况下随机采样数据集X的真实样本以及口语化医疗文本生成器生成的样本然后最小化交叉熵；口语化医疗文本判别器DΦ2(X)(X)的损失函数如下： L′all＝β1L′1+β2L′2 其中L′1为口语化医疗文本判别器的生成对抗损失， β1为损失项系数， L ′2为序列标注损失， β2为损失项系数， β1与β2的范围均小于 0.5。 8.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法，其特征在于，采用强化学习方式优化规范化医疗文本生成器，具体为：规范化医疗文本生成器采用最小化交叉熵损失函数来优化：上述公式的梯度等于下式：结合强化学习机制，获取规范化医疗文本生成器的奖励函数为：权　利　要　求　书 2/4 页 3 CN 114757188 A 3

专利 一种基于生成对抗网络的规范医疗文本改写方法

专利一种基于生成对抗网络的规范医疗文本改写方法