(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210702751.2
(22)申请日 2022.06.21
(71)申请人 新疆大学
地址 830000 新疆维吾尔自治区乌鲁 木齐
市新疆大学北校区西院24号楼3单元
702
(72)发明人 于清 王海栋 吾守尔·斯拉木
姚家升 谢鸿儒
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 韩雪梅
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/49(2020.01)
G06F 40/30(2020.01)
G06F 40/242(2020.01)G06F 40/289(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于多语言平行语料库的医学术语提
取方法及系统
(57)摘要
本发明涉及一种基于多语言平行语料库的
医学术语提取方法及系统, 包括: 对医学知识数
据中的所有句子进行语义相似度计算, 得到平行
语料; 对每一平行语料的空缺语言进行翻译后将
所有类型语言的句子构建为多语言平行语料库;
对各平行语料中的句子进行分词, 提取医学术语
并结合对应的术语类型对所有句子进行编码标
注, 得到每一句子的编码序列并结合对应的句子
训练神经网络模 型, 根据训练后的神经网络识别
待识别的医学文本, 得到待识别的医学文本的编
码序列; 根据待识别的医学文本的编码序列确定
所述待识别的医学文本中的医学术语和对应术
语类型。 通过多语 言平行语料库和对应语言的医
生术语训练神经网络模型, 从而准确的提取更多
语言类型的医学术语 。
权利要求书3页 说明书9页 附图5页
CN 115062634 A
2022.09.16
CN 115062634 A
1.一种基于多语言平行语料库的医学术语提取 方法, 其特 征在于, 包括:
获取医学知识数据并对所述医学知识数据中的所有句子进行语义相似度计算;
将语义相似度值大于第一预设值的句子组成平行语料, 得到多种语义的平行语料; 每
一所述平行语料包括至少一种语言类型的句子;
对每一所述平行语料中的空缺语言进行翻译, 得到空缺语言的句子; 所述平行语料中
包括预设数量的语言类型; 所述预设数量的语言类型包括所述平行语料中的空缺语言的类
型和已有语言的类型。
将所有类型的语言的句子构建为多语言平行语料库;
对所述多语言平行语料库中的各所述平行语料中的句子进行分词, 并去除各分词中的
非医学术语, 得到每一种所述平行语料的医学术语;
依据所述平行语料的医学术语以及对应的术语类型对所述多语言语料库中的所有所
述句子进行编码标注, 得到每一所述句子的编码序列;
利用每一所述句子和对应的所述编码序列训练神经网络术语提取模型, 得到训练后的
神经网络术语提取模型; 根据训练后的神经网络术语提取模型识别待识别的医学文本, 得
到所述待识别的医学文本的编 码序列; 根据所述待识别的医学文本的编码序列确定所述待
识别的医学文本中的医学术语和对应术语 类型。
2.根据权利要求1所述的方法, 其特征在于, 所述对每一所述平行语料中的空缺语言进
行翻译, 得到空缺语言的句子, 具体包括:
对每一所述平行语料, 任意选 定一种空缺语言;
根据所述平行语料中各已有语言翻译至当前选定的所述空缺语言时的翻译准确度从
所述平行语料中选出一种已有语言的句子作为应用语言句子; 利用所述应用语言句子翻译
出当前选 定的所述空缺语言的句子;
从剩余的空缺语言中任意选定一种空缺语言并记为当前选定的所述空缺语言, 返回步
骤“根据所述平行语料中各已有语言翻译至当前选定的所述空缺语言时的翻译准确度从所
述平行语料中选出一种已有语言的句 子作为应用语言句 子”, 直至翻译出所有的所述空缺
语言的句子 。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述平行语料中各已有语言翻译
至当前选定的所述空缺语言时的翻译准确度从所述平行语料中选出一种已有语言的句子
作为应用语言句子, 具体包括:
确定所述平行语料中各已有语言翻译至当前选定的所述空缺语言时所应用的各个翻
译模型的翻译准确度;
判断是否存在所述翻译准确度大于第一预设值的所述翻译模型;
若不存在, 则从剩余的空缺语言中, 根据所述剩余的空缺语言翻译至选定的所述空缺
语言时的准确度从所述剩余的空缺语言中选 定出一种所述剩余空缺语言;
利用所述已有语言的句子翻译出选 定的所述剩余空缺语言的句子;
利用选定的所述剩余空缺语言的句子翻译出选 定的所述空缺语言的句子;
若存在, 则利用所述翻译准确度大于预设值的所述翻译模型翻译出所述空缺语言的句
子。
4.根据权利要求1或3所述的方法, 其特征在于, 所述利用所述应用语言句子翻译出当权 利 要 求 书 1/3 页
2
CN 115062634 A
2前选定的所述空缺语言的句子之后还具体包括:
判断翻译出的当前选定的所述空缺语言的句子对应的语义与所述应用语言句子的语
义的相似度是否大于第二预设值;
若是, 则保留翻译出的当前选 定的所述空缺语言的句子;
若否, 则删除所述应用语言句子的语义对应的所有语言表达类型的句子 。
5.根据权利要求1所述的方法, 其特征在于, 所述对所述多语言平行语料库中的各所述
平行语料中的句 子进行分词, 并去除各切分词中的非医学术语, 得到每一种 所述平行语料
的医学术语, 具体包括:
对每一所述平行语料, 根据语言的使用频率选 定一种目标语言的句子;
对选定的所述句子进行词汇切分, 得到各个切分词;
根据所述切分词对应语言的术语词典去除各个所述切分词中的非医学术语, 得到目标
语言的医学术语;
根据所述目标语言的医学术语分别得出其他语言的医学术语; 每一所述平行语料的医
学术语包括所述目标语言的医学术语和所述 其他语言的医学术语。
6.根据权利要求1或5所述的方法, 其特征在于, 所述依据所述平行语料的医学术语以
及对应的术语类型对所述多语言语料库中的所有 所述句子进 行编码标注, 得到每一所述句
子的编码序列, 具体包括:
对每一所述句子依据对应语言类型的医学术语确定所述句子中的非医学术语和医学
术语以及术语 类型;
根据所述 术语类型对所述句子中的所述医学术语进行编码;
对所述句子 中的非医学术语进行编码; 所述句子中的所述医学术语的编码与非医学术
语的编码不同;
根据所述句子中的所述医学术语的编码与所述非医学术语的编码确定所述句子的编
码序列。
7.根据权利要求1所述的方法, 其特征在于, 所述根据训练后的神经网络术语提取模型
识别待识别的医学文本, 得到所述待识别的医学文本的编码序列, 具体包括:
判断所述待识别的医学文本的语言类型 是否为所述多语言平行语料库中的语言类型;
若是, 则利用所述训练后的神经网络术语提取模型识别所述待识别的医学文本, 得到
所述待识别的医学文本的编码序列;
若否, 则将所述待识别的医学文本翻译成所述多语言平行语料库中的任意一种语言类
型的句子, 得到翻译后的医学句 子, 利用所述训练后的神经网络术语提取模型识别所述翻
译后的医学句子, 得到所述翻译后的医学句子的编码序列。
8.根据权利要求1或7所述的方法, 其特征在于, 所述根据所述待识别的医学文本的编
码序列确定所述待识别的医学文本中的医学术语和对应术语 类型之后还 包括:
判断所述待识别的医学文本是否存 储于所述多语言平行语料库中;
若否, 则将所述待识别的医学文本存储于所述多语言平行语料库中, 并将所述待识别
的医学文本翻译出所述多语言平行语料库中的其他语言类型的句子存储于所述多语言平
行语料库中。
9.一种基于 权利要求1至8任一项所述的方法的系统, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 115062634 A
3
专利 一种基于多语言平行语料库的医学术语提取方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:45上传分享