专利 一种基于多语言平行语料库的医学术语提取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210702751.2 (22)申请日 2022.06.21 (71)申请人新疆大学地址 830000 新疆维吾尔自治区乌鲁木齐市新疆大学北校区西院24号楼3单元 702 (72)发明人于清　王海栋　吾守尔·斯拉木　姚家升　谢鸿儒　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师韩雪梅 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/49(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01)G06F 40/289(2020.01) G06N 3/04(2006.01) (54)发明名称一种基于多语言平行语料库的医学术语提取方法及系统 (57)摘要本发明涉及一种基于多语言平行语料库的医学术语提取方法及系统，包括：对医学知识数据中的所有句子进行语义相似度计算，得到平行语料；对每一平行语料的空缺语言进行翻译后将所有类型语言的句子构建为多语言平行语料库；对各平行语料中的句子进行分词，提取医学术语并结合对应的术语类型对所有句子进行编码标注，得到每一句子的编码序列并结合对应的句子训练神经网络模型，根据训练后的神经网络识别待识别的医学文本，得到待识别的医学文本的编码序列；根据待识别的医学文本的编码序列确定所述待识别的医学文本中的医学术语和对应术语类型。通过多语言平行语料库和对应语言的医生术语训练神经网络模型，从而准确的提取更多语言类型的医学术语。权利要求书3页说明书9页附图5页 CN 115062634 A 2022.09.16 CN 115062634 A 1.一种基于多语言平行语料库的医学术语提取方法，其特征在于，包括：获取医学知识数据并对所述医学知识数据中的所有句子进行语义相似度计算；将语义相似度值大于第一预设值的句子组成平行语料，得到多种语义的平行语料；每一所述平行语料包括至少一种语言类型的句子；对每一所述平行语料中的空缺语言进行翻译，得到空缺语言的句子；所述平行语料中包括预设数量的语言类型；所述预设数量的语言类型包括所述平行语料中的空缺语言的类型和已有语言的类型。将所有类型的语言的句子构建为多语言平行语料库；对所述多语言平行语料库中的各所述平行语料中的句子进行分词，并去除各分词中的非医学术语，得到每一种所述平行语料的医学术语；依据所述平行语料的医学术语以及对应的术语类型对所述多语言语料库中的所有所述句子进行编码标注，得到每一所述句子的编码序列；利用每一所述句子和对应的所述编码序列训练神经网络术语提取模型，得到训练后的神经网络术语提取模型；根据训练后的神经网络术语提取模型识别待识别的医学文本，得到所述待识别的医学文本的编码序列；根据所述待识别的医学文本的编码序列确定所述待识别的医学文本中的医学术语和对应术语类型。 2.根据权利要求1所述的方法，其特征在于，所述对每一所述平行语料中的空缺语言进行翻译，得到空缺语言的句子，具体包括：对每一所述平行语料，任意选定一种空缺语言；根据所述平行语料中各已有语言翻译至当前选定的所述空缺语言时的翻译准确度从所述平行语料中选出一种已有语言的句子作为应用语言句子；利用所述应用语言句子翻译出当前选定的所述空缺语言的句子；从剩余的空缺语言中任意选定一种空缺语言并记为当前选定的所述空缺语言，返回步骤“根据所述平行语料中各已有语言翻译至当前选定的所述空缺语言时的翻译准确度从所述平行语料中选出一种已有语言的句子作为应用语言句子”，直至翻译出所有的所述空缺语言的句子。 3.根据权利要求2所述的方法，其特征在于，所述根据所述平行语料中各已有语言翻译至当前选定的所述空缺语言时的翻译准确度从所述平行语料中选出一种已有语言的句子作为应用语言句子，具体包括：确定所述平行语料中各已有语言翻译至当前选定的所述空缺语言时所应用的各个翻译模型的翻译准确度；判断是否存在所述翻译准确度大于第一预设值的所述翻译模型；若不存在，则从剩余的空缺语言中，根据所述剩余的空缺语言翻译至选定的所述空缺语言时的准确度从所述剩余的空缺语言中选定出一种所述剩余空缺语言；利用所述已有语言的句子翻译出选定的所述剩余空缺语言的句子；利用选定的所述剩余空缺语言的句子翻译出选定的所述空缺语言的句子；若存在，则利用所述翻译准确度大于预设值的所述翻译模型翻译出所述空缺语言的句子。 4.根据权利要求1或3所述的方法，其特征在于，所述利用所述应用语言句子翻译出当权　利　要　求　书 1/3 页 2 CN 115062634 A 2前选定的所述空缺语言的句子之后还具体包括：判断翻译出的当前选定的所述空缺语言的句子对应的语义与所述应用语言句子的语义的相似度是否大于第二预设值；若是，则保留翻译出的当前选定的所述空缺语言的句子；若否，则删除所述应用语言句子的语义对应的所有语言表达类型的句子。 5.根据权利要求1所述的方法，其特征在于，所述对所述多语言平行语料库中的各所述平行语料中的句子进行分词，并去除各切分词中的非医学术语，得到每一种所述平行语料的医学术语，具体包括：对每一所述平行语料，根据语言的使用频率选定一种目标语言的句子；对选定的所述句子进行词汇切分，得到各个切分词；根据所述切分词对应语言的术语词典去除各个所述切分词中的非医学术语，得到目标语言的医学术语；根据所述目标语言的医学术语分别得出其他语言的医学术语；每一所述平行语料的医学术语包括所述目标语言的医学术语和所述其他语言的医学术语。 6.根据权利要求1或5所述的方法，其特征在于，所述依据所述平行语料的医学术语以及对应的术语类型对所述多语言语料库中的所有所述句子进行编码标注，得到每一所述句子的编码序列，具体包括：对每一所述句子依据对应语言类型的医学术语确定所述句子中的非医学术语和医学术语以及术语类型；根据所述术语类型对所述句子中的所述医学术语进行编码；对所述句子中的非医学术语进行编码；所述句子中的所述医学术语的编码与非医学术语的编码不同；根据所述句子中的所述医学术语的编码与所述非医学术语的编码确定所述句子的编码序列。 7.根据权利要求1所述的方法，其特征在于，所述根据训练后的神经网络术语提取模型识别待识别的医学文本，得到所述待识别的医学文本的编码序列，具体包括：判断所述待识别的医学文本的语言类型是否为所述多语言平行语料库中的语言类型；若是，则利用所述训练后的神经网络术语提取模型识别所述待识别的医学文本，得到所述待识别的医学文本的编码序列；若否，则将所述待识别的医学文本翻译成所述多语言平行语料库中的任意一种语言类型的句子，得到翻译后的医学句子，利用所述训练后的神经网络术语提取模型识别所述翻译后的医学句子，得到所述翻译后的医学句子的编码序列。 8.根据权利要求1或7所述的方法，其特征在于，所述根据所述待识别的医学文本的编码序列确定所述待识别的医学文本中的医学术语和对应术语类型之后还包括：判断所述待识别的医学文本是否存储于所述多语言平行语料库中；若否，则将所述待识别的医学文本存储于所述多语言平行语料库中，并将所述待识别的医学文本翻译出所述多语言平行语料库中的其他语言类型的句子存储于所述多语言平行语料库中。 9.一种基于权利要求1至8任一项所述的方法的系统，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 115062634 A 3

专利 一种基于多语言平行语料库的医学术语提取方法及系统

专利一种基于多语言平行语料库的医学术语提取方法及系统