(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210625550.7
(22)申请日 2022.06.02
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区黄桷垭崇文路2
号
(72)发明人 甘玲 杜欣睿 刘菊 胡柳慧
(74)专利代理 机构 北京同恒源知识产权代理有
限公司 1 1275
专利代理师 廖曦
(51)Int.Cl.
G06F 40/247(2020.01)
G06F 40/30(2020.01)
G06F 40/205(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于提示学习的中文词义消歧方法
(57)摘要
本发明涉及一种基于提示学习的中文词义
消歧方法, 属于计算机技术领域。 基于BERT的大
多数方法都采用使用BERT迁就下游任务的形式,
首先将预训练模 型应用到下游任务上, 然后再通
过微调预训练语 言模型提升性能。 但随着预训练
语言模型体量不断地增大, 对其微调的硬件要求
和实际代价也在变得更艰难。 中文的BERT是基于
字的, 大多数基于BERT的词义消歧模型在预训练
MLM模型任务中只能以字为单位去添加MASK标
记, 词是取得字的平均, 对词的表达不够准确。 本
发明主要解决中文词义消歧模型存在的消歧效
率低、 监督 分类时需要大量数据标注以及未充分
利用BERT的自身能力等问题。
权利要求书1页 说明书5页 附图1页
CN 114997149 A
2022.09.02
CN 114997149 A
1.一种基于提 示学习的中文词义消歧方法, 其特 征在于: 该 方法包括以下步骤:
步骤一: 基于数据集, 对于每个歧义词xi, 这个词在知识库HowNet中有N个意思; 对于它
的每一个意思
找到一组的同义词集
再将歧义词替换为其对应的同义词, 生成新的替
换句B;
步骤二: 将歧义词的每个意思对应的所有 同义词替换原歧义词的位置, 通过数据预处
理得到一条新的替换句, 通过设置标签, 训练模型, 完成监督二分类; 判断替换后的句子是
否与原句的意思一 致, 并与给定标签进行误差计算;
对于输入的文本x, 有函数fprompt(x), 将x转 化成Prompt的形式x ′, 如公式(1)所示;
x′=fprompt(x) (1)
其中, 结合预训练语言模型BERT的预训练任务MLM, 设置如下Prompt: “两句话意思
[MASK]相同: ContextA, ContextB; ”; 其中ContextA为原句, ContextB为近义词进行替换后
的句子, [MASK]为预留的答案填空;
使用预训练语言模型BERT的预训练任务MLM得到设计 的Prompt的输出, 输出则为 “很”
和“不”; 通过预测[ MASK]的值, 判断替换句和原句的意思是否相似, 从而获得歧义词每个词
义中替换句与原句的相似性标签;
步骤三: 通过提示学习, 已经得到替换句的正确标签和错误标签; 然后需要把每个句子
中歧义词的正确词义找出来; 通过预测到的替换句的标签bi, 通过公式(2)能够得到每个意
思的得分
最后取得分最高的意思为 最终词义;
计算出每一个词义的相似性得分后, 得到歧义词中N个词义的相似性得分, 取相似性得
分最高的词义 为歧义词的最终词义, 如公式(3)所示:
y=MAX(G(Si|x)) (3)。
2.根据权利要求1所述的一种基于提示学习的中文词义消歧方法, 其特征在于: 所述数
据集为基于SemEval ‑2007#task5中使用中文词义标注语料库, 构建的基于HowNet的中文词
义消歧数据集OpenHowNet WSD; 该数据集由2967个分词和词性标注实例句组成, 包含36个
多义词, 3 6个多义词包括16个名词和20个动词;
选取2201条句子进行训练, 76 6条句子进行测试;
采用Micro ‑F1、 Macro ‑F1作为评价指标; 实验环境基于keras, 使用中文Bert ‑Base‑
Chinese模型作为编码器, 共有12层, 768个隐藏单元和12个注意力头, 模型设置学习率为
0.0006, bat ch_size为16, 使用Adam来优化模型; 训练模型使用的内存为32G的TESLA V100‑
SXM2显卡。
3.一种计算机系统, 包括存储器、 处理器及储存在存储器上并能够在处理器上运行的
计算机程序, 其特征在于: 所述处理器执行所述计算机程序时实现如权利要求 1‑2任一项所
述的方法。
4.一种计算机可读存储介质, 其上储存有计算机程序, 其特征在于: 所述计算机程序被
处理器执行时实现如权利要求1 ‑2任一项所述的方法。权 利 要 求 书 1/1 页
2
CN 114997149 A
2一种基于提示学习的中文词义消歧方 法
技术领域
[0001]本发明属于计算机技 术领域, 涉及一种基于提 示学习的中文词义消歧方法。
背景技术
[0002]词义消歧是指对于一个歧义词, 当它在一个具体 的上下文环境出现时, 根据上下
文的环境来确定该歧义词语义的过程, 它作为自然语言处理领域中的基础任务, 在其他下
游任务中都有广泛应用, 如机器翻译, 信息提取和信息检索等。 因此, 解决语言的歧义现象
是重要的研究任务之一。
[0003]词义消歧主要有两种类型, 即有监督的词义消歧和基于知识库的词义消歧。 有监
督的词义消歧需要大量的带有词义注释的训练语料库。 在有监督的词义消歧方法中, 主要
使用相关的注释数据来训练神经网络, 从而消除歧义, 通过提取人工 设计的一些特征, 然后
为每个歧义词训练分类器。 因此有监督的效果会比基于知识库的更好。 基于知识库的词义
消歧方法主要 是通过提取歧义词所在上下文的语境词汇作为消歧特征, 并且构建大规模的
知识库来获取歧义词与消歧特征之间的关系, 从而判别歧义词的真实含义, 比较常用的知
识库包括WordNet、 Wikipedia和HowNet等。 基于知识库的词义消歧方法不仅可以节约成本,
提高效率, 同时也可以避免因训练语料库规模过小 而导致的消歧效率低的问题。
[0004]现有技术不足:
[0005](1)基于BERT的大多数方法都采用使用BERT迁就下游任务的形式, 首先将预训练
模型应用到下游任务上, 然后再通过微调 预训练语言模型提升性能。 但随着预训练语言模
型体量不断地增大, 对其 微调的硬件要求和实际代价 也在变得 更艰难。
[0006](2)中文的B ERT是基于字的, 大多数基于B ERT的词义消歧模型在预训练MLM模型任
务中只能以字为单位去添加MASK 标记, 词是 取得字的平均, 对词的表达不够准确。
[0007]本发明主要解决中文词义消歧模型存在的消歧效率低、 监督分类时需要大量数据
标注以及未充分利用BERT的自身能力等问题。
发明内容
[0008]有鉴于此, 本发明的目的在于提供一种基于提 示学习的中文词义消歧方法。
[0009]针对问题(1)中有监督方法和基于知识的方法各有利弊的问题, 本发明使用
HowNet作为知识库, 使用BERT 进行监督分类。
[0010]针对问题(2)中, 本发明使用提示学习的方法, 利用BERT的预训练任务MLM的Mask
机制, 将计算近义词相似性的可以更好 地结合上 下文, 获取 更丰富的语义信息 。
[0011]为达到上述目的, 本发明提供如下技 术方案:
[0012]一种基于提 示学习的中文词义消歧方法, 该 方法包括以下步骤:
[0013]步骤一: 基于数据 集, 对于每个歧义词xi, 这个词在知识库HowNet中有N个意思; 对
于它的每一个意思
找到一组的同义词集
再将歧义词替换为其对应的同义词, 生成
新的替换句B;说 明 书 1/5 页
3
CN 114997149 A
3
专利 一种基于提示学习的中文词义消歧方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:54上传分享