国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210625550.7 (22)申请日 2022.06.02 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人 甘玲 杜欣睿 刘菊 胡柳慧  (74)专利代理 机构 北京同恒源知识产权代理有 限公司 1 1275 专利代理师 廖曦 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于提示学习的中文词义消歧方法 (57)摘要 本发明涉及一种基于提示学习的中文词义 消歧方法, 属于计算机技术领域。 基于BERT的大 多数方法都采用使用BERT迁就下游任务的形式, 首先将预训练模 型应用到下游任务上, 然后再通 过微调预训练语 言模型提升性能。 但随着预训练 语言模型体量不断地增大, 对其微调的硬件要求 和实际代价也在变得更艰难。 中文的BERT是基于 字的, 大多数基于BERT的词义消歧模型在预训练 MLM模型任务中只能以字为单位去添加MASK标 记, 词是取得字的平均, 对词的表达不够准确。 本 发明主要解决中文词义消歧模型存在的消歧效 率低、 监督 分类时需要大量数据标注以及未充分 利用BERT的自身能力等问题。 权利要求书1页 说明书5页 附图1页 CN 114997149 A 2022.09.02 CN 114997149 A 1.一种基于提 示学习的中文词义消歧方法, 其特 征在于: 该 方法包括以下步骤: 步骤一: 基于数据集, 对于每个歧义词xi, 这个词在知识库HowNet中有N个意思; 对于它 的每一个意思 找到一组的同义词集 再将歧义词替换为其对应的同义词, 生成新的替 换句B; 步骤二: 将歧义词的每个意思对应的所有 同义词替换原歧义词的位置, 通过数据预处 理得到一条新的替换句, 通过设置标签, 训练模型, 完成监督二分类; 判断替换后的句子是 否与原句的意思一 致, 并与给定标签进行误差计算; 对于输入的文本x, 有函数fprompt(x), 将x转 化成Prompt的形式x ′, 如公式(1)所示; x′=fprompt(x)       (1) 其中, 结合预训练语言模型BERT的预训练任务MLM, 设置如下Prompt: “两句话意思 [MASK]相同: ContextA, ContextB; ”; 其中ContextA为原句, ContextB为近义词进行替换后 的句子, [MASK]为预留的答案填空; 使用预训练语言模型BERT的预训练任务MLM得到设计 的Prompt的输出, 输出则为 “很” 和“不”; 通过预测[ MASK]的值, 判断替换句和原句的意思是否相似, 从而获得歧义词每个词 义中替换句与原句的相似性标签; 步骤三: 通过提示学习, 已经得到替换句的正确标签和错误标签; 然后需要把每个句子 中歧义词的正确词义找出来; 通过预测到的替换句的标签bi, 通过公式(2)能够得到每个意 思的得分 最后取得分最高的意思为 最终词义; 计算出每一个词义的相似性得分后, 得到歧义词中N个词义的相似性得分, 取相似性得 分最高的词义 为歧义词的最终词义, 如公式(3)所示: y=MAX(G(Si|x))       (3)。 2.根据权利要求1所述的一种基于提示学习的中文词义消歧方法, 其特征在于: 所述数 据集为基于SemEval ‑2007#task5中使用中文词义标注语料库, 构建的基于HowNet的中文词 义消歧数据集OpenHowNet  WSD; 该数据集由2967个分词和词性标注实例句组成, 包含36个 多义词, 3 6个多义词包括16个名词和20个动词; 选取2201条句子进行训练, 76 6条句子进行测试; 采用Micro ‑F1、 Macro ‑F1作为评价指标; 实验环境基于keras, 使用中文Bert ‑Base‑ Chinese模型作为编码器, 共有12层, 768个隐藏单元和12个注意力头, 模型设置学习率为 0.0006, bat ch_size为16, 使用Adam来优化模型; 训练模型使用的内存为32G的TESLA  V100‑ SXM2显卡。 3.一种计算机系统, 包括存储器、 处理器及储存在存储器上并能够在处理器上运行的 计算机程序, 其特征在于: 所述处理器执行所述计算机程序时实现如权利要求 1‑2任一项所 述的方法。 4.一种计算机可读存储介质, 其上储存有计算机程序, 其特征在于: 所述计算机程序被 处理器执行时实现如权利要求1 ‑2任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114997149 A 2一种基于提示学习的中文词义消歧方 法 技术领域 [0001]本发明属于计算机技 术领域, 涉及一种基于提 示学习的中文词义消歧方法。 背景技术 [0002]词义消歧是指对于一个歧义词, 当它在一个具体 的上下文环境出现时, 根据上下 文的环境来确定该歧义词语义的过程, 它作为自然语言处理领域中的基础任务, 在其他下 游任务中都有广泛应用, 如机器翻译, 信息提取和信息检索等。 因此, 解决语言的歧义现象 是重要的研究任务之一。 [0003]词义消歧主要有两种类型, 即有监督的词义消歧和基于知识库的词义消歧。 有监 督的词义消歧需要大量的带有词义注释的训练语料库。 在有监督的词义消歧方法中, 主要 使用相关的注释数据来训练神经网络, 从而消除歧义, 通过提取人工 设计的一些特征, 然后 为每个歧义词训练分类器。 因此有监督的效果会比基于知识库的更好。 基于知识库的词义 消歧方法主要 是通过提取歧义词所在上下文的语境词汇作为消歧特征, 并且构建大规模的 知识库来获取歧义词与消歧特征之间的关系, 从而判别歧义词的真实含义, 比较常用的知 识库包括WordNet、 Wikipedia和HowNet等。 基于知识库的词义消歧方法不仅可以节约成本, 提高效率, 同时也可以避免因训练语料库规模过小 而导致的消歧效率低的问题。 [0004]现有技术不足: [0005](1)基于BERT的大多数方法都采用使用BERT迁就下游任务的形式, 首先将预训练 模型应用到下游任务上, 然后再通过微调 预训练语言模型提升性能。 但随着预训练语言模 型体量不断地增大, 对其 微调的硬件要求和实际代价 也在变得 更艰难。 [0006](2)中文的B ERT是基于字的, 大多数基于B ERT的词义消歧模型在预训练MLM模型任 务中只能以字为单位去添加MASK 标记, 词是 取得字的平均, 对词的表达不够准确。 [0007]本发明主要解决中文词义消歧模型存在的消歧效率低、 监督分类时需要大量数据 标注以及未充分利用BERT的自身能力等问题。 发明内容 [0008]有鉴于此, 本发明的目的在于提供一种基于提 示学习的中文词义消歧方法。 [0009]针对问题(1)中有监督方法和基于知识的方法各有利弊的问题, 本发明使用 HowNet作为知识库, 使用BERT 进行监督分类。 [0010]针对问题(2)中, 本发明使用提示学习的方法, 利用BERT的预训练任务MLM的Mask 机制, 将计算近义词相似性的可以更好 地结合上 下文, 获取 更丰富的语义信息 。 [0011]为达到上述目的, 本发明提供如下技 术方案: [0012]一种基于提 示学习的中文词义消歧方法, 该 方法包括以下步骤: [0013]步骤一: 基于数据 集, 对于每个歧义词xi, 这个词在知识库HowNet中有N个意思; 对 于它的每一个意思 找到一组的同义词集 再将歧义词替换为其对应的同义词, 生成 新的替换句B;说 明 书 1/5 页 3 CN 114997149 A 3

.PDF文档 专利 一种基于提示学习的中文词义消歧方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于提示学习的中文词义消歧方法 第 1 页 专利 一种基于提示学习的中文词义消歧方法 第 2 页 专利 一种基于提示学习的中文词义消歧方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。