(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210539034.2
(22)申请日 2022.05.18
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区崇文路2号
(72)发明人 黄胜 廖星 陈贤龙 王鹏
曹维俊 牟星宇
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/33(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 7/00(2006.01)
(54)发明名称
一种基于嵌入分布改进的中文命名实体识
别方法
(57)摘要
当前, 随着机器翻译、 信息提取、 条件搜索等
领域的发展, 命名实体识别作为这些领域的基础
技术也取得了进一步的发展。 目前常用的词嵌入
分为静态词嵌入和基于上下文语义信息的动态
词嵌入(如BERT词嵌入), 但是这两种词嵌入都存
在一定的不足。 静态词嵌入采用固定的词向量对
词元进行表达, 没有考虑词元在不同句子中表达
语义不同的情况; 而考虑上下文语义的BERT词嵌
入又存在表征退化的问题, 针对这种情况本方法
提出了一种简单有效的词嵌入 方法, 通过改进静
态词嵌入以及动态词嵌入的分布使其具备各向
同性的分布特征, 以此来提升词嵌入的语义表达
能力。 同时, 为了更好的利用语义嵌入, 针对注意
力机制的计算方法进行了改进, 最后基于
transformer网络架构构建了基于嵌入分布改进
的中文命名实体识别模型解决由于嵌入分布的
各向异性带来的命名识别错 误的问题。
权利要求书1页 说明书6页 附图2页
CN 114970532 A
2022.08.30
CN 114970532 A
1.一种基于嵌入分布改进的中文命名实体识别方法, 其特征在于, 能够从给定文本内
容中得到关注的专有名词, 通过以下两个步骤实现:
步骤1、 获取要识别的文本对象, 并对输入文本进行 预处理;
步骤2、 将输入文本映射为词向量表示, 并利用提出的静态词嵌入与动态词嵌入修正方
法对词向量分布进行修 正;
步骤3、 将修正后的输入向量送入构建的基于嵌入分布改进的中文命名实体识别网络,
包括输入信息处理模块、 自注意力机制模块、 前馈神经网络模块以及CRF标签约束模块, 其
中, 输入信息处理模块利用了本发明提出 的基于静态词嵌入与动态词嵌入修正分布方法,
首先为输入语句加入词性信息以及为输入语句匹配词信息, 然后为匹配词加上词性标注信
息并将其转移到字符层面, 最后对输入信息进行词向量匹配, 在词向量匹配过程中利用了
提出的基于静态词嵌入与动态词嵌入修正分布方法来进行映射; 自注意力机制模块通过将
匹配了词性信息的嵌入信息和匹配了词信息的嵌入信息进行自注意力机制中得到最后的
特征输入; 前馈神经网络模块对利用自注意力机制得到的特征进行再学习, 以获取更深的
空间特征映射信息; 最后利用CRF(Conditional Random Field)条件随机场模块为最后预
测的标签增加一些约束来保证预测的标签的准确性, 这些约束通过CRF层进 行学习, 最后输
出预测结果;
步骤4、 利用训练得到的预训练模型对输入文本进行命名实体识别, 得到实体以及实体
类型。
2.根据权利要求1所述的静态词信 息和动态词信 息匹配, 其特征在于, 对于原始的静态
词匹配向量做线性转换, 对其中过大的值进 行尺度变换缩小, 计算所有值的平均值, 统计大
于平均值和小于平均值的数目, 然后对他们的差值的个数 的值进行约束, 拉大词向量之间
的距离, 使其在向量空间中占据更大的空间; 对于利用Bert得到的具有上下文语义信息的
动态词嵌入, 对其分布进行改善, 将其分布由各向异性变为各向同性。
3.根据权利要求1所述的一种基于嵌入分布改进的中文命名实体识别方法, 其特征在
于, 利用多头注意力机制(Multi ‑HeadAttention)对嵌入信息进行编码, 这里对原始的注意
力机制方法进 行改进, 其中K采用匹配了词性信息的嵌入, Q为利用BERT得到的动态词嵌入,
V为结合了动态词嵌入与静态词嵌入之后的向量表示, 以下 是注意力机制的计算方法为:
Att(A,V)=softmax(A)V
其中, i表示第i个词元, ij表示第i个词元和第j个词元的关系, 这里的位置信息编码
采用了FLAT的编码方式。权 利 要 求 书 1/1 页
2
CN 114970532 A
2一种基于嵌入分布改进的中文命名实体识别方 法
技术领域
[0001]本发明涉及深度学习以及自然语言处理领域, 具体涉及 一种基于嵌入分布改进的
中文命名实体识别方法。
背景技术
[0002]随着机器翻译、 信息提取、 条件搜索等领域的飞速 发展, 自然语言处理在实际应用
中越来越广泛, 而命名实体识别(Named Entity Recognition, NER)作为信 息抽取、 机器翻
译等领域最重要的任务之一, 其 目的是自动检测给定文本中的命名实体并识别其类别。 由
于汉语中不存在英语文本中类似的空格分词符, 因此汉语NER相较于英文NER来说更加困
难。
[0003]在研究早期, 汉语NER任务被分解为两个独立的串联式任务, 即分词和词序标记,
这种方法存在一个严重的缺陷: 如果存在分词错误, 那么会导致分词错误在后续网络中传
播。 在后续的研究中, 研究者提出基于字符的模型来避免分词错误, 但这样 完全丢掉词信息
放弃了词语深层的语义信息, 也变相的降低了嵌入的语义表达能力。 于是, 研究者们提出将
词信息整合到基于字符 的NER模型中。 在近些年, 研究者们聚焦于建模词与字符间的关系,
以此来让模型学习到某些潜在的语义信息, 例如(Xiaonan Li,HangYan,Xipeng Qiu,
andXuanjing Huang.2020. FLAT:Chinese NER using flat‑lattice transformer.In
Proceedings ofthe 58th Annual Meeting oftheAssociation for Computational Lin‑
guistics,pages 6836–6842,Online. Association for Computational Linguistics.)
模型提出基于跨度信息的位置编码来建模词元间的联系; 但是, 在中文NER任务中很少有 人
关注原始的词嵌入, 如果原始词嵌入存在问题, 那么它将产生和分词信息错误传播一样的
错误。 对于静态词嵌入, (Gong C,He D,Tan X,et al.Frage:Frequency ‑agnostic word
representation[J].Advances in neural informationprocessing systems,2018,31.)
探讨了词 频信息对于词嵌入信息的影响, 提出将词 频信息从嵌入信息中剔除, 以此来解决
低频词语义表达能力弱的问题; (Mu J,Bhat S,Viswanath P.All‑but‑the‑top: Simple
and effective postprocessing for word representations[J].arXiv preprint
arXiv:1702.01417,2017.)提出一种词嵌入后处理技术, 通过消除公共平均向量和几个顶
部主导方向, 使得现成的表示更加强大。 词嵌入会分布于一个狭窄的锥形区域内, 这样的分
布会很大程度上限制词嵌入的表达能力, (Gao J,He D,Tan X,et al.Representation
degeneration problem in training natural language generation models[J].arXiv
preprint arXiv:1907.12009,2019.)证明了这个现象并提出了一个新型的正则化方法来
解决这个问题。 另一方面, 随着预训练模型的发展, 语境化的词嵌入表示代替静态词嵌入成
为了主流趋势, 近些年研究者们常利用BERT预训练模型得到词嵌入作为网络的输入。 但命
名实体识别的研究者们很少考虑到词嵌入的可靠性问题, (Ethayarajh K.How contextual
are contextualized word representations? comparing the geometry ofBERT,ELMo,
and GPT‑2embeddings[J]. arXiv preprint arXiv:1909.00512,2 019.)研究了Elmo、 BERT说 明 书 1/6 页
3
CN 114970532 A
3
专利 一种基于嵌入分布改进的中文命名实体识别方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:51上传分享