专利 一种基于嵌入分布改进的中文命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210539034.2 (22)申请日 2022.05.18 (71)申请人重庆邮电大学地址 400065 重庆市南岸区崇文路2号 (72)发明人黄胜　廖星　陈贤龙　王鹏　曹维俊　牟星宇　 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) (54)发明名称一种基于嵌入分布改进的中文命名实体识别方法 (57)摘要当前，随着机器翻译、信息提取、条件搜索等领域的发展，命名实体识别作为这些领域的基础技术也取得了进一步的发展。目前常用的词嵌入分为静态词嵌入和基于上下文语义信息的动态词嵌入(如BERT词嵌入)，但是这两种词嵌入都存在一定的不足。静态词嵌入采用固定的词向量对词元进行表达，没有考虑词元在不同句子中表达语义不同的情况；而考虑上下文语义的BERT词嵌入又存在表征退化的问题，针对这种情况本方法提出了一种简单有效的词嵌入方法，通过改进静态词嵌入以及动态词嵌入的分布使其具备各向同性的分布特征，以此来提升词嵌入的语义表达能力。同时，为了更好的利用语义嵌入，针对注意力机制的计算方法进行了改进，最后基于 transformer网络架构构建了基于嵌入分布改进的中文命名实体识别模型解决由于嵌入分布的各向异性带来的命名识别错误的问题。权利要求书1页说明书6页附图2页 CN 114970532 A 2022.08.30 CN 114970532 A 1.一种基于嵌入分布改进的中文命名实体识别方法，其特征在于，能够从给定文本内容中得到关注的专有名词，通过以下两个步骤实现：步骤1、获取要识别的文本对象，并对输入文本进行预处理；步骤2、将输入文本映射为词向量表示，并利用提出的静态词嵌入与动态词嵌入修正方法对词向量分布进行修正；步骤3、将修正后的输入向量送入构建的基于嵌入分布改进的中文命名实体识别网络，包括输入信息处理模块、自注意力机制模块、前馈神经网络模块以及CRF标签约束模块，其中，输入信息处理模块利用了本发明提出的基于静态词嵌入与动态词嵌入修正分布方法，首先为输入语句加入词性信息以及为输入语句匹配词信息，然后为匹配词加上词性标注信息并将其转移到字符层面，最后对输入信息进行词向量匹配，在词向量匹配过程中利用了提出的基于静态词嵌入与动态词嵌入修正分布方法来进行映射；自注意力机制模块通过将匹配了词性信息的嵌入信息和匹配了词信息的嵌入信息进行自注意力机制中得到最后的特征输入；前馈神经网络模块对利用自注意力机制得到的特征进行再学习，以获取更深的空间特征映射信息；最后利用CRF(Conditional Random Field)条件随机场模块为最后预测的标签增加一些约束来保证预测的标签的准确性，这些约束通过CRF层进行学习，最后输出预测结果；步骤4、利用训练得到的预训练模型对输入文本进行命名实体识别，得到实体以及实体类型。 2.根据权利要求1所述的静态词信息和动态词信息匹配，其特征在于，对于原始的静态词匹配向量做线性转换，对其中过大的值进行尺度变换缩小，计算所有值的平均值，统计大于平均值和小于平均值的数目，然后对他们的差值的个数的值进行约束，拉大词向量之间的距离，使其在向量空间中占据更大的空间；对于利用Bert得到的具有上下文语义信息的动态词嵌入，对其分布进行改善，将其分布由各向异性变为各向同性。 3.根据权利要求1所述的一种基于嵌入分布改进的中文命名实体识别方法，其特征在于，利用多头注意力机制(Multi ‑HeadAttention)对嵌入信息进行编码，这里对原始的注意力机制方法进行改进，其中K采用匹配了词性信息的嵌入， Q为利用BERT得到的动态词嵌入， V为结合了动态词嵌入与静态词嵌入之后的向量表示，以下是注意力机制的计算方法为： Att(A,V)＝softmax(A)V 其中， i表示第i个词元， ij表示第i个词元和第j个词元的关系，这里的位置信息编码采用了FLAT的编码方式。权　利　要　求　书 1/1 页 2 CN 114970532 A 2一种基于嵌入分布改进的中文命名实体识别方法技术领域 [0001]本发明涉及深度学习以及自然语言处理领域，具体涉及一种基于嵌入分布改进的中文命名实体识别方法。背景技术 [0002]随着机器翻译、信息提取、条件搜索等领域的飞速发展，自然语言处理在实际应用中越来越广泛，而命名实体识别(Named Entity Recognition， NER)作为信息抽取、机器翻译等领域最重要的任务之一，其目的是自动检测给定文本中的命名实体并识别其类别。由于汉语中不存在英语文本中类似的空格分词符，因此汉语NER相较于英文NER来说更加困难。 [0003]在研究早期，汉语NER任务被分解为两个独立的串联式任务，即分词和词序标记，这种方法存在一个严重的缺陷：如果存在分词错误，那么会导致分词错误在后续网络中传播。在后续的研究中，研究者提出基于字符的模型来避免分词错误，但这样完全丢掉词信息放弃了词语深层的语义信息，也变相的降低了嵌入的语义表达能力。于是，研究者们提出将词信息整合到基于字符的NER模型中。在近些年，研究者们聚焦于建模词与字符间的关系，以此来让模型学习到某些潜在的语义信息，例如(Xiaonan Li,HangYan,Xipeng Qiu, andXuanjing Huang.2020. FLAT:Chinese NER using flat‑lattice transformer.In Proceedings ofthe 58th Annual Meeting oftheAssociation for Computational Lin‑ guistics,pages 6836–6842,Online. Association for Computational Linguistics.) 模型提出基于跨度信息的位置编码来建模词元间的联系；但是，在中文NER任务中很少有人关注原始的词嵌入，如果原始词嵌入存在问题，那么它将产生和分词信息错误传播一样的错误。对于静态词嵌入， (Gong C,He D,Tan X,et al.Frage:Frequency ‑agnostic word representation[J].Advances in neural informationprocessing systems,2018,31.) 探讨了词频信息对于词嵌入信息的影响，提出将词频信息从嵌入信息中剔除，以此来解决低频词语义表达能力弱的问题； (Mu J,Bhat S,Viswanath P.All‑but‑the‑top: Simple and effective postprocessing for word representations[J].arXiv preprint arXiv:1702.01417,2017.)提出一种词嵌入后处理技术，通过消除公共平均向量和几个顶部主导方向，使得现成的表示更加强大。词嵌入会分布于一个狭窄的锥形区域内，这样的分布会很大程度上限制词嵌入的表达能力， (Gao J,He D,Tan X,et al.Representation degeneration problem in training natural language generation models[J].arXiv preprint arXiv:1907.12009,2019.)证明了这个现象并提出了一个新型的正则化方法来解决这个问题。另一方面，随着预训练模型的发展，语境化的词嵌入表示代替静态词嵌入成为了主流趋势，近些年研究者们常利用BERT预训练模型得到词嵌入作为网络的输入。但命名实体识别的研究者们很少考虑到词嵌入的可靠性问题， (Ethayarajh K.How contextual are contextualized word representations？ comparing the geometry ofBERT,ELMo, and GPT‑2embeddings[J]. arXiv preprint arXiv:1909.00512,2 019.)研究了Elmo、 BERT说　明　书 1/6 页 3 CN 114970532 A 3

专利 一种基于嵌入分布改进的中文命名实体识别方法

专利一种基于嵌入分布改进的中文命名实体识别方法