专利 一种基于小样本文本分类原型网络欧氏距离计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210593432.2 (22)申请日 2022.05.27 (71)申请人重庆邮电大学地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人袁正午　陈泽　邓阳　周亚涛　 (74)专利代理机构北京同恒源知识产权代理有限公司 1 1275 专利代理师廖曦 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于小样本文本分类原型网络欧氏距离计算方法 (57)摘要本发明涉及一种基于小样本文本分类原型网络欧氏距离计算方法，属于计算机技术领域。该方法包括以下内容：通过对数据进行划分为 support与query，度量学习的学习范式通过 support来获得样本的估计类别，然后通过query 来对估计类别进行比较，从而来进行分类。本发明利用孪生网络结合高速网络提升对原型特征进行提取计算，不同孪生层对support以及query 的处理均不相同；通过特征级注意力模块来将 support与query的进行特征级关注，通过特征融合将结果通过激活函数获得注意力分数系数，通过注意力分数提升欧氏距离对于高维稀疏矩阵的特征进行判别，提高分类准确度。权利要求书2页说明书5页附图2页 CN 115033689 A 2022.09.09 CN 115033689 A 1.一种基于小样本文本分类原型网络欧氏距离计算方法，其特征在于：该方法包括以下步骤：步骤1)、利用Glove进行词的向量化表示，将预训练的词向量文件进行解析，构建单词与其向量表示的索引，使得向量之间尽可能多地蕴含语义和语法的信息；步骤2)、构造基于原型网络的小样本学习网络模型，总体的大致模型包括编码层，原型层以及度量层，编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息；原型层通过孪生网络与高速网络结合，通过孪生网络中support与query权重共享进行参数学习，同时结合高速网络提升网络学习效率，通过获得的词向量Xs与Xq经过孪生网络S进行特征编码，结合高速网络，每一层通过gate进行相关控制，对网络进行梯度优化获得原型；度量模块通过特征级注意力模块来将support与query的进行特征级关注，通过特征融合将结果通过激活函数获得注意力分数系数，通过注意力分数改进后的欧氏距离的计算来计算损失或进行分类；步骤3)、将小样本数据集分为训练集、验证集以及测试集，再分别对数据集进行拆分，分为support set与query set，预训练阶段借助预训练模型Glove进行词嵌入，将已经与处理好的数据集根据嵌入矩阵进行词嵌入嵌入矩阵W， wt ＝Wωt，并通过将单词嵌入和位置嵌入连接起来，实现对每个单词的最终输入嵌入， {x1...， xn}＝{[ω1； p1]， ...， [ωn； pn]}， {x1...， xn}＝{[ω1； p1]， . ..， [ωn； pn]}， X＝fφ(x)；步骤4)、使用孪生网络S与高速网络H结合进行原型特征提取计算，将词向量Xs与Xq输入孪生网络进行进行特征学习，每一层的孪生网络使用batch ‑normalization进行归一化处理，获得最终原型P(X)＝H(S(X) )；步骤5)、将获得后的Xs与Xq数据分别进行特征级注意力模块计算，通过新加特征级注意力模块，能够让模型注意到整个输入中的support样本， query样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，获得分数系数，便于后续分类；步骤6)、将步骤4)获得的原型P与query数据进行欧氏距离的计算，在计算结果时，乘上步骤5)所求得的注意力分数系数；原来的模型使用简单的欧几里德距离函数作为距离函数，由于support中实例较少，从support中提取的特征存在数据稀疏性问题，通过增加分数系数代替最原始的欧氏距离函数，最后通过softmax函数来进行分类。 2.根据权利要求1所述的一种基于小样本文本分类原型网络欧氏距离计算方法，其特征在于：所述编码层是将实例中的离散词映射为连续的输入嵌入词，用于捕获语义信息；给定一个实例x＝{ω1， ω2， ...， ωT}，有T个字；使用嵌入矩阵W，将每个单词嵌入到一个向量中，将该实例中的每个单词映射到一个实值嵌入，以表示该单词的语义和语法意义wt＝W ωt；由于靠近实体的词对关系确定的影响更大，采用位置嵌入的方法；通过将单词嵌入和位置嵌入连接起来， {x1...， xn}＝{[ω1； p1]， ...， [ωn； pn ]}，再通过卷积以及池化实现对每个单词的最终输入嵌入， X＝fφ(x)。 3.根据权利要求1所述的一种基于小样本文本分类原型网络欧氏距离计算方法，其特征在于：所述原型层处理词向量进行原型表示，使用孪生网络S与高速网络H结合进行原型特征提取计算，步骤如下：孪生网络包含了两层卷积层以及一层全连接层，并且每一层受高权　利　要　求　书 1/2 页 2 CN 115033689 A 2速网络启发通过gate进行连接；将词向量Xs与Xq输入孪生网络G进行特征学习，模型隐层维度为512维，使用conv1d卷积核长度为3，步长为1， padding为1，每一层使用batch ‑ normalization进行归一化处理；对于孪生网络中的Xq部分，考虑到Xq对模型后期查询样本与原型之间的比较，所以不对 Xq做过多处理，所以没有将Xq加入高速网络，所以与Xs只进行孪生网络的参数学习的到Q1＝S(Xq)；而对于孪生网络中Xs部分的输出，每一层Xs的输出都是结合高速网络输出h(x)＝g(x， wg)*t(x， wt)+x*(1 ‑t(x， wt))，其中， x为suppot样本集输入， g(*)为当前层卷积后的结果， t为学习系数，将h(x)作为下一层孪生网络以及高速网络的输入，其中t(*)为0～1的系数参数，通过sigmoid函数学习得到， t(x)＝σ(Wtx+b)，获得最终原型 4.根据权利要求1所述的一种基于小样本文本分类原型网络欧氏距离计算方法，其特征在于：将所述Xs和Xq池化，数据分别进行计算，得到到整个输入中的support样本， query 样本内的不同部分之间的相关性，以便后续获得的分数能够对高维度稀疏矩阵中的重要特征进行强调，便于后续分类；具体为：将Xs与Xq分别进行计算，将经过自身特征强化的S和Q2进行特征融合，再经过激活函数后获得分数系数αi＝σ(Si·Q2)，其中，表示以拼接方式进行特征融合， σ 表示经过归一化以及simoid激活函数，分数系数更加提高对support与query中对分类有益特征的关注度，提升分类的准确度，在进行距离计算的时，将欧氏距离乘上获得的注意力分数系统后，对高维度稀疏矩阵中的重要特征有强调作用， d(i， q)＝(Si‑Q1)2*αi，表示查询向量与第i个类别的样本空间距离，所求出的距离也更加准去，从而获得的分类结果也更加准确。权　利　要　求　书 2/2 页 3 CN 115033689 A 3

专利 一种基于小样本文本分类原型网络欧氏距离计算方法

专利一种基于小样本文本分类原型网络欧氏距离计算方法