专利 一种基于领域对抗训练的情感分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210529801.1 (22)申请日 2022.05.16 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人刘欣刚　潘多　贺川圳　庄晓淦　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师张冉 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于领域对抗训练的情感分析方法 (57)摘要本发明公开了一种基于领域对抗训练的情感分析方法，属于自然语言处理技术领域。本发明所述方法主要包括以下步骤：数据预处理与文本表示，构建对抗训练网络，设定对抗网络的初始参数并迭代更新，利用完成训练的网络对目标域数据中的所有输入文字序列进行序列标注。本发明所述方法利用领域对抗训练达到了模型跨域学习的目标，采用半监督的学习方式，通过为目标域无标记数据设置伪标签，使得教师网络与学生网络的学习能力趋于一致，从而提高模型对共享特征的提取能力。本发明所述方法利用语义距离动态加权和注意力机制相结合的方式，提高模型对领域特有特征的提取能力，最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。权利要求书4页说明书9页附图3页 CN 114997175 A 2022.09.02 CN 114997175 A 1.一种基于领域对抗训练的情感分析方法，其特征在于，包括以下步骤： S1：数据预处理与文本表示源域数据和目标域数据分别作为输入文字序列集合，将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分，对每个部分执行分词操作和词嵌入操作，获取词向量表示； S2：构建对抗训练网络构建对抗训练网络，对抗训练网络包括教师网络、学生网络和领域分类器；教师网络和学生网络的结构相同，均为依次连接的特征提取器和序列标注器，分别对输入数据进行特征提取和序列标注；领域分类器对输入数据进行领域鉴别； S3：设定教师网络的初始参数和学生网络的初始参数令当前迭代次数Iter＝1； S4：将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取源域数据的特征；将源域数据的特征输入至学生网络的序列标注器，获取源域数据中各词对应的序列分类概率分布和标注符号；将源域数据的特征输入至领域分类器，获取源域数据的领域类别标签；将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取学生网络提取的目标域数据的特征，并输入至学生网络的序列标注器，获取学生网络预测的目标域数据中各词对应的序列分类概率分布和标注符号；将目标域数据的特征输入至领域分类器，获取目标域数据的领域类别标签；将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器，获取教师网络提取的目标域数据的特征，并输入至教师网络的序列标注器，获取教师网络预测的目标域数据中各词对应的序列分类概率分布和标注符号，教师网络预测的目标域数据中各词对应的标注符号作为伪标签； S5：根据教师网络输出的序列分类概率分布设定掩码矩阵Mpq进行过滤； S6：计算学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse； S7：通过优化Llabel和Lmse更新学生网络中序列标注器的参数，通过优化Ldom更新领域分类器的参数，通过最小化三者之和L更新学生网络中特征提取器的参数；更新后的学生网络参数为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合； S8：利用学生网络参数的指数移动均值更新教师网络参数 S9：判断两次迭代之间的L值的差值是否小于设定精度阈值，若否，令当前迭代次数 Iter＝Iter+1，返回执行S4，若是，完成训练，记录当前教师网络参数； S10：利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。 2.根据权利要求1所述的基于领域对抗训练的情感分析方法，其特征在于， S1的具体过程为： S1.1：对于每个输入文字序列，根据方面词的位置将输入文字序列拆分为上文部分、方面词部分和下文部分，上文部分为位于方面词左边的部分序列，下文部分为位于方面词右边的部分序列；权　利　要　求　书 1/4 页 2 CN 114997175 A 2S1.2：分别对上文部分、方面词部分和下文部分进行分词，得到各部分对应的词元； S1.3：对各部分对应的词元分别进行词嵌入操作，生成各部分对应的词向量表示。 3.根据权利要求2所述的基于领域对抗训练的情感分析方法，其特征在于，对抗训练网络中，特征提取器包含依次连接的语义动态加权层、 BiLSTM网络和注意力层；特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为：步骤1：语义动态加权层解析输入文字序列对应的依存句法树，计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离：其中， SRDi表示第i个节点与方面词节点间的语义相对距离， pa表示依存句法树中方面词节点的中心位置， m表示方面词的序列长度， | |表示取绝对值，表示向下取整；步骤2：语义动态加权层根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度，第i个节点对应词的权重wi为：其中， I表示全为1的向量，维度与第i个节点对应词的词向量维度相同； α 为设定的语义相对距离阈值， N表示输入文字序列的序列长度；语义动态加权层使用权重wi对上文部分和下文部分的词向量表示进行动态加权；步骤3：将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中，获取上文部分、方面词部分和下文部分的语义相关性特征；步骤4：注意力层首先将上文部分、方面词部分和下文部分的语义相关性特征两两组合，得到三个组合，然后对于每个组合执行以下步骤：构造当前组合中两者的相关性矩阵M： M＝σ(H1H2T) 其中， σ 表示激活函数， H1和H2分别表示当前组合中的两部分的语义相关性特征，上标T 表示转置；对M分别按列和行执行softmax操作，得到H2相对于H1中各个词的相关性权重ω1和H1相对于H2中各个词的相关性权重ω2，使用ω1和ω2分别对H1H2T和H2H1T加权，得到H2相对于H1的相关性表示V1和H1相对于H2的相关性表示V2；对V1和V2再次执行softmax操作，得到H1和H2对应的注意力权重a1和a2，使用a1和a2分别对H1和H2加权，得到融合注意力的特征；将三个组合对应的融合注意力的特征进行拼接，得到输入文字序列对应的特征。 4.根据权利要求3所述的基于领域对抗训练的情感分析方法，其特征在于，对抗训练网络中，序列标注器为第一分类网络，分类网络由全连接层和softmax函数构成；输入文字序列对应的特征输入至第一分类网络，得到输入文字序列的标注符号；输入文字序列对应的特征输入至第一分类网络，得到序列分类概率分布： yj＝softmax(WyXj+by)权　利　要　求　书 2/4 页 3 CN 114997175 A 3

专利 一种基于领域对抗训练的情感分析方法

专利一种基于领域对抗训练的情感分析方法