(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210529801.1
(22)申请日 2022.05.16
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 刘欣刚 潘多 贺川圳 庄晓淦
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 张冉
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于领域对抗训练的情感分析方法
(57)摘要
本发明公开了一种基于领域对抗训练的情
感分析方法, 属于自然语言处理技术领域。 本发
明所述方法主要包括以下步骤: 数据预处理与文
本表示, 构建对抗训练网络, 设定对抗网络的初
始参数并迭代更新, 利用完成训练的网络对目标
域数据中的所有输入文字序列进行序列标注。 本
发明所述方法利用领域对抗训练达到了模型跨
域学习的目标, 采用半监督的学习方式, 通过为
目标域无标记数据设置伪标签, 使得教师网络与
学生网络的学习能力趋于一致, 从而提高模型对
共享特征的提取能力。 本发明所述方法利用语义
距离动态加权和注意力机制相结合的方式, 提高
模型对领域特有特征的提取能力, 最终使得模型
在跨域场景下能达到良好的细粒度情感分类效
果。
权利要求书4页 说明书9页 附图3页
CN 114997175 A
2022.09.02
CN 114997175 A
1.一种基于领域对抗训练的情感分析 方法, 其特 征在于, 包括以下步骤:
S1: 数据预处 理与文本表示
源域数据和目标域数据分别作为输入文字序列集合, 将输入文字序列集合中的每个输
入文字序列拆分为上文部分、 方面词部分和下文部分, 对每个部分执行分词操作和词嵌入
操作, 获取词向量表示;
S2: 构建对抗训练网络
构建对抗训练网络, 对抗训练网络包括教师网络、 学生网络和领域分类器; 教师网络和
学生网络的结构相同, 均为依 次连接的特征提取器和序列标注器, 分别对输入数据进行特
征提取和序列标注; 领域分类 器对输入数据进行 领域鉴别;
S3: 设定教师网络的初始参数
和学生网络的初始参数
令当前迭代次数Iter=1;
S4: 将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器, 获取源
域数据的特征; 将源域数据的特征输入至学生网络的序列标注器, 获取源域数据中各词对
应的序列分类概率分布和标注符号; 将源域数据的特征输入至领域分类器, 获取源域数据
的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器, 获取学生
网络提取 的目标域数据的特征, 并输入至学生网络的序列标注器, 获取学生网络预测的目
标域数据中各词对应的序列分类概率分布和标注符号; 将目标域数据的特征输入至领域分
类器, 获取目标域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器, 获取教师
网络提取 的目标域数据的特征, 并输入至教师网络的序列标注器, 获取教师网络预测的目
标域数据中各词对应的序列分类概率分布和标注符号, 教师网络预测的目标域数据中各词
对应的标注符号作为伪标签;
S5: 根据教师网络 输出的序列分类概 率分布设定掩码矩阵Mpq进行过滤;
S6: 计算学生网络的序列标注损失函数Llabel、 领域分类器的交叉熵损失函数Ldom和基于
伪标签修 正的一致性损失函数Lmse;
S7: 通过优化Llabel和Lmse更新学生网络中序列标注器的参数, 通过优化Ldom更新领域分
类器的参数, 通过最小化三者之和L更新学生网络中特征提取器的参数; 更新后的学生网络
参数
为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的
组合;
S8: 利用学生网络参数
的指数移动均值更新教师网络参数
S9: 判断两次迭代之间的L值的差值是否小于设定精度阈值, 若否, 令当前迭代次数
Iter=Iter+1, 返回执 行S4, 若是, 完成训练, 记录当前教师网络参数;
S10: 利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。
2.根据权利要求1所述的基于领域对抗训练 的情感分析方法, 其特征在于, S1的具体过
程为:
S1.1: 对于每个输入文字序列, 根据 方面词的位置将输入文字序列拆分为上文部分、 方
面词部分和下文部分, 上文部分为位于方面词左边的部分序列, 下文部分为位于方面词右
边的部分序列;权 利 要 求 书 1/4 页
2
CN 114997175 A
2S1.2: 分别对上文部分、 方面词部分和下文部分进行分词, 得到各部分对应的词元;
S1.3: 对各部分对应的词元分别进行词嵌入操作, 生成各部分对应的词向量表示。
3.根据权利要求2所述的基于领域对抗训练 的情感分析方法, 其特征在于, 对抗训练网
络中, 特征提取器包含依次连接的语义动态加权层、 BiLSTM网络和注意力 层; 特征提取器对
输入文字序列及预处 理后的词向量表示进行处 理的具体过程 为:
步骤1: 语义动态加权层解析输入文字序列对应的依存句法树, 计算上文部分和下文部
分在依存句法树中对应的节点与方面词节点间的语义相对距离:
其中, SRDi表示第i个节点与方面词节点间的语义相对距离, pa表示依存句法树中方面
词节点的中心位置, m表示方面词的序列长度, | |表示取绝对值,
表示向下 取整;
步骤2: 语义动态加权层根据语义相对距离生成不同的权重来表示上文部分和下文部
分中各词对于情感判别的重要程度, 第i个节点对应词的权 重wi为:
其中, I表示全为1的向量, 维度与第i个节点对应词的词向量维度相同; α 为设定的语义
相对距离阈值, N表示输入文字序列的序列长度;
语义动态加权层使用权 重wi对上文部分和下文部分的词向量表示进行动态加权;
步骤3: 将动态加权后的上文部分的词向量表示、 方面词的词向量表示和动态加权后的
下文部分的词向量分别输入BiLSTM网络中, 获取上文部分、 方面词部分和下文部分 的语义
相关性特 征;
步骤4: 注意力层首先将上文部分、 方面词部分和下文部分的语义相关性特征两两组
合, 得到三个组合, 然后对于每 个组合执 行以下步骤:
构造当前组合中两者的相关性矩阵M:
M=σ(H1H2T)
其中, σ 表示激活函数, H1和H2分别表示当前组合中的两部分的语义相关性特征, 上标T
表示转置;
对M分别按列和行执行softmax操作, 得到H2相对于H1中各个词的相关性权重ω1和H1相
对于H2中各个词的相关性权重ω2, 使用ω1和ω2分别对H1H2T和H2H1T加权, 得到H2相对于H1的
相关性表示V1和H1相对于H2的相关性表示V2;
对V1和V2再次执行softmax操作, 得到H1和H2对应的注意力权重a1和a2, 使用a1和a2分别
对H1和H2加权, 得到融合注意力的特 征;
将三个组合对应的融合注意力的特 征进行拼接, 得到 输入文字序列对应的特 征。
4.根据权利要求3所述的基于领域对抗训练 的情感分析方法, 其特征在于, 对抗训练网
络中, 序列标注器为第一分类网络, 分类网络由全连接层和softmax函数构成; 输入文字序
列对应的特 征输入至第一分类网络, 得到 输入文字序列的标注符号;
输入文字序列对应的特 征输入至第一分类网络, 得到序列分类概 率分布:
yj=softmax(WyXj+by)权 利 要 求 书 2/4 页
3
CN 114997175 A
3
专利 一种基于领域对抗训练的情感分析方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:45上传分享