(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210744752.3
(22)申请日 2022.06.27
(71)申请人 重庆大学
地址 400044 重庆市沙坪坝区沙正 街174号
(72)发明人 李雨佟 周尚波
(74)专利代理 机构 重庆博凯知识产权代理有限
公司 50212
专利代理师 黄河
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于语义依存关系融合特征的舆情文
本情感分析方法
(57)摘要
本发明公开了一种基于语义依存关系融合
特征的舆情文本情感分析方法, 其针对舆情文本
在字粒度和特征词粒度都进行了特征编码处理,
以提取舆情文本中更细粒度的情感表达信息, 并
且还借助依存句法分析来提取特征词间的依存
关系信息, 以挖掘和体 现舆情文本内细粒度信息
之间更深度的关联性, 将这些信息加以进一步融
合得到舆情文本的依存关系融合特征向量, 通过
舆情文本情感分析模型进行情感分类预测, 能够
从更多维度、 更加细节、 更深程度的分解和传递
舆情文本 所包含的情感倾向特征, 能够获得更加
准确的情感分类预测结果, 进一步提升对舆情文
本的情感分析准确性。
权利要求书4页 说明书13页 附图2页
CN 115098634 A
2022.09.23
CN 115098634 A
1.一种基于语义依存关系融合特征的舆情文本情感分析方法, 其特征在于, 包括如下
步骤:
S1: 获取待分析舆情文本;
S2: 对待分析舆情文本进行字粒度词向量编码, 得到待分析舆情文本的字粒度编码向
量;
S3: 对待分析舆情文本进行分词和依存句法分析处理, 获得分词的特征词以及特征词
间的依存关系信息后, 进行词嵌入联合编码处理, 得到待分析舆情文本的携带有特征词语
意依存关系信息的词嵌入联合编码向量;
S4: 将待分析舆情文本的字粒度编码向量和词嵌入联合编码向量进行拼接融合, 作为
待分析舆情文本的依存关系融合特 征向量;
S5: 将待分析舆情文本的依存关系融合特征向量输入经过预先训练的舆情文本情 感分
析模型, 得到待分析舆情文本的情感分类预测结果。
2.根据权利要求1所述基于语义依存关系 融合特征的舆情文本情感分析方法, 其特征
在于, 所述步骤S1 中, 还包括对待分析舆情文本进 行预处理, 所述预 处理包括对舆情文本的
错别字纠正处理、 错误符号纠正处理、 错误语法纠正处理、 同义词表达一致性处理中的一种
或多种。
3.根据权利要求1所述基于语义依存关系 融合特征的舆情文本情感分析方法, 其特征
在于, 所述步骤S2具体为: 对待分析舆情文本进行字粒度分解, 将分解得到的各个字采用
BERT模型进行词向量编码, 得到待分析舆情文本的字粒度编码向量:
式中,
表示待分析舆情文本的字粒度编 码向量,
表示待分析舆情
文本中各个字在第m个隐藏层维度的编码向量, m∈{1,2, …,M}, M表采用示BERT模型进行词
向量编码的编码维度; n表示待分析舆情文本所包 含的字数。
4.根据权利要求1所述基于语义依存关系 融合特征的舆情文本情感分析方法, 其特征
在于, 所述 步骤S3具体包括如下步骤:
S301: 对待分析舆情文本进行分词和依存句法分析处理, 获得分词的特征词以及特征
词间的依存关系信息;
S302: 分别确定待分析舆情文本中各特征词的词性, 并以待分析舆情文本的字粒度编
码向量的编码维度尺寸M作为词嵌入编码的编码维度尺寸, 分别对待分析舆情文本中各特
征词的词性信息及其各自对应的依存关系信息进 行词嵌入编码, 得到待分析舆情文本的特
征词编码向量及依存关系编码向量:
式中,
分别为待分析舆情文本的特征词编码向量和依存关系编码向
量,
为待分析舆情文本中各特征词的词性信息在第m个编码维度的词嵌入编码
向量,
为待分析舆情文本中各特征词对应的依存关系在第m个编码维度的词嵌
入编码向量, m∈{1,2, …,M}, M表示词嵌入编码的编码维度尺寸, dlen表示待分析舆情文本权 利 要 求 书 1/4 页
2
CN 115098634 A
2中分词所 得的特征词总个数;
S303: 对待分析舆情文本的特征词编码向量Wp和依存关系编码向量Wd组合形成的和矩
阵Wpd, 输入至预设定的关系图注意力编码网络进行编码处 理, 得到对应的联合编码矩阵:
式中,
表示所得的联合编码矩 阵;
表示待分析舆情文本中各
特征词的词性及其对应的依存关系在第m个编码维度的联合编码向量;
所述关系图注意力编码网络包括依次连接的多头注意力机制层、 线性层和逐点卷积
层;
S304: 对所述联合编码矩阵
进行池化处理, 得到待分析舆情文本的词嵌入联合编
码向量Hgraph:
Hgraph={hg,1,hg,2,…,hg,m,…,hg,M};
其中, 词嵌入联合编码向量
为待分析舆情文本中各特征词的
词性及其对应的依存关系在第m个编码维度的联合编码向量
的池化值。
5.根据权利要求1所述基于语义依存关系 融合特征的舆情文本情感分析方法, 其特征
在于, 所述步骤S4中, 将待分析舆情文本的字粒度编码向量和词嵌入联合编码向量进行拼
接融合得到的依存关系融合特 征向量为:
式中,
为待分析舆情文本的依存关系融合特征向量,
表示待分
析舆情文本的字粒度编码向量, M表字粒度编码向量HBERT的编码维度, n表示待分析舆情文
本所包含的字数; 符号
表示逐元素乘积运算; g表示待分析舆情文本的字粒度编码向量和
词嵌入联合编码向量的拼接融合 函数, 且有:
g=σ(Wg[HBERT:Hgraph]+bg);
其中, σ(·)表示sigmoid激活函数, Wg和bg分别表示sigmoid激活的权重矩阵和偏移向
量,
表示将词嵌入联合编码向量
分别拼接到字粒度编码
向量
的n个字维度中所构成的维度为
的拼接向量。
6.根据权利要求1所述基于语义依存关系 融合特征的舆情文本情感分析方法, 其特征
在于, 所述步骤S5中的舆情文本情感分析模型包括实体特征提取网络层、 方面特征提取网
络层、 情感倾向特 征提取网络层、 依赖特 征矩阵融合网络层、 全连接层和分类 器网络层;
所述实体特征提取网络层用于从输入的依存关系融合特征向量中提取实体特征向量
XE, 输出至依赖特 征矩阵融合网络层、 以及通过全连接层输出至分类 器网络层;
所述方面特征提取网络层用于从输入的依存关系融合特征向量中提取方面特征向量
XA, 输出至依赖特 征矩阵融合网络层、 以及通过全连接层输出至分类 器网络层;
所述情感倾向特征提取网络层用于从输入的依存关系融合特征向量中提取情感倾向
特征向量XSC, 输出至依赖特 征矩阵融合网络层;
所述依赖特征矩阵融合网络层用于基于实体特征向量XE和方面特征向量XA提取方面特权 利 要 求 书 2/4 页
3
CN 115098634 A
3
专利 一种基于语义依存关系融合特征的舆情文本情感分析方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:33上传分享