专利 一种基于语义依存关系融合特征的舆情文本情感分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210744752.3 (22)申请日 2022.06.27 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街174号 (72)发明人李雨佟　周尚波　 (74)专利代理机构重庆博凯知识产权代理有限公司 50212 专利代理师黄河 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于语义依存关系融合特征的舆情文本情感分析方法 (57)摘要本发明公开了一种基于语义依存关系融合特征的舆情文本情感分析方法，其针对舆情文本在字粒度和特征词粒度都进行了特征编码处理，以提取舆情文本中更细粒度的情感表达信息，并且还借助依存句法分析来提取特征词间的依存关系信息，以挖掘和体现舆情文本内细粒度信息之间更深度的关联性，将这些信息加以进一步融合得到舆情文本的依存关系融合特征向量，通过舆情文本情感分析模型进行情感分类预测，能够从更多维度、更加细节、更深程度的分解和传递舆情文本所包含的情感倾向特征，能够获得更加准确的情感分类预测结果，进一步提升对舆情文本的情感分析准确性。权利要求书4页说明书13页附图2页 CN 115098634 A 2022.09.23 CN 115098634 A 1.一种基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，包括如下步骤： S1：获取待分析舆情文本； S2：对待分析舆情文本进行字粒度词向量编码，得到待分析舆情文本的字粒度编码向量； S3：对待分析舆情文本进行分词和依存句法分析处理，获得分词的特征词以及特征词间的依存关系信息后，进行词嵌入联合编码处理，得到待分析舆情文本的携带有特征词语意依存关系信息的词嵌入联合编码向量； S4：将待分析舆情文本的字粒度编码向量和词嵌入联合编码向量进行拼接融合，作为待分析舆情文本的依存关系融合特征向量； S5：将待分析舆情文本的依存关系融合特征向量输入经过预先训练的舆情文本情感分析模型，得到待分析舆情文本的情感分类预测结果。 2.根据权利要求1所述基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，所述步骤S1 中，还包括对待分析舆情文本进行预处理，所述预处理包括对舆情文本的错别字纠正处理、错误符号纠正处理、错误语法纠正处理、同义词表达一致性处理中的一种或多种。 3.根据权利要求1所述基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，所述步骤S2具体为：对待分析舆情文本进行字粒度分解，将分解得到的各个字采用 BERT模型进行词向量编码，得到待分析舆情文本的字粒度编码向量：式中，表示待分析舆情文本的字粒度编码向量，表示待分析舆情文本中各个字在第m个隐藏层维度的编码向量， m∈{1,2, …,M}， M表采用示BERT模型进行词向量编码的编码维度； n表示待分析舆情文本所包含的字数。 4.根据权利要求1所述基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，所述步骤S3具体包括如下步骤： S301：对待分析舆情文本进行分词和依存句法分析处理，获得分词的特征词以及特征词间的依存关系信息； S302：分别确定待分析舆情文本中各特征词的词性，并以待分析舆情文本的字粒度编码向量的编码维度尺寸M作为词嵌入编码的编码维度尺寸，分别对待分析舆情文本中各特征词的词性信息及其各自对应的依存关系信息进行词嵌入编码，得到待分析舆情文本的特征词编码向量及依存关系编码向量：式中，分别为待分析舆情文本的特征词编码向量和依存关系编码向量，为待分析舆情文本中各特征词的词性信息在第m个编码维度的词嵌入编码向量，为待分析舆情文本中各特征词对应的依存关系在第m个编码维度的词嵌入编码向量， m∈{1,2, …,M}， M表示词嵌入编码的编码维度尺寸， dlen表示待分析舆情文本权　利　要　求　书 1/4 页 2 CN 115098634 A 2中分词所得的特征词总个数； S303：对待分析舆情文本的特征词编码向量Wp和依存关系编码向量Wd组合形成的和矩阵Wpd，输入至预设定的关系图注意力编码网络进行编码处理，得到对应的联合编码矩阵：式中，表示所得的联合编码矩阵；表示待分析舆情文本中各特征词的词性及其对应的依存关系在第m个编码维度的联合编码向量；所述关系图注意力编码网络包括依次连接的多头注意力机制层、线性层和逐点卷积层； S304：对所述联合编码矩阵进行池化处理，得到待分析舆情文本的词嵌入联合编码向量Hgraph： Hgraph＝{hg,1,hg,2,…,hg,m,…,hg,M}；其中，词嵌入联合编码向量为待分析舆情文本中各特征词的词性及其对应的依存关系在第m个编码维度的联合编码向量的池化值。 5.根据权利要求1所述基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，所述步骤S4中，将待分析舆情文本的字粒度编码向量和词嵌入联合编码向量进行拼接融合得到的依存关系融合特征向量为：式中，为待分析舆情文本的依存关系融合特征向量，表示待分析舆情文本的字粒度编码向量， M表字粒度编码向量HBERT的编码维度， n表示待分析舆情文本所包含的字数；符号表示逐元素乘积运算； g表示待分析舆情文本的字粒度编码向量和词嵌入联合编码向量的拼接融合函数，且有： g＝σ(Wg[HBERT:Hgraph]+bg)；其中， σ(·)表示sigmoid激活函数， Wg和bg分别表示sigmoid激活的权重矩阵和偏移向量，表示将词嵌入联合编码向量分别拼接到字粒度编码向量的n个字维度中所构成的维度为的拼接向量。 6.根据权利要求1所述基于语义依存关系融合特征的舆情文本情感分析方法，其特征在于，所述步骤S5中的舆情文本情感分析模型包括实体特征提取网络层、方面特征提取网络层、情感倾向特征提取网络层、依赖特征矩阵融合网络层、全连接层和分类器网络层；所述实体特征提取网络层用于从输入的依存关系融合特征向量中提取实体特征向量 XE，输出至依赖特征矩阵融合网络层、以及通过全连接层输出至分类器网络层；所述方面特征提取网络层用于从输入的依存关系融合特征向量中提取方面特征向量 XA，输出至依赖特征矩阵融合网络层、以及通过全连接层输出至分类器网络层；所述情感倾向特征提取网络层用于从输入的依存关系融合特征向量中提取情感倾向特征向量XSC，输出至依赖特征矩阵融合网络层；所述依赖特征矩阵融合网络层用于基于实体特征向量XE和方面特征向量XA提取方面特权　利　要　求　书 2/4 页 3 CN 115098634 A 3

专利 一种基于语义依存关系融合特征的舆情文本情感分析方法

专利一种基于语义依存关系融合特征的舆情文本情感分析方法