专利 一种对社交媒体多模态信息中讽刺情感识别的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210682483.2 (22)申请日 2022.06.16 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路2号 (72)发明人王语涵　林鸿飞　杨亮　 (74)专利代理机构大连星河彩舟专利代理事务所(普通合伙) 2126 3 专利代理师陈玲玉　杨阳 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06V 10/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06N 3/04(2006.01) (54)发明名称一种对社交媒体多模态信息中讽刺情感识别的方法 (57)摘要本发明公开了一种对社交媒体多模态信息中讽刺情感识别的方法，充分利用文本、图像和图像属性三种模态来解决具有挑战性的多模态讽刺检测任务。首先提取图像特征和图像属性特征，接着利用图像属性特征与基于RoBERTa的文本预训练网络连接提取文本特征，从而将文本模态、图像模态和图像属性模态的特征重构并融合为一个特征向量对讽刺情感进行预测。本发明在社交媒体的图文信息数据集上有超过1％的准确率提升和超过3％的F1值提升，证明了多模态分层融合模型的有效性和三种模态的实用性，从而充分发挥文本的上下文信息和不同模态间的相互作用。权利要求书2页说明书4页附图2页 CN 115169440 A 2022.10.11 CN 115169440 A 1.一种对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，包括步骤如下：步骤1，获得数据元组包括文本和图像，其中文本信息进行文本特征提取；图像信息进行图像特征和图像属性特征提取；步骤2，将步骤1中的文本特与图像属性特征融合，进行重构文本 ‑图像属性向量；重构步骤1中的图像特征向量；重构步骤1中的图像属性特征向量；步骤3，将步骤2中重构后的文本 ‑图像属性特征向量、图像特征向量、图像属性特征向量融合；步骤4，将步骤3融合三种模态的特征向量进行分类器分类。 2.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤1中文本特征提取具体为：首先通过RoBERTa预训练模型获取包含上下文语义信息的词向量，然后利用长短时记忆网络LSTM提取上下文相关特征进行深度学习，最后引入注意力机制对提取出的信息分配权重，突出重点信息进行文本情感分析并进行特征提取，得到结果矩阵z；文本的特征向量vt由结果矩阵z中每个向量的算数平均得到，如公式(1)所示，其中L代表文本长度。 3.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤1中图像特征提取具体为：以ResNet ‑50 V2网络为基础使用ResNet 50_innovation层提取特征，进而获得推文图像的区域原始向量vi，图像的特征向量va是所有区域原始向量vi 的平均值，见公式(2)，其中N表示每张图片区域个数。 4.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤1中图像属性特征提取具体为：为每张图像预测5个属性标签ai(i＝1,2,3,4,5)， 5个属性标签构成一张图像的属性原始向量v(ai)，将原始向量放入两层神经网络中获得注意力权值αi，最后将权值进行加权平均获得图片属性的特征向量vatt，见公式(3)，其中W1和W2是权重矩阵， b1和b2是偏差， Na是属性的数量为5。 5.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤2中，将文本与图像属性特征融合：将图像属性特征向量vatt作为Bi‑LSTM网络的初始状态，如公式(4)所示；其中分别代表正向LSTM网络的隐层状态和细胞状态，分别代表负向LSTM 网络的隐层状态和细胞状态，分号代表向量串联， ReLu表示激活函数， W和b代表权重矩阵和偏置系数；经公式(4)的融合后，将包含文本与图像属性信息的特征向量记作文本 ‑图像属向量权　利　要　求　书 1/2 页 2 CN 115169440 A 2vt'。 6.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤2中，重构三种模态下的特征向量：设是模态m的第i个原始向量，所述m为文本 ‑图像属性模态、图像模态或图像属性模态中的一种；其中，文本 ‑图像属性模态下的原始向量为在 LSTM层t时刻的隐藏状态ht、图像模态下的原始向量为vi和图像属性模态下的原始向量为v(ai)；利用双层神经网络学习计算每个的权重参数，利用权重参数对各模态m的原始向量加权平均，得到模态m下的重构特征向量vm。 7.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤3中，使用双层前馈神经网络计算步骤2得到的不同模态下重构向量的权值分配，最终得到一个恒长的融合向量vf。 8.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法，其特征在于，所述步骤4中，将步骤3得到的融合向量输入由两层全连接神经网络构成的分类器进行讽刺情感的判断。权　利　要　求　书 2/2 页 3 CN 115169440 A 3

专利 一种对社交媒体多模态信息中讽刺情感识别的方法

专利一种对社交媒体多模态信息中讽刺情感识别的方法