专利 一种基于图神经网络的图表问答方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211142426.1 (22)申请日 2022.09.20 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人沈玮祺　贺樑　肖路巍　吴兴蛟　马天龙　何峻　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06F 40/10(2020.01) (54)发明名称一种基于图神经网络的图表问答方法 (57)摘要本发明公开了一种基于图神经网络的图表问答方法，包括以下步骤： a)使用视觉图神经网络和双向长短时记忆网络分别建模图表和文本两种模态特征,然后对得到的图表和文本两种特征表示拼接后进行跨模态特征融合； b)使用1X1 卷积核以及双向GRU对拼接后得到的跨模态特征表示进行第一阶段特征融合，得到低阶跨模态特征表示； c)使用多头自注意力机制和密集连接的图卷积网络对低阶跨模态特征表示进行第二阶段特征融合，提取跨模态语义依存关系，得到高阶跨模态特征表示； d)将高阶跨模态特征表示输入一个全连接网络，最后再输入分类器预测问题答案。本发明相较于现有方法具有特征提取能力强，跨模态信息融合程度高，可在一定程度上提升图表问答的准确度。权利要求书1页说明书4页附图1页 CN 115375984 A 2022.11.22 CN 115375984 A 1.一种基于图神经网络的图表问答方法，其特征在于，该方法包括以下具体步骤：步骤1：利用视觉图神经网络和双向长短时记忆网络分别提取图像和文本两部分模态特征表示，并将两部分模态特征表示对齐后拼接，得到跨模态特征表示；步骤2：对跨模态特征表示进行第一阶段特征融合，得到低阶跨模态特征表示；步骤3：对低阶跨模态特征表示进行第二阶段特征融合，得到高阶跨模态特征表示；步骤4：将高阶跨模态特征表示输入分类器中，得到问答预测结果；其中：所述步骤1具体为： 1.1：以从Fi gureQA数据集采集得到的科学图表即垂直柱状图、水平柱状图、折线图、饼图以及散点图和所述科学图表对应的问题以及人工标注后的答案作为训练集和验证集，训练集和验证集采集比例为8 ∶2；其中，所述的人工标注即对问题给出的答案； 1.2：利用视觉图神经网络对科学图表的视觉信息进行建模；首先将整张科学图表网格化处理分解为多个子图，然后将每个子图的RGB三通道矩阵在通道方向进行展平，每个即子图用一个向量表示；将每个子图看作一个节点，利用K近邻算法计算与当前节点距离最近的 K个节点，并且将当前节点与这K个节点建立对应依存关系；以此迭代，构造出每个子图与其他子图之间的依存关系矩阵，然后将所有子图表示向量与依存关系矩阵输入图神经网络中，建模图像的特征表示； 1.3：对输入文本进行预处理；问题中每个单词对应的词向量利用BERT得到，然后将整个问题输入双向长短期记忆网络进行序列建模，得到文本特征表示； 1.4：将图像特征表示的通道维度与文本特征表示的单词维度对齐后拼接，得到跨模态特征表示；所述步骤2具体为： 2.1：对跨模态特征表示进行第一阶段特征融合；利用卷积核为1x1的卷积神经网络，对跨模态特征表示进行特征提取； 2.2：将卷积核为1x1的卷积神经网络提取到的跨模态特征表示输入双向GRU网络中，进行跨模态特征融合，得到低阶跨模态特征表示；所述步骤3具体为： 3.1：对低阶跨模态特征表示进行第二阶段特征融合；对第一阶段特征融合后得到的低阶跨模态特征表示使用多头自注意力机制，根据头数生成多个自注意力矩阵；对多个自注意力矩阵进行平均池化，然后得到交互注意力权重矩阵； 3.2：将经过第一阶段特征融合后得到的低阶跨模态特征表示与交互注意力权重矩阵，输入一个密集连接的深度图卷积网络，建模文本与图像之间的语义依存关系，得到一个中阶跨模态特征表示； 3.3：将中阶跨模态特征表示进行平均池化操作，得到高阶跨模态特征表示。权　利　要　求　书 1/1 页 2 CN 115375984 A 2一种基于图神经网络的图表问答方法技术领域 [0001]本发明涉及多模态数据融合研究相关的视觉问答领域，具体涉及一种基于图神经网络的图表问答方法。背景技术 [0002]视觉问答任务是人工智能领域一项具有挑战性和实用性的任务,属于一种多模态任务，主要是涉及计算机视觉和自然语言处理的一个交叉研究方向。图表问答（chart question answering， CQA）是视觉问答中的一种任务类型，是用于处理图表图像与文本问题的多模态的推理任务。图表问答是指：给定一张图表和该图表的相关问题，图表问答的目标是结合图表的视觉信息和问题文本内容，通过对图表和文本进行特征融合以及推理来获得问题的答案。 [0003]图表问答早期的研究主要是采用的简单的神经网络组合以及单一的跨模态交互方法。例如将单向长短期记忆网络建模的问题文本表示与卷积神经网络提取到图像特征拼接后输入分类器；又例如基于简单关系网络的方法，将通过卷积神经网络得到的特征图上的每个像素点看作一个对象，然后将每两个像素的特征向量配对，构造一个包含所有像素之间关系的关系对特征，然后用一个全连接网络来推理每两个对象之间的关系，最后把这些关系对相加，预测最终的答案。这些基于简单特征组合的模型往往只能建模低阶的图像和文本信息且包含较多冗余信息，实际模型表现不佳。 [0004]近几年研究者们也设计了一些新颖的算法来提升图表问答任务的性能。例如采用多次迭代的传统注意力机制来实现对图表中关键区域特征的采集；也有方法通过使用与训练好的开源光学字符识别（optical character recognition， OCR）来挖掘图表中的字符信息，然后将其定位到嵌入问题中，再利用预训练的 ResNet‑152 提取图表特征图，最后通过空间注意力机制将特征图作为隐藏层信息加到长短期记忆网络中，来获得文本表示。但是，上述方法难以建模图表中结构化的特征，尤其是图表内部元素间的对比关系，如大小、比例和折线趋势等，同时也难以提取图表和问题关键词之间的高阶语义关系，跨模态特征无法得到充分交互。发明内容 [0005]有鉴于此，本发明的目的在于提供一种基于图神经网络的图表问答方法。为了建模图表中结构化的特征，尤其是图表内部元素间的对比关系，如大小、比例和折线趋势等，本方法采用视觉图神经网络来提取图表特征。为了提取图表和问题关键词之间的高阶语义关系，使得跨模态特征得到充分交互融合，本方法提出采用两个不同阶段的跨模态融合。 [0006]为实现上述目的，本发明采用如下技术方案：一种基于图神经网络的图表问答方法，包括以下步骤： (1) 利用视觉图神经网络和双向长短时记忆网络分别提取图像和文本两种模态特征表示，并将两部分模态特征表示对齐后拼接，包括如下子步骤：说　明　书 1/4 页 3 CN 115375984 A 3

专利 一种基于图神经网络的图表问答方法

专利一种基于图神经网络的图表问答方法