(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211142426.1
(22)申请日 2022.09.20
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 沈玮祺 贺樑 肖路巍 吴兴蛟
马天龙 何峻
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06F 40/10(2020.01)
(54)发明名称
一种基于图神经网络的图表问答方法
(57)摘要
本发明公开了一种基于图神经网络的图表
问答方法, 包括以下步骤: a)使用视觉图神经网
络和双向长短时记忆网络分别建模图表和文本
两种模态特征,然后对 得到的图表和文本两种特
征表示拼接后进行跨模态特征融合; b)使用1X1
卷积核以及双向GRU对拼接后得到的跨模态特征
表示进行第一阶段特征融合, 得到低阶跨模态特
征表示; c)使用多头自注意力机制和密集连接的
图卷积网络对低阶跨模态特征表示进行第二阶
段特征融合, 提取跨模态语义依存关系, 得到高
阶跨模态特征表示; d)将高阶跨模态特征表示输
入一个全 连接网络, 最后再输入分类器预测问题
答案。 本发 明相较于现有 方法具有特征提取能力
强, 跨模态信息融合程度高, 可在一定程度上提
升图表问答的准确度。
权利要求书1页 说明书4页 附图1页
CN 115375984 A
2022.11.22
CN 115375984 A
1.一种基于图神经网络的图表问答方法, 其特 征在于, 该 方法包括以下 具体步骤:
步骤1: 利用视觉 图神经网络和双 向长短时记忆网络分别提取图像和文本两部分模态
特征表示, 并将两 部分模态特 征表示对齐后拼接, 得到跨模态特 征表示;
步骤2: 对跨模态特 征表示进行第一阶段 特征融合, 得到低阶跨模态特 征表示;
步骤3: 对低阶跨模态特 征表示进行第二阶段 特征融合, 得到高阶跨模态特 征表示;
步骤4: 将高阶跨模态特 征表示输入分类 器中, 得到问答预测结果; 其中:
所述步骤1具体为:
1.1: 以从Fi gureQA数据 集采集得到的科学图表即垂直柱状图、 水平柱状图、 折线图、 饼
图以及散点图和所述科学图表对应的问题以及人工标注后的答案作为训练集和验证集, 训
练集和验证集采集比例为8 ∶2; 其中, 所述的人工标注即对问题给 出的答案;
1.2: 利用视觉图神经网络对科学图表的视觉信息进行建模; 首先将整张科学图表网格
化处理分解为多个子图, 然后将 每个子图的RGB三通道矩阵在通道方向进 行展平, 每个 即子
图用一个向量表示; 将 每个子图看作一个节点, 利用K近邻算法计算与当前节 点距离最近的
K个节点, 并且将当前节 点与这K个节点建立对应依存关系; 以此迭代, 构 造出每个子图与其
他子图之间的依存关系矩阵, 然后将所有子图表示向量与依存关系矩阵输入图神经网络
中, 建模图像的特 征表示;
1.3: 对输入文本进行预处理; 问题中每个单词对应的词向量利用BERT得到, 然后将整
个问题输入双向长短期记 忆网络进行序列建模, 得到文本特 征表示;
1.4: 将图像特征表示的通道维度与文本特征表示的单词维度对齐后拼接, 得到跨模态
特征表示;
所述步骤2具体为:
2.1: 对跨模态特征表示进行第一阶段特征融合; 利用卷积核为1x1的卷积神经网络, 对
跨模态特 征表示进行 特征提取;
2.2: 将卷积核为1x1的卷积神经网络提取到的跨模态特征表示输入双向GRU网络中, 进
行跨模态特 征融合, 得到低阶跨模态特 征表示;
所述步骤3具体为:
3.1: 对低阶跨模态特征表示进行第二阶段特征融合; 对第一阶段特征融合后得到的低
阶跨模态特征表示使用多头自注意力机制, 根据头数生成多个 自注意力矩阵; 对多个 自注
意力矩阵进行平均池化, 然后得到交 互注意力权 重矩阵;
3.2: 将经过第一阶段特征融合后得到的低阶跨模态特征表示与交互注意力权重矩阵,
输入一个密集连接的深度图卷积网络, 建模文本与图像之间的语义依存关系, 得到一个中
阶跨模态特 征表示;
3.3: 将中阶跨模态特 征表示进行平均池化操作, 得到高阶跨模态特 征表示。权 利 要 求 书 1/1 页
2
CN 115375984 A
2一种基于图神经 网络的图表问答 方法
技术领域
[0001]本发明涉及多模态数据融合研究相关的视觉问答领域, 具体涉及一种基于图神经
网络的图表问答方法。
背景技术
[0002]视觉问答任务是人工智能领域一项具有挑战性和实用性的任务,属于一种多模态
任务, 主要是涉及计算机视觉和自然语言处理的一个交叉研究方向。 图表问答 (chart
question answering, CQA) 是视觉问答中的一种任务类型, 是用于处理图表图像与文本问
题的多模态的推理任务。 图表问答是指: 给定一张图表和该图表的相关问题, 图表问答的目
标是结合图表的视觉信息和问题文本内容, 通过对图表和文本进 行特征融合以及推理来 获
得问题的答案 。
[0003]图表问答早期的研究主要是采用的简单的神经网络组合以及单一的跨模态交互
方法。 例如将单向长短期记忆网络 建模的问题文本表示与卷积神经网络提取到图像特征拼
接后输入分类器; 又例如基于简单关系网络的方法, 将通过卷积神经网络得到的特征图上
的每个像素点看作一个对 象, 然后将每两个像素 的特征向量配对, 构造一个包含所有像素
之间关系的关系对特征, 然后用一个全连接网络来推理每两个对象之 间的关系, 最后 把这
些关系对相加, 预测 最终的答案。 这些基于简单特征组合的模型往往只能建模低阶的图像
和文本信息且 包含较多冗余信息, 实际模型表现不佳。
[0004]近几年研究者们也设计了一些新颖的算法来提升图表问答任务的性能。 例如采用
多次迭代的传统注意力机制来实现对图表中关键区域特征的采集; 也有方法通过使用与训
练好的开源光学字符识别 (optical character recognition, OCR) 来挖掘图表中的字符信
息, 然后将其定位到嵌入问题中, 再利用预训练的 ResNet‑152 提取图表特征图, 最后通过
空间注意力机制将特征图作为隐藏层信息加到长短期记忆网络中, 来获得文本表示。 但是,
上述方法难以建模图表中结构化的特征, 尤其是图表内部元素间的对比关系, 如大小、 比例
和折线趋势等, 同时也难以提取图表和问题关键词之间的高阶语义关系, 跨模态特征无法
得到充分交 互。
发明内容
[0005]有鉴于此, 本发明的目的在于提供一种基于图神经网络 的图表问答方法。 为了建
模图表中结构化的特征, 尤其是图表内部元素间的对比关系, 如大小、 比例和折线趋势等,
本方法采用视觉图神经网络来提取图表特征。 为了提取图表和问题关键词之间的高阶语义
关系, 使得跨模态特 征得到充分交 互融合, 本方法提出采用两个不同阶段的跨模态融合。
[0006]为实现上述目的, 本发明采用如下技 术方案:
一种基于图神经网络的图表问答方法, 包括以下步骤:
(1) 利用视觉图神经网络和双向长短时记忆网络分别提取 图像和文本两种模态
特征表示, 并将两 部分模态特 征表示对齐后拼接, 包括如下子步骤:说 明 书 1/4 页
3
CN 115375984 A
3
专利 一种基于图神经网络的图表问答方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:55:41上传分享