(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210560027.0
(22)申请日 2022.05.23
(71)申请人 大连理工大 学
地址 116024 辽宁省大连市甘井 子区凌工
路2号
(72)发明人 盛昳媛 许圣 赖越 叶子旺
刘秀平
(74)专利代理 机构 大连理工大 学专利中心
21200
专利代理师 戴风友
(51)Int.Cl.
G06T 11/00(2006.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)G06F 40/205(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于改进版文本解析器的文本至图像
生成算法
(57)摘要
本发明属于计算机视觉技术领域, 具体涉及
一种基于改进版文本解析器的文本至图像生成
算法。 本发 明是一种端到端从文本到图像的生成
器, 它可以解析文本, 提取出主、 谓、 宾三元组, 从
而生成符合文本描述的布局图, 最终依据布局生
成图像。 本发明标注词性, 识别文本并提取出文
本中(主、 谓、 宾)三元组, 然后通过人工分类网络
及学习出来的关系自动分类网络进行6种几何映
射, 从而依据最终三元组生 成符合文本描述的布
局图。 基于语义表达的多样性, 我们的映射关系
是一对多而非一对一的, 如此得到的布局图也具
有多样性。 最后我们从布局图得到复杂场景, 并
融合了风格 迁移, 可生成具有特殊 风格的图像 。
权利要求书4页 说明书5页 附图4页
CN 115018941 A
2022.09.06
CN 115018941 A
1.一种基于改进版文本解析器的文本至图像生成算法, 其特征在于, 该方法包括以下
步骤:
步骤S1: 提取COCO数据集中的文本信息并进行统计与分类, 完成信息统计工作;
步骤S2: 基于精细分类构建 关系映射数据集, 并将其划分训练集、 验证集与测试集;
步骤S3: 构建关系自动分类网络, 并基于步骤S2中的分类数据集进行预训练, 实现复杂
语义关系到几何 空间关系的映射;
所述步骤S3具体为:
步骤S31: 构建embedding layer模块, 即使用预训练好的word2vec模型, 得到文本、 三
元组、 关系词中分别对应的词嵌入向量, 具体而言: 该模块中, 文本t、 每个三元组ci以及关
系词ri都输入到加载了预训练权重的word2vec模型中, 分别得到文本嵌入向量
三元组
嵌入向量
与词向量的特 征
步骤S32: 构建LSTM网络, 对文本及三元组的嵌入向量进行进一步处理, 提取语义特征
向量; 即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息, 利用输入门
存放有效的文本特征信息, 利用输出门对每层的输出文本信息进行过滤; 将文本嵌入向量
输入LSTM网络, 通过LSTM单元, 输出文本特征ft; 将源自文本的三元组嵌入向量
输入
LSTM网络, 通过LSTM单 元, 输出三元组特 征
步骤S33: 基于步骤S31中的embedding layer模块、 步骤S32中的LSTM模块, 再融合MLP
模块共同构建关系自动分类网络; 具体而言, 将关系词向量
文本特征ft, 三元组特征
拼接在一起得到特征f, 即定义
其中, [; ]表示拼接; 将f输入多层感知机
(MLP)得到6维向量, 向量中每一个元素代表着一类COCO数据集中可 以处理的几何位置关
系;
步骤S34: 使用步骤S2中构 建的关系映射数据集对步骤S33中构 建的关系自动分类网络
进行预训练, 并使用Adam优化器来 最小化损失;
步骤S4: 构建文本自动处 理模块, 实现对输入文本的关键信息提取;
步骤S5: 基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块, 构建改
进版的文本的解析器, 输入文本描述, 输出解析后的结构化 三元组, 进 而得到场景图;
步骤S6: 基于场景图至图像生成算法sg2im构建布局预测网络, 并将场景图输入到布局
预测网络中, 得到场景布局;
步骤S7: 结合Real ‑Time Style Transfer风格转移与LostGANs图像生成模型构建风格
化图像生成网络, 并将布局输入风格化图像生成网络中, 得到具有不同艺 术风格的图像;
步骤S8: 基于步骤S5中的改进版文本解析器, 步骤S6中的布局预测网络, 步骤S7中的风
格化图像生成网络, 按照S5、 S6、 S7的顺序 实现整体的文本至图像生成算法, 并将算法嵌入
网页后台, 实现网络设计, 以方便用户使用。
2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法, 其特征在于,
所述步骤S1具体为:
步骤S11: 将COCO数据集中的文本信息进行解析; 首先, 对一句话中的所有词语进行词
性标注; 其次, 搜索并记录句子的名词和他们的修饰语; 随后, 确定动词的主语(包括名词主权 利 要 求 书 1/4 页
2
CN 115018941 A
2语, 介词宾语); 而后, 找到各个名词之间的关系; 最后, 根据找到的名词及关系, 生成形如
(主, 谓, 宾)的结构化 三元组;
步骤S12: 将所有关系词提取整合成一个集 合, 作为待学习的关系集 合;
步骤S13: 对关系词进行粗分类处理; 即, 将频次大于等于30的关系词 汇进行粗分类, 分
为Geometric(几何关系), Po ssessive(从属关系), Semantic(语义 关系), Misc(其他)四类,
对数据集信息 完成初步统计。
3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法, 其特征在
于, 所述步骤S2具体为:
步骤S21: 结合步骤S11中对文本的解析, 对文本中的关系词进行细分类处理, 将关系集
合内的所有关系都映射到6种几何关系(Left of、 Right of、 Above、 Below、 Surrounding、
Inside)中;
步骤S22: 将6种几何关系类别转为6维向量, 其中将步骤S21中的人工分类的几何关系
类数值设置1, 其 余类别数值设置 0, 并以该向量作为原关系词的分类标签, 完成数据处 理;
步骤S23: 基于步骤S11中的输入文本、 解析出的三元组、 关系词以及步骤S22得到的类
别标签, 构建关系映射数据集, 并按照 80%, 10%, 10%的比例将其进一步划分为训练集、 测
试集与验证集。
4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法, 其特征在
于, 所述步骤S4具体为:
步骤S41: 改进对于文本中含有and前后连词的并列关系提取不好的问题; 首先, 将含有
and等连词连接的文本先识别划分, 然后再进 行词性标注, 对(主, 谓, 宾)三元 组结构化信息
进行提取;
步骤S42: 改进对于数量词修饰的物体只能提取一个的问题; 首先, 利用spacy判断修饰
词是否属于数量词, 若 是, 根据识别的数量词数目, 添加上对应数目的物体和(主, 谓, 宾)结
构化三元组;
步骤S43: 改进对于含有be动词的文本信息提取不好的问题; 首先, 进行词性标注, 在提
取(主, 谓, 宾)三元组之前, 将be动词识别并删除;
步骤S44: 实现文本自动处理模块的构建; 输入文本后, 按照步骤S41、 步骤S42、 步骤S43
的顺序对文本进行处 理。
5.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法, 其特征在于,
所述步骤S4具体为:
步骤S41: 改进对于文本中含有and前后连词的并列关系提取不好的问题; 首先, 将含有
and等连词连接的文本先识别划分, 然后再进 行词性标注, 对(主, 谓, 宾)三元 组结构化信息
进行提取;
步骤S42: 改进对于数量词修饰的物体只能提取一个的问题; 首先, 利用spacy判断修饰
词是否属于数量词, 若 是, 根据识别的数量词数目, 添加上对应数目的物体和(主, 谓, 宾)结
构化三元组;
步骤S43: 改进对于含有be动词的文本信息提取不好的问题; 首先, 进行词性标注, 在提
取(主, 谓, 宾)三元组之前, 将be动词识别并删除;
步骤S44: 实现文本自动处理模块的构建; 输入文本后, 按照步骤S41、 步骤S42、 步骤S43权 利 要 求 书 2/4 页
3
CN 115018941 A
3
专利 一种基于改进版文本解析器的文本至图像生成算法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:56上传分享