国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210725045.X (22)申请日 2022.06.23 (71)申请人 平安科技(深圳)有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 柳阳  (74)专利代理 机构 深圳紫藤知识产权代理有限 公司 44570 专利代理师 苏蕾 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/18(2022.01) G06V 10/82(2022.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本识别方法、 系统、 电子设备及存储 介质 (57)摘要 本申请实施例公开了一种文本识别方法、 系 统、 电子设备及存储介质; 本申请实施例可以获 取待识别文本图像; 对待识别文本图像进行编码 处理, 得到待识别文本图像的特征序列; 基于语 义提取模型, 对特征序列进行语义提取处理, 得 到全局语义信息; 基于预训练语言表征模型, 对 全局语义信息进行优化处理, 得到优化后的全局 语义信息; 对优化后的全局语义信息和特征序列 进行解码处理, 得到待识别文本图像的文本识别 结果。 由此, 本方案可以提升对场景文本识别的 识别效果, 提高准确率。 权利要求书2页 说明书11页 附图6页 CN 114943960 A 2022.08.26 CN 114943960 A 1.一种文本识别方法, 其特 征在于, 包括 获取待识别文本图像; 对所述待识别文本图像进行编码处 理, 得到所述待识别文本图像的特 征序列; 基于语义 提取模型, 对所述特 征序列进行语义 提取处理, 得到全局语义信息; 基于预训练语言表征模型, 对所述全局语义信息进行优化处理, 得到优化后的全局语 义信息; 对优化后的全局语义信 息和所述特征序列进行解码处理, 得到所述待识别文本图像的 文本识别结果。 2.根据权利要求1所述的文本识别方法, 其特 征在于, 所述获取待识别文本图像, 包括: 获取待矫 正的文本图像; 对所述待矫正的文本 图像进行矫正处理, 得到矫正图像, 将所述矫正图像记作所述待 识别文本图像。 3.根据权利要求1所述的文本识别方法, 其特征在于, 所述对所述待识别文本图像进行 编码处理, 得到所述待识别文本图像的特 征序列, 包括: 对所述待识别文本图像进行 特征提取处 理, 得到特 征图像; 将所述特 征图像输入至少一层 双向循环网络, 生成两个候选特 征序列; 将所述两个候选特 征序列进行合并处 理, 得到所述特 征序列。 4.根据权利要求1所述的文本识别方法, 其特征在于, 所述语义提取模型至少包括第 一 连接层网络和第二连接层网络; 所述基于语义提取模型, 对所述特征序列进行语义提取处理, 得到全局语义信息, 包 括: 获取所述第 一连接层网络的第 一权重和第 一偏置、 所述第 二连接层网络的第 二权重和 第二偏置以及修 正线性单 元的激活函数; 对所述特 征序列进行转换处 理, 得到所述特 征序列的一维向量; 根据所述第 一连接层网络的第 一权重和第 一偏置、 所述第 二连接层网络的第 二权重和 第二偏置、 所述修正线性单元 的激活函数以及所述特征序列的一维向量, 得到所述全局语 义信息。 5.根据权利要求1所述的文本识别方法, 其特征在于, 所述基于预训练语言表征模型, 对所述全局语义信息进行优化处 理, 得到优化后的全局语义信息, 包括: 确定所述全局语义信息; 对所述全局语义信息进行信息提取, 得到所述全局语义信息中的字向量、 文本向量和 位置向量; 将所述全局语义信 息中的字向量、 文本向量和位置向量输入至所述预训练语言表征模 型, 得到词嵌入向量; 根据所述词嵌入向量和所述全局语义信息, 得到损失函数; 若所述损 失函数未满足预设条件, 则对所述语义提取模型的参数进行调整处理, 直到 所述损失函数满足所述预设条件, 获取损失函数满足所述预设条件时所对应的语义提取模 型, 记为训练完成的语义 提取模型; 将所述特 征序列输入至训练完成的语义 提取模型, 得到优化后的全局语义信息 。权 利 要 求 书 1/2 页 2 CN 114943960 A 26.根据权利要求5所述的文本识别方法, 其特征在于, 所述根据 所述词嵌入向量和所述 全局语义信息, 得到损失函数, 包括: 确定识别损失值以及所述词嵌入向量和所述全局语义信息的余弦距离; 根据所述词嵌入向量和所述全局语义信息的余弦距离, 确定语义损失值; 根据语义损失值和识别损失值, 确定所述损失函数。 7.根据权利要求1所述的文本识别方法, 其特征在于, 所述对优化后的全局语义信 息和 所述特征序列进行解码处 理, 得到所述待识别文本图像的文本识别结果, 包括: 根据所述优化后的全局语义信息, 对循环神经网络模型进行初始化处理, 得到初始化 处理后的循环神经网络模型; 将所述特征序列输入至初始化处理后的所述循环神经网络模型, 得到带有视觉信 息的 初始化全局语义信息; 根据所述带有视 觉信息的初始化全局语义信息, 得到文本识别结果。 8.一种文本识别系统, 其特 征在于, 包括: 获取单元, 用于获取待识别文本图像; 编码处理单元, 用于对所述待识别文本 图像进行编码处理, 得到所述待识别文本 图像 的特征序列; 语义提取单元, 用于基于语义提取模型, 对所述特征序列进行语义提取处理, 得到全局 语义信息; 优化单元, 用于基于预训练语言表征模型, 对所述全局语义信 息进行优化处理, 得到优 化后的全局语义信息; 解码单元, 用于对优化后的全局语义信息和所述特征序列进行解码处理, 得到所述待 识别文本图像的文本识别结果。 9.一种电子设备, 其特征在于, 包括处理器和存储器, 所述存储器存储有多条指令; 所 述处理器从所述存储器中加载指 令, 以执行如权利要求 1~7任一项 所述的文本识别方法中 的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有多条指 令, 所述指令适于处理器进行加载, 以执行权利要求1~7任一项所述的文本识别方法中的 步骤。权 利 要 求 书 2/2 页 3 CN 114943960 A 3

.PDF文档 专利 一种文本识别方法、系统、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本识别方法、系统、电子设备及存储介质 第 1 页 专利 一种文本识别方法、系统、电子设备及存储介质 第 2 页 专利 一种文本识别方法、系统、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。