国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210718762.X (22)申请日 2022.06.23 (71)申请人 中电通商数字技 术 (上海) 有限公司 地址 200120 上海市浦东 新区自由贸易试 验区奥纳路18 8号1幢楼5层5 36室 (72)发明人 陆瑾 苑洪亮 周澳 王晓伟  刘志伟 王芷若 吕兰兰  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 李宏志 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/28(2019.01)G06N 20/00(2019.01) (54)发明名称 一种基于深度学习的数据解析方法、 装置以 及介质 (57)摘要 本申请公开了一种基于深度学习的数据解 析方法、 装置以及介质, 应用于深度学习领域。 该 方法先获取文本数据中的标准词和候选词, 候选 词为文本 数据中区别于标准词的其他词, 而其中 有候选词与标准词是表述同一实体的, 这种候选 词称为与标准词对应的相关词。 将标准词和候选 词输入至语义模 型, 就可通过语义模 型得到与标 准词表述同一实体的相关词; 然后将文本数据中 的相关词转化为对应的标准词, 文本数据中各实 体均通过标准词来表述, 最后 在文本数据中抽取 各实体之间的关系。 本申请实施例提供的方法, 不需要在实体的各种表述上设置标签, 直接将各 种表述统一转换为标准词来表述, 减少了工作 量, 最后得到实体和各实体间的关系, 即得到了 结构化数据。 权利要求书2页 说明书8页 附图3页 CN 115186659 A 2022.10.14 CN 115186659 A 1.一种基于深度学习的数据解析 方法, 其特 征在于, 包括: 获取半结构化数据和/或非结构化数据的文本数据中的标准词和候选词, 其中, 所述候 选词为所述文本数据中区别于所述标准词的其 他词; 将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词 表述同一实体的相关词; 将所述文本数据中的所述相关词转 化为对应的所述标准词; 在所述文本数据中抽取 各所述实体之间的关系。 2.根据权利要求1所述的基于深度学习的数据解析方法, 其特征在于, 所述在所述文本 数据中抽取 各所述实体之间的关系包括: 将所述文本数据输入预测矩阵以抽取各所述实体之间的关系; 其中, 所述预测矩阵是 根据历史文本数据中各 所述实体的语义特 征和位置特 征训练得到的。 3.根据权利要求2所述的基于深度学习的数据解析方法, 其特征在于, 构建所述预测矩 阵包括: 获取所述文本数据所在领域的关系表; 针对所述关系表中的每种关系构建相应的预测矩阵。 4.根据权利要求1至3任意一项所述的基于深度学习的数据解析方法, 其特征在于, 获 取所述文本数据中的所述标准词包括: 通过文本匹配算法将所述标准词表与所述文本数据进行匹配以获取 所述标准词。 5.根据权利要求4所述的基于深度学习的数据解析方法, 其特征在于, 获取所述文本数 据中的所述 候选词包括: 通过分词算法对所述文本数据进行分词; 通过关键词筛 选算法筛 选出权重高于权重阈值的词作为所述 候选词。 6.根据权利要求5所述的基于深度学习的数据解析方法, 其特征在于, 所述将所述标准 词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词表述同一实体的 相关词包括: 输入所述标准词以训练所述语义模型; 将所述候选词输入训练后的所述语义模型以进行相似度计算; 取与所述标准词的相似度高于相似度阈值的所述候选词作为与所述标准词对应的所 述相关词。 7.根据权利要求6所述的基于深度学习的数据解析方法, 其特征在于, 所述文本匹配算 法包括AC自动机和/或KMP算法; 所述分词算法包括jieba算法; 所述关键词筛 选算法包括TF ‑IDF算法; 所述语义模型包括 word2vec和/或BERT。 8.一种基于深度学习的数据解析装置, 其特 征在于, 包括: 获取模块, 用于获取文本数据中的标准词和候选词, 其中, 所述候选词为所述文本数据 中区别于所述标准词的其 他词; 输入模块, 用于将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中 与所述标准词表述同一实体的相关词;权 利 要 求 书 1/2 页 2 CN 115186659 A 2转化模块, 用于将所述相关词转 化为对应的所述标准词; 抽取模块, 用于在所述文本数据中抽取 各所述实体之间的关系。 9.一种基于深度学习的数据解析装置, 其特征在于, 包括存储器, 用于存储计算机程 序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度 学习 的数据解析 方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的基于深度学习的 数据解析 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115186659 A 3

.PDF文档 专利 一种基于深度学习的数据解析方法、装置以及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的数据解析方法、装置以及介质 第 1 页 专利 一种基于深度学习的数据解析方法、装置以及介质 第 2 页 专利 一种基于深度学习的数据解析方法、装置以及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。