国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210718762.X (22)申请日 2022.06.23 (71)申请人 中电通商数字技 术 (上海) 有限公司 地址 200120 上海市浦东 新区自由贸易试 验区奥纳路18 8号1幢楼5层5 36室 (72)发明人 陆瑾 苑洪亮 周澳 王晓伟 刘志伟 王芷若 吕兰兰 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 李宏志 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 16/28(2019.01)G06N 20/00(2019.01) (54)发明名称 一种基于深度学习的数据解析方法、 装置以 及介质 (57)摘要 本申请公开了一种基于深度学习的数据解 析方法、 装置以及介质, 应用于深度学习领域。 该 方法先获取文本数据中的标准词和候选词, 候选 词为文本 数据中区别于标准词的其他词, 而其中 有候选词与标准词是表述同一实体的, 这种候选 词称为与标准词对应的相关词。 将标准词和候选 词输入至语义模 型, 就可通过语义模 型得到与标 准词表述同一实体的相关词; 然后将文本数据中 的相关词转化为对应的标准词, 文本数据中各实 体均通过标准词来表述, 最后 在文本数据中抽取 各实体之间的关系。 本申请实施例提供的方法, 不需要在实体的各种表述上设置标签, 直接将各 种表述统一转换为标准词来表述, 减少了工作 量, 最后得到实体和各实体间的关系, 即得到了 结构化数据。 权利要求书2页 说明书8页 附图3页 CN 115186659 A 2022.10.14 CN 115186659 A 1.一种基于深度学习的数据解析 方法, 其特 征在于, 包括: 获取半结构化数据和/或非结构化数据的文本数据中的标准词和候选词, 其中, 所述候 选词为所述文本数据中区别于所述标准词的其 他词; 将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词 表述同一实体的相关词; 将所述文本数据中的所述相关词转 化为对应的所述标准词; 在所述文本数据中抽取 各所述实体之间的关系。 2.根据权利要求1所述的基于深度学习的数据解析方法, 其特征在于, 所述在所述文本 数据中抽取 各所述实体之间的关系包括: 将所述文本数据输入预测矩阵以抽取各所述实体之间的关系; 其中, 所述预测矩阵是 根据历史文本数据中各 所述实体的语义特 征和位置特 征训练得到的。 3.根据权利要求2所述的基于深度学习的数据解析方法, 其特征在于, 构建所述预测矩 阵包括: 获取所述文本数据所在领域的关系表; 针对所述关系表中的每种关系构建相应的预测矩阵。 4.根据权利要求1至3任意一项所述的基于深度学习的数据解析方法, 其特征在于, 获 取所述文本数据中的所述标准词包括: 通过文本匹配算法将所述标准词表与所述文本数据进行匹配以获取 所述标准词。 5.根据权利要求4所述的基于深度学习的数据解析方法, 其特征在于, 获取所述文本数 据中的所述 候选词包括: 通过分词算法对所述文本数据进行分词; 通过关键词筛 选算法筛 选出权重高于权重阈值的词作为所述 候选词。 6.根据权利要求5所述的基于深度学习的数据解析方法, 其特征在于, 所述将所述标准 词和所述候选词输入至语义模型以得到在各所述候选词中与所述标准词表述同一实体的 相关词包括: 输入所述标准词以训练所述语义模型; 将所述候选词输入训练后的所述语义模型以进行相似度计算; 取与所述标准词的相似度高于相似度阈值的所述候选词作为与所述标准词对应的所 述相关词。 7.根据权利要求6所述的基于深度学习的数据解析方法, 其特征在于, 所述文本匹配算 法包括AC自动机和/或KMP算法; 所述分词算法包括jieba算法; 所述关键词筛 选算法包括TF ‑IDF算法; 所述语义模型包括 word2vec和/或BERT。 8.一种基于深度学习的数据解析装置, 其特 征在于, 包括: 获取模块, 用于获取文本数据中的标准词和候选词, 其中, 所述候选词为所述文本数据 中区别于所述标准词的其 他词; 输入模块, 用于将所述标准词和所述候选词输入至语义模型以得到在各所述候选词中 与所述标准词表述同一实体的相关词;权 利 要 求 书 1/2 页 2 CN 115186659 A 2转化模块, 用于将所述相关词转 化为对应的所述标准词; 抽取模块, 用于在所述文本数据中抽取 各所述实体之间的关系。 9.一种基于深度学习的数据解析装置, 其特征在于, 包括存储器, 用于存储计算机程 序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度 学习 的数据解析 方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述的基于深度学习的 数据解析 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115186659 A 3
专利 一种基于深度学习的数据解析方法、装置以及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:13
上传分享
举报
下载
原文档
(560.9 KB)
分享
友情链接
GB/T 15055-2021 冲压件未注公差尺寸极限偏差.pdf
GB-T 2102-2022 钢管的验收、包装、标志和质量证明书.pdf
希赛 2022中级信息安全工程师知识点集锦.pdf
T-CI 175—2022 智能交通基础设施数字化技术规范.pdf
GB-T 33133.3-2021 信息安全技术 祖冲之序列密码算法 第3部分:完整性算法.pdf
T-SISTB 006—2021 现代物业管理评价指标体系1.0.pdf
GB-T 10067.47-2014 电热装置基本技术条件 第47部分:真空热处理和钎焊炉.pdf
GB-T 4990-2010 热电偶用补偿导线合金丝.pdf
GB-T 43512-2023 全钒液流电池可靠性评价方法.pdf
GB-T 20988-2007 信息安全技术 信息系统灾难恢复规范.pdf
GB-T 32371.2-2015 低溶剂型或无溶剂型胶粘剂涂敷后释放特性的短期测量方法 第2部分:挥发性有机化合物的测定.pdf
DB62-T 1789-2019 地理标志产品 民乐紫皮大蒜 甘肃省.pdf
GB-Z 40847-2021 认知康复训练系统通用技术条件.pdf
JR-T 0138-2016 银团贷款业务技术指南.pdf
GB-T 38499-2020 消毒剂稳定性评价方法.pdf
GB 2017-1980 中波广播网覆盖技术.pdf
GB-T 32059-2015 高速动车组车窗、车门抗风压载荷疲劳试验方法.pdf
GB-T 29767-2013 信息安全技术 公钥基础设施 桥CA体系证书分级规范.pdf
GB-T 10886-2019 三螺杆泵.pdf
DB4106-T 67-2022 数字乡村建设指南 鹤壁市.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(560.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。