国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210766523.1 (22)申请日 2022.06.30 (71)申请人 北京三维 天地科技股份有限公司 地址 100000 北京市海淀区西四环北路1 19 号A座3层3 09室 (72)发明人 金震 张京日 穆宇浩 詹焕哲 (74)专利代理 机构 北京冠和权律师事务所 11399 专利代理师 张树朋 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/2457(2019.01) G06F 40/30(2020.01) G06F 17/16(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于规则与机器学习的智能血缘识别 推荐方法及系统 (57)摘要 本发明公开了一种基于规则与机器学习的 智能血缘识别推荐方法及系统, 其中方法包括: 构建机器学习模 型, 基于所述机器学习模型识别 出所有数据字段的若干个特征信息; 所述特征信 息包括字段的唯一值、 最大值、 最小值; 基于机器 学习模型对数据字段进行聚类, 获得若干个簇; 基于数据模式比对规则, 将每个簇中的数据字段 的唯一值进行比较, 确定基于唯一值的交集覆盖 关系; 对所述交集覆盖关系进行排序; 基于所述 排序进行排序过滤, 过滤后形成物理表之间的血 缘关系清单。 基于数据模式比对规则、 结合机器 学习能力, 实现对数据的血缘识别、 发现, 帮助企 业构建数据网络。 大大的降低了企业数据治理的 成本, 有效提高数据治理的效率。 权利要求书2页 说明书8页 附图2页 CN 115374223 A 2022.11.22 CN 115374223 A 1.一种基于规则与机器学习的智能血缘识别推荐方法, 其特 征在于, 包括: S100, 构建机器学习模型, 基于所述机器学习模型识别出所有数据字段的若干个特征 信息; 所述特 征信息包括字段的唯一 值、 最大值、 最小值; S200, 基于机器学习模型对数据字段进行聚类, 获得若干个簇; S300, 基于数据模式比对规则, 将每个簇中的数据字段的唯一值进行比较, 确定基于唯 一值的交集覆盖关系; S400, 对所述交集覆盖关系进行排序; S500, 基于所述 排序进行排序过 滤, 过滤后形成物理表之间的血缘关系清单。 2.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 步骤S500之后, 还 包括: S600, 将所述血缘关系清单中排序靠前的内容推荐给用户, 供用户进行选择, 用户根据 推荐的上下游的物理表进 行选择, 选择后的表将作为新的特征加入至交集覆盖 关系排序的 计算中。 3.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S200包括: S201, 基于 机器学习模型对数据字段的内容进行文本语义 提取, 获得 数据字段的语义; S202, 对数据字段根据内容、 类型、 语义、 标注进行聚类, 形成包含不同特征的若干个 簇。 4.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S400包括: 对所述交集覆盖关系采用Pa geRank排序方法进行排序。 5.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S500包括: S501, 设定排序阈值, 形成物理表之间的血缘关系; S502, 基于排序和排序阈值进行 过滤, 形成物理表和物理表之间的血缘关系清单。 6.一种基于规则与机器学习的智能血缘识别推荐系统, 其特 征在于, 包括: 特征信息识别单元, 用于构建机器学习模型, 基于所述机器学习模型识别出所有数据 字段的若干个特 征信息; 所述特 征信息包括字段的唯一 值、 最大值、 最小值; 聚类单元, 用于基于 机器学习模型对数据字段进行聚类, 获得若干个簇; 交集覆盖关系确定单元, 用于基于数据模式比对规则, 将每个簇中的数据字段的唯一 值进行比较, 确定基于唯一 值的交集覆盖关系; 排序单元, 用于对所述交集覆盖关系进行排序; 血缘关系清单形成单元, 用于基于所述排序进行排序过滤, 过滤后形成物理表之间的 血缘关系清单。 7.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 还包括: 推荐单元, 用于将所述血缘关系清单中排序靠前的内容推荐给用户, 供用户进行选择, 用户根据推荐的上下游的物理表进行选择, 选择后的表将作为新的特征加入至交集覆盖关 系排序的计算中。权 利 要 求 书 1/2 页 2 CN 115374223 A 28.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 所述聚类单 元包括: 语义提取子单元, 用于基于机器学习模型对数据字段的内容进行文本语义提取, 获得 数据字段的语义; 特征聚类子单元, 用于对数据字段根据内容、 类型、 语义、 标注进行聚类, 形成包含不同 特征的若干个簇 。 9.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 所述排序单元包括: PageRank排序子单 元, 用于对所述交集覆盖关系采用Pa geRank排序方法进行排序。 10.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在 于, 所述血缘关系清单 形成单元包括: 排序阈值设定 子单元, 用于设定排序阈值, 形成物理表之间的血缘关系; 过滤子单元, 用于基于排序和排序阈值进行过滤, 形成物理表和物理表之间的血缘关 系清单。权 利 要 求 书 2/2 页 3 CN 115374223 A 3
专利 一种基于规则与机器学习的智能血缘识别推荐方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:29
上传分享
举报
下载
原文档
(540.3 KB)
分享
友情链接
GW0014-2017 国家电子政务工程项目 应用软件第三方测试规范.pdf
GW0202-2014 国家电子政务外网 安全接入平台技术规范.pdf
GB-T 36478.2-2018 物联网 信息交换和共享 第2部分:通用技术要求.pdf
GB-T 9711-2023 石油天然气工业 管线输送系统用钢管.pdf
GB-T 15478-2015 压力传感器性能试验方法.pdf
DB43-T 1872-2020 政府网站集约化管理平台运行维护规范 湖南省.pdf
GB-T 7044-2022 色素炭黑.pdf
GB-T 42825-2023 电动滑板车通用技术规范.pdf
GA-T 1714-2020 信息安全技术 异常流量检测和清洗产品安全技术要求.pdf
T-CPARK 14—2020 预制构件养护窑.pdf
T-CEC 5080—2022 户用光伏发电系统安装调试与验收规范.pdf
DB14-T 2841-2023 政务云平台 运维规范 山西省.pdf
DB43-T 612-2021 医疗机构能耗定额 湖南省.pdf
GB-T 42129-2022 数据管理能力成熟度评估方法.pdf
舟山市科技创新促进条例.pdf
GB-T 30354-2013 食用植物油散装运输规范.pdf
GB-T 32169.4-2015 政务服务中心运行规范 第4部分:窗口服务评价要求.pdf
GB-T 32146.2-2015 检验检测实验室设计与建设技术要求 第2部分:电气实验室.pdf
NY-T 3992-2021 苯噻酰草胺原药.pdf
NY-T 693-2020 澳洲坚果 果仁.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(540.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。