国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210766523.1 (22)申请日 2022.06.30 (71)申请人 北京三维 天地科技股份有限公司 地址 100000 北京市海淀区西四环北路1 19 号A座3层3 09室 (72)发明人 金震 张京日 穆宇浩 詹焕哲  (74)专利代理 机构 北京冠和权律师事务所 11399 专利代理师 张树朋 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/2457(2019.01) G06F 40/30(2020.01) G06F 17/16(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于规则与机器学习的智能血缘识别 推荐方法及系统 (57)摘要 本发明公开了一种基于规则与机器学习的 智能血缘识别推荐方法及系统, 其中方法包括: 构建机器学习模 型, 基于所述机器学习模型识别 出所有数据字段的若干个特征信息; 所述特征信 息包括字段的唯一值、 最大值、 最小值; 基于机器 学习模型对数据字段进行聚类, 获得若干个簇; 基于数据模式比对规则, 将每个簇中的数据字段 的唯一值进行比较, 确定基于唯一值的交集覆盖 关系; 对所述交集覆盖关系进行排序; 基于所述 排序进行排序过滤, 过滤后形成物理表之间的血 缘关系清单。 基于数据模式比对规则、 结合机器 学习能力, 实现对数据的血缘识别、 发现, 帮助企 业构建数据网络。 大大的降低了企业数据治理的 成本, 有效提高数据治理的效率。 权利要求书2页 说明书8页 附图2页 CN 115374223 A 2022.11.22 CN 115374223 A 1.一种基于规则与机器学习的智能血缘识别推荐方法, 其特 征在于, 包括: S100, 构建机器学习模型, 基于所述机器学习模型识别出所有数据字段的若干个特征 信息; 所述特 征信息包括字段的唯一 值、 最大值、 最小值; S200, 基于机器学习模型对数据字段进行聚类, 获得若干个簇; S300, 基于数据模式比对规则, 将每个簇中的数据字段的唯一值进行比较, 确定基于唯 一值的交集覆盖关系; S400, 对所述交集覆盖关系进行排序; S500, 基于所述 排序进行排序过 滤, 过滤后形成物理表之间的血缘关系清单。 2.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 步骤S500之后, 还 包括: S600, 将所述血缘关系清单中排序靠前的内容推荐给用户, 供用户进行选择, 用户根据 推荐的上下游的物理表进 行选择, 选择后的表将作为新的特征加入至交集覆盖 关系排序的 计算中。 3.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S200包括: S201, 基于 机器学习模型对数据字段的内容进行文本语义 提取, 获得 数据字段的语义; S202, 对数据字段根据内容、 类型、 语义、 标注进行聚类, 形成包含不同特征的若干个 簇。 4.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S400包括: 对所述交集覆盖关系采用Pa geRank排序方法进行排序。 5.根据权利要求1所述的基于规则与机器学习的智能血缘识别推荐方法, 其特征在于, 所述S500包括: S501, 设定排序阈值, 形成物理表之间的血缘关系; S502, 基于排序和排序阈值进行 过滤, 形成物理表和物理表之间的血缘关系清单。 6.一种基于规则与机器学习的智能血缘识别推荐系统, 其特 征在于, 包括: 特征信息识别单元, 用于构建机器学习模型, 基于所述机器学习模型识别出所有数据 字段的若干个特 征信息; 所述特 征信息包括字段的唯一 值、 最大值、 最小值; 聚类单元, 用于基于 机器学习模型对数据字段进行聚类, 获得若干个簇; 交集覆盖关系确定单元, 用于基于数据模式比对规则, 将每个簇中的数据字段的唯一 值进行比较, 确定基于唯一 值的交集覆盖关系; 排序单元, 用于对所述交集覆盖关系进行排序; 血缘关系清单形成单元, 用于基于所述排序进行排序过滤, 过滤后形成物理表之间的 血缘关系清单。 7.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 还包括: 推荐单元, 用于将所述血缘关系清单中排序靠前的内容推荐给用户, 供用户进行选择, 用户根据推荐的上下游的物理表进行选择, 选择后的表将作为新的特征加入至交集覆盖关 系排序的计算中。权 利 要 求 书 1/2 页 2 CN 115374223 A 28.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 所述聚类单 元包括: 语义提取子单元, 用于基于机器学习模型对数据字段的内容进行文本语义提取, 获得 数据字段的语义; 特征聚类子单元, 用于对数据字段根据内容、 类型、 语义、 标注进行聚类, 形成包含不同 特征的若干个簇 。 9.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在于, 所述排序单元包括: PageRank排序子单 元, 用于对所述交集覆盖关系采用Pa geRank排序方法进行排序。 10.根据权利要求6所述的基于规则与机器学习的智能血缘识别推荐系统, 其特征在 于, 所述血缘关系清单 形成单元包括: 排序阈值设定 子单元, 用于设定排序阈值, 形成物理表之间的血缘关系; 过滤子单元, 用于基于排序和排序阈值进行过滤, 形成物理表和物理表之间的血缘关 系清单。权 利 要 求 书 2/2 页 3 CN 115374223 A 3

.PDF文档 专利 一种基于规则与机器学习的智能血缘识别推荐方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于规则与机器学习的智能血缘识别推荐方法及系统 第 1 页 专利 一种基于规则与机器学习的智能血缘识别推荐方法及系统 第 2 页 专利 一种基于规则与机器学习的智能血缘识别推荐方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。