国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210749318.4 (22)申请日 2022.06.29 (71)申请人 包佳 地址 310003 浙江省杭州市上城区清吟街 13-3号小营民居4-1-401 (72)发明人 包佳  (74)专利代理 机构 杭州昱呈专利代理事务所 (普通合伙) 33303 专利代理师 雷仕荣 (51)Int.Cl. G06F 40/149(2020.01) G06F 40/151(2020.01) G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于本体模 型的XML描述文档标准化方 法和装置 (57)摘要 本发明提供了一种基于本体模 型的XML描述 文档标准化方法和装置, 包括: 本体模型生成模 块根据指定标准的XSD文档生成对应的标准本体 模型, 提供XML描述文档的标准节点名称和结构; XML描述文档解析方法模块对传输进来的XML描 述文档的节点信息进行解析, 获取语义信息; 节 点匹配及转换模块根据XML描 述文档的语义信息 分析XML描述文档节点与本体模型概念的相似 度, 并根据相似度的值将对应的节 点与概念进行 匹配, 在匹配完成后对不满足标准的节点进行标 准化处理; 校验模块对转换后的XML描述文档节 点进行校验处理, 并将标准本体模 型中未包含的 节点信息作为补充概念加入到本体模 型中, 对标 准的本体模 型进行完善。 本发明可以将不符合标 准的XML描述文档转换成标准文档。 权利要求书2页 说明书6页 附图3页 CN 115204114 A 2022.10.18 CN 115204114 A 1.一种基于 本体模型的XML描述文档标准 化方法, 其特 征在于, 至少包括以下步骤: 步骤S1: 根据指定标准的XSD文档生成对应的标准本体模型, 以提供XML描述文档的标 准节点名称和结构; 步骤S2: 获取非标准的XML描述文档, 并解析 XML描述文档的语义信息; 步骤S3: 根据XML描述文档的语义信息, 分析XML描述文档节点与本体模型概念 的相似 度, 并根据相似度的值将对应的节点与概念进行匹配, 在 匹配完成后对不满足标准的节点 进行标准化处理, 生成标准的XML描述文档。 2.根据权利要求1所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 还包 括: 步骤S4: 对转换后的XML描述文档节点进行检验, 并将标准本体模型中未包含的节点信 息作为补充概念加入到 本体模型中, 以对标准的本体模型进行完 善。 3.根据权利要求2所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 步骤 S1包括以下步骤: S101: 导入指定标准的XSD文档, 对标准文档进行解析, 分析XSD文档中的节点元素名称 和节点结构; S102: 根据XS D至OWL的转换规则, 将获取的节点信息进行转换生成标准的本体模型; S103: 检查生成的本体模型 是否符合OW L的通用规则。 4.根据权利要求2所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 步骤 S2包括: 获取异构软件平台中的一个非标准的XML描述文档, 然后遍历分析非标准XML描述文档 中的每一个节点, 对节点的名称、 结构与类型进行解析。 5.根据权利要求2所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 步骤 S3包括以下步骤: S301: 对非标准XML描述文档中的每一个节点, 遍历标准的本体模型中的所有概念, 综 合名称相似度、 结构相似度和类型相似度得到节点与概念间的相似度; S302: 将相似度最高的节点与 概念进行配对, 其中, 节点与概念之间的映射关系为一对 一映射、 一对多映射和多对一映射; S303: 根据得到的若干 映射关系, 转换非标准文档的节点名称和结构为标准本体模型 概念的名称与结构; S304: 完成全部映射关系的转换后, 得到目标 标准XML描述文档。 6.根据权利要求5所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 综合 名称相似度、 类型相似度和结构相似度得到节点与概念间的相似度包括: 通过WordNet得到节点间名称的语义相似度, 再计算节点间名称的编辑距离相似度; 对 语义相似度和编辑距离相似度加权求和得到节点的名称相似度; 根据数据类型匹配表得到节点间的类型相似度; 根据节点结构为叶子节点或非叶子节点, 分别计算综合相似度; 对叶子节点, 综合相似度为节点的名称相似度和类型相似度的加权求和; 对非叶子节点, 综合相似度为 其所有子孙叶子节点的综合相似度的均值。 7.根据权利要求2所述的基于本体模型的XML描述文档标准化方法, 其特征在于, 步骤权 利 要 求 书 1/2 页 2 CN 115204114 A 2S4包括以下步骤: S401: 导入目标 XML描述文档, 解析为目标节点 树的形式; S402: 根据源非标准XML描述文档 对目标节点树中的节点进行校验, 调整并记录转换后 不符合源文档语义信息的节点; S403: 检查转换不成功的节点中标准的本体模型不具有的语义信息, 若符合OWL的通用 规则, 则将语义信息补充至标准的本体模型, 对本体模型做进一 步的完善。 8.一种基于本体模型的XML描述文档标准化装置, 其特征在于: 包括本体模型生成模 块、 XML描述文档解析模块、 节点匹配及转换模块、 校验 模块, 其中, 本体模型生成模块用于根据指定标准的XSD文档生成对应的标准本体模型, 以提供XML 描述文档的标准节点名称和结构; XML描述文档解析模块用于获取非标准的XML描述文档, 并解析XML描述文档的语义信 息; 节点匹配及转换模块用于根据XML描述文档的语义信息, 分析XML描述文档节点与本体 模型概念的相似度, 并根据相似度的值将对应的节点与概念进行匹配, 在匹配完成后对不 满足标准的节点进行 标准化处理, 生成标准的XML描述文档; 校验模块用于对转换后的XML描述文档节点进行检验, 并将标准本体模型中未包含的 节点信息作为补充概念加入到 本体模型中, 以对标准的本体模型进行完 善。 9.根据权利要求8所述基于本体模型的XML描述文档标准化装置, 其特征在于: 本体模 型生成模块由指 定的标准XML  Schema文件生 成标准的本体模型, 本体模 型中的每个概念分 别对应着标准文件的一个节点。 10.根据权利要求8所述基于本体模型的XML描述文档标准化装置, 其特征在于: XML描 述文档解析模块, 根据传输进来的非标准XML描述文档, 对文档进行统一的解析, 解析完成 后将文档的节点信息传给节点匹配及转换模块。权 利 要 求 书 2/2 页 3 CN 115204114 A 3

.PDF文档 专利 一种基于本体模型的XML描述文档标准化方法和装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于本体模型的XML描述文档标准化方法和装置 第 1 页 专利 一种基于本体模型的XML描述文档标准化方法和装置 第 2 页 专利 一种基于本体模型的XML描述文档标准化方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。