国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221071579 9.7 (22)申请日 2022.06.23 (71)申请人 北京市燃气集团有限责任公司 地址 100035 北京市西城区西直门南小街 22号 (72)发明人 王广清 方铁城 刘颖 申彦龙 陈宇翀 周树杰 李昕 白强 (74)专利代理 机构 北京天方智力知识产权代理 事务所(普通 合伙) 11719 专利代理师 路远 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/28(2019.01) G06F 40/253(2020.01) G06F 40/30(2020.01)G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的数据库基线确定方法 及装置 (57)摘要 本发明提供一种基于机器学习的数据库基 线确定方法及装置。 所述方法包括: 利用数据采 集技术对网络通信中的数据报文进行采集; 根据 采集数据的协议特征识别数据库类型, 并基于数 据库类型从采集数据中提取有效的sql语句; 对 sql语句进行语义和语法解析, 得到sql语句概要 信息; 构建以sql语句概要信息为输入、 以sql请 求正常和不正常为输出的sql模型, 利用训练好 的sql模型判定新的sql语句是否为正 常的sql请 求, 若正常, 则所述新的sql语句满足数据库基线 要求。 本发明通过对业务系统进行画像, 并基于 画像信息确定数据库基线, 能够对不同的业务系 统确定不同的数据库基线, 使数据库基线更精 确。 权利要求书2页 说明书6页 附图1页 CN 115017181 A 2022.09.06 CN 115017181 A 1.一种基于 机器学习的数据库基线确定方法, 其特 征在于, 包括以下步骤: 利用数据采集 技术对网络通信中的数据报文 进行采集; 根据采集数据的协议特征识别数据库类型, 并基于数据库类型从采集数据中提取有效 的sql语句; 对sql语句进行语义和语法解析, 提取出sql语句中的操作类型、 操作对象、 操作内容、 操作条件和条件内容, 得到sql语句概要信息; 构建以sql语句概要信息为输入、 以sql请求正常和不正常为输出的sql模型, 利用训练 好的sql模型判定新的sql语句是否为正常的sql请求, 若正常, 则所述新的sql语句满足数 据库基线 要求。 2.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述利用 数据采集 技术对网络通信中的数据报文 进行采集, 还 包括: 提取数据通信的四元组(源地址, 源端口, 目的地址, 目的端口), 并根据所述四元组利 用数据散列算法形成数1~6 55350之间的通信会话标识。 3.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 对sql模 型进行训练的方法包括: 通过对提取的sql语句概要信息进行语料预处理构建训练数据集, 所述语料预处理包 括: 剔除空值; 进行 特征标注, 将正常请求标注为 “正常”, 将非正常请求标注为 “不正常”; 采用潜语义分析 方法LSA, 基于构建的训练数据集对所述sql模型进行训练。 4.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述方法 还包括针对不同的业 务系统确定不同的数据库基线, 方法如下: 基于业务系统的源目的IP地址、 时间、 数据库流量、 频次维度信息, 对所述业务系统的 数据库使用行为进行画像; 基于业务系统的画像信息确定业 务系统的数据库基线, 形成数据库的最小安全保障。 5.根据权利要求1所述的基于机器学习的数据库基线确定方法, 其特征在于, 所述方法 还包括: 当业务升级或者有新的业务功能时, 会产生新的sql语句, 提取sql语句概要信息, 并对 sql模型进行训练; 利用训练好的sql模型判断新的sql语句 是偶发sql, 还是新增的业务sql; 如果是新增 的业务sql, 将新的sql语句添加到数据库基线中。 6.一种基于 机器学习的数据库基线确定装置, 其特 征在于, 包括: 数据采集模块, 用于利用数据采集 技术对网络通信中的数据报文 进行采集; sql语句提取模块, 用于根据采集数据的协议特征识别数据库类型, 并基于数据库类型 从采集数据中提取有效的sql语句; 概要信息获取模块, 用于对sql语句进行语义和语法解析, 提取出sql语句中的操作类 型、 操作对象、 操作内容、 操作条件和条件内容, 得到sql语句概要信息; sql模型构 建模块, 用于构 建以sql语句概要信息为输入、 以sql请求正常和不正常为输 出的sql模型, 利用训练好的s ql模型判定新的s ql语句是否为正常的s ql请求, 若正常, 则所 述新的sql语句满足数据库基线 要求。 7.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述数据权 利 要 求 书 1/2 页 2 CN 115017181 A 2采集模块还用于: 提取数据通信的四元组(源地址, 源端口, 目的地址, 目的端口), 并根据所述四元组利 用数据散列算法形成数1~6 55350之间的通信会话标识。 8.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 对sql模 型进行训练的方法包括: 通过对提取的sql语句概要信息进行语料预处理构建训练数据集, 所述语料预处理包 括: 剔除空值; 进行 特征标注, 将正常请求标注为 “正常”, 将非正常请求标注为 “不正常”; 采用潜语义分析 方法LSA, 基于构建的训练数据集对所述sql模型进行训练。 9.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述装置 还用于: 基于业务系统的源目的IP地址、 时间、 数据库流量、 频次维度信息, 对所述业务系统的 数据库使用行为进行画像; 基于业务系统的画像信息确定业 务系统的数据库基线, 形成数据库的最小安全保障。 10.根据权利要求6所述的基于机器学习的数据库基线确定装置, 其特征在于, 所述装 置还包括自动添加模块, 用于: 当业务升级或者有新的业务功能时, 会产生新的sql语句, 提取sql语句概要信息, 并对 sql模型进行训练; 利用训练好的sql模型判断新的sql语句 是偶发sql, 还是新增的业务sql; 如果是新增 的业务sql, 将新的sql语句添加到数据库基线中。权 利 要 求 书 2/2 页 3 CN 115017181 A 3
专利 一种基于机器学习的数据库基线确定方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:04
上传分享
举报
下载
原文档
(468.6 KB)
分享
友情链接
T-JSQX 0011—2022 江苏省纯电动重型卡车换电电池包系统技术规范.pdf
奇安信 2022中国工业数据勒索形势分析报告.pdf
GB-T 39257-2020 绿色制造 制造企业绿色供应链管理 评价规范.pdf
DB4205-T 63-2023 磷石膏及其综合利用产品质量要求 宜昌市.pdf
GB 37822-2019 挥发性有机物无组织排放控制标准.pdf
GB-T 893-2017 孔用弹性挡圈.pdf
深信服 aTrust零信任技术白皮书V1.4 2022.pdf
GB-T 26250-2010 电子工业用气体 砷化氢.pdf
GB-T 40593-2021 同步发电机调速系统参数实测及建模导则.pdf
DB37-T 4646.4—2023 公共数据 数据治理规范 第4部分:资源服务目录 山东省.pdf
GB-T 42014-2022 信息安全技术 网上购物服务数据安全要求.pdf
DB11-T 2046.1-2022 智慧停车系统技术要求 第1部分:总则 北京市.pdf
GB-T 21052-2007 信息安全技术 信息系统物理安全技术要求.pdf
专利 一种安全编排和自动化响应方法.PDF
ISO IEC 27000-2018.pdf
GB-T 34680.4-2018 智慧城市评价模型及基础评价指标体系 第4部分:建设管理.pdf
T-SZSA 015—2017 COB LED 光源封装产品技术规范.pdf
SN-T 5350.1-2021 硫磺 酸度的测定 自动电位滴定法.pdf
网络与信息安全系统事件应急预案.doc
思度安全-DSMM-021 存储媒体安全管理规范V1.0.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(468.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。