(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211192687.4
(22)申请日 2022.09.28
(71)申请人 中国农业银行股份有限公司
地址 100005 北京市东城区建国门内大街
69号
(72)发明人 王超
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 郭李君 黄健
(51)Int.Cl.
H04L 9/40(2022.01)
(54)发明名称
网络防御方法、 控制设备及存 储介质
(57)摘要
本申请提供一种网络防御方法、 控制设备及
存储介质, 控制设备建立攻防博弈模型后, 重复
执行获得控制设备观察的攻击终端攻击目标工
作终端的攻击策略信息和攻击终端的身份类型
的先验类型, 在该操作后根据攻击策略信息和先
验概率, 确定最优防御策略和对目标工作终端的
最优攻击策略, 并执行最优防御策略, 控制设备
根据最优防御策略和攻击策略信息, 计算马尔科
夫学习函数值, 直至根据马尔科夫学习函数值,
确定目标工作终端未处于安全状态时停止循环,
控制设备根据目标工作终端获得的持续性的攻
击策略信息确定目标工作终端的攻击状态, 有助
于其根据持续获得的信息确定隐蔽性的攻击, 使
其更好地保护目标工作终端。
权利要求书3页 说明书14页 附图3页
CN 115550031 A
2022.12.30
CN 115550031 A
1.一种网络防御 方法, 其特征在于, 所述方法应用于控制设备, 所述控制设备位于目标
系统中, 所述目标系统包括至少一个工作终端和蜜网集群, 所述方法包括:
建立攻防博弈模型; 其中, 所述攻防博弈模型包括多个博弈参与 方、 各所述博弈参与 方
的策略空间、 信号空间、 先验概 率、 后验概 率和各所述博弈参与方的收益;
重复执行获得所述控制设备观察的攻击终端攻击目标工作终端的攻击策略信息和所
述攻击终端的身份 类型的先验概 率;
根据所述攻击策略信 息和所述先验概率, 确定最优防御 策略和所述攻击终端针对所述
最优防御策略的最优攻击策略, 并执 行所述最优防御策略;
根据所述 最优防御策略和所述 攻击策略信息, 计算马尔科 夫学习函数值;
根据所述马尔科夫学习函数值, 确定所述目标工作终端是否处于安全状态并在所述目
标工作终端未处于安全状态时终止循环。
2.根据权利要求1所述的方法, 其特征在于, 根据所述攻击策略信息和所述先验概率,
确定最优防御策略和对所述目标工作终端的最优攻击策略, 具体包括:
根据所述 攻击策略信息和所述先验概 率, 计算所述 攻击终端的身份 类型的后验概 率;
根据所述后验概 率, 确定所述 攻击终端的身份 类型;
根据所述 攻击策略信息和所述身份 类型, 确定系统成本和类型成本;
根据所述系统成本、 所述类型成本和所述攻击策略信息和所述后验概率, 计算所述攻
击终端的攻击者收益和所述目标系统的防御者收益;
根据所述后验概率和所述防御者收益, 确定最优防御 策略和对所述目标工作终端的最
优攻击策略。
3.根据权利要求2所述的方法, 其特征在于, 根据所述攻击策略信息和所述身份类型,
确定系统成本和类型成本, 具体包括:
将所述攻击策略信 息在系统成本映射表中查询, 获得与 所述攻击策略信 息对应的系统
成本;
将所述攻击策略信 息和所述身份类型在类型成本映射表中查询, 获得与所述攻击策略
信息对应的类型成本 。
4.根据权利要求1所述的方法, 其特征在于, 所述博弈参与 方的策略空间包含防御 策略
空间, 所述防御策略空间中包含至少一个防御策略; 根据所述最优防御策略和所述攻击策
略信息, 计算马尔科 夫学习函数值, 具体包括:
根据所述最优防御 策略和所述攻击策略信 息, 计算所述目标工作终端在 当前状态下的
攻防回报值;
获得所述目标工作终端从最初状态到当前状态的累计回报值和所述目标工作终端在
当前状态下的马尔科 夫学习函数值;
根据所述攻击终端针对所述最优 防御策略的最优攻击策略、 所有所述防御策略、 所述
累计回报值和所述 攻防回报值, 计算所述目标工作终端在下一状态下的最大累计回报值;
根据所述当前状态下的攻防回报值、 所述下一状态下的最大累计回报值和所述当前状
态下的马尔科夫学习函数值, 计算所述目标工作终端在当前状态的下一状态下的马尔科夫
学习函数值。
5.根据权利要求4所述的方法, 其特征在于, 所述博弈参与 方的策略空间还包括攻击策权 利 要 求 书 1/3 页
2
CN 115550031 A
2略空间, 所述攻击策略空间中包含至少一个攻击策略; 根据所述最优防御策略和所述攻击
策略信息, 计算所述目标工作终端在当前状态下的攻防回报值, 具体包括:
根据所述最优防御策略、 所述攻击策略信息和攻防回报值计算公式, 计算所述目标工
作终端在当前状态下的攻防回报值:
其中, 所述 攻防回报值计算公式具体包括:
其中, sp表示所述目标工作终端所处的当前状态之后的第p个状态, Re(fx(sp))表示所
述目标工作终端x在状态p下的攻防回报值, i表示所述防御策略空间中的防御标识, j表示
所述攻击策略空间中的攻击标识, i=0表示所述目标工作终端x在状态p时未 受到防御, i≠
0表示所述目标工作终端x在状态p时受到第i个防御策略的防御, j=0表 示所述目标工作终
端x在状态p时未受到攻击, j≠0表示所述目标工作 终端x在状态p时受到第j个攻击策 略的
攻击, P表示防护值, Di表示所述目标工作终端x受到第i个防御策略保护时的回报值, δi表示
回报系数, D表示所述目标工作终端未受到防御 策略的保护时受到攻击的攻击回报值, Pkij
表示博弈论模型采用第i个保护策略来抵抗第j个攻击策略时的回报值。
6.根据权利要求5所述的方法, 其特征在于, 根据攻击终端针对所述最优防御 策略的最
优攻击策略、 所有 所述防御策略、 所述累计回报值和所述攻防回报值, 计算所述目标工作终
端在下一状态下的最大累计回报值, 具体包括:
根据攻击终端针对所述最优防御 策略的最优攻击策略、 各所述防御 策略和攻防回报值
公式, 计算基于各 所述防御策略调整的所述目标工作终端的下一状态下的攻防回报值;
将各所述攻防回报值与所述累计回报值相加, 计算基于各所述防御 策略调整的所述目
标工作终端的下一状态下的累计回报值;
将各所述防御策略对应的下一状态下的累计回报值中的最大值确定为所述最大累计
回报值。
7.根据权利要求6所述的方法, 其特征在于, 根据所述当前状态下的攻防回报值、 所述
下一状态下的最大累计回报值和所述当前状态下的马尔科夫学习函数值, 计算所述目标工
作终端在当前状态的下一状态下的马尔科 夫学习函数值, 具体包括:
根据所述当前状态下的攻防回报值、 所述下一状态下的最大累计回报值、 所述当前状
态下的马尔科夫学习函数值和学习函数更新 公式, 计算所述目标工作终端在当前状态的下
一状态下的马尔科 夫学习函数值; 其中, 所述学习函数 更新公式具体包括:
其中,
表示所述目标工作终端在当前状态的下一状态下的马尔科夫学习函数值,
表示所述目标工作终端在当前状态下的马尔科夫学习函数值, α 表示学习率参数, γ表权 利 要 求 书 2/3 页
3
CN 115550031 A
3
专利 网络防御方法、控制设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:43:51上传分享