(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210855989.9
(22)申请日 2022.07.11
(71)申请人 延安大学
地址 716000 陕西省延安市宝塔区圣 地路
580号延安大 学
(72)发明人 刘翼
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 张利萍
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于信息向量空间模型的个人标识信
息分类方法
(57)摘要
本发明涉及一种基于信息向量空间模型的
个人标识信息分类方法, 属于网络信息安全技术
领域。 本方法首先通过网络流量分析, 抽取网络
流量中传输的特征文本信息, 并转化为包含服
务、 位置、 信息和频率特征 维度的数据集。 然后将
数据集描述转化为文本分类的样 本空间。 之后结
合文本分类模 型, 建立基于三层 贝叶斯的生成模
型。 通过数据样本训练得到模型参数, 自动将服
务‑位置及其传输的信息表征为向量, 得到服务 ‑
位置、 信息与类型之间的概率分布。 最后推测出
新服务通过计算各个服务 ‑位置、 信息与类型之
间的概率分布。 本方法能够更精细地描述网络流
量中传输的不同信息语义的分布特点, 达到准确
地分类个人标识信息的目的。
权利要求书3页 说明书5页 附图3页
CN 115438179 A
2022.12.06
CN 115438179 A
1.一种基于信息向量空间模型的个人 标识信息分类方法, 其特 征在于, 包括以下步骤:
步骤1: 通过网络流量分析抽取网络流量中传输的特征文本信息, 并转化为包含服务
Domain、 位置Key、 信息Value和频率Frequency特 征维度的数据集;
步骤2: 将数据集描述 转化为文本分类的样本空间;
步骤3: 结合文本分类模型, 建立基于三层贝叶斯的生成模型;
步骤4: 通过数据样本训练得到模型参数, 自动将服务 ‑位置及其传输的信息表征为向
量, 得到服 务‑位置、 信息与类型之间的概 率分布;
步骤5: 通过模型推测出新 服务‑位置的类型概 率分布, 准确分类 个人标识信息 。
2.如权利要求1所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 步骤1包括以下步骤:
步骤1.1: 从网络中收集 流量数据, 以PCAP格式保存;
步骤1.2: 判断选取的数据包是否为HTTP请求字段, 如果是, 采用正则表达式提取其特
征信息, 否则判断下一个数据包;
步骤1.3: 统计数据集中相同字段的条目的频率Frequency;
文本格式数据通过预处理, 最终含有4个维度的样本 空间SampleSpace, SampleSpace=
{Domain, Key, Value, Frequency}; 利用这四个维度的特征信息, 能够充分表示用户的网络
行为特征, 网络行为特征的具体含义为: 用户访问网络服务Domain时, 在相同的位置Key传
输了不同的信息Value, 且每 个信息的传输频率 为Frequency。
3.如权利要求2所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 特征信息提取采用如下 方式:
步骤1.2.1: 判断信息数据包是否包含HTTP协议的GET字段, 如果包含GET字段, 则进行
特征信息提取, 如果 不包含, 则继续选取 下一条数据;
步骤1.2.2: 对GET字段由左向右采用一个 “?”符号切片, 并选取 “?”之前的部分字段作
为服务字段, 选取 “?”之后的部分字段作为键值对字段 预处理数据;
步骤1.2.3: 按照正则表达规则, 在步骤1.2.2得到的服务字段中, 提取出访问的域名或
服务IP地址;
步骤1.2.4: 采用一个 “&”符号, 将步骤1.2.2得到的键值对字段预处理数据分割为若干
个Key‑Value数据组。
4.如权利要求1所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 步骤2包括以下步骤:
步骤2.1: 根据用户的行为特 征, 建立用户行为特 征树模型;
其中, 每颗用户行为特征树以服务 ‑位置Domain ‑Key为根, Domain ‑Key简称DK, 信息
Value为孩子结点, Value简称V, 每个信息传输的频率Frequenc y为叶子结点, 表示用户在此
服务‑位置上传输的不同信息及其传输的频率;
步骤2.2: 将相同DK内传输的若干信息Value看作为一个文本数据, 则个人标识信息分
类的问题描述 为: C=DK ×V→Z:{TURE,FALSE};
其中, DK表示需要进行分类的服务 ‑位置, DK={dk1,dk2,...,dkM}, dkM表示第M个服务 ‑
位置dk; V表示信息, V={v1,v2,...,vNm}, vNm表示vij包含的最后一个具体信息; Z表示 预定义
分类体系 下的类型集合, 即个人标识信息类别集合, Z={z1,z2,...,zK}, zK表示第K种类型权 利 要 求 书 1/3 页
2
CN 115438179 A
2z; TURE值表示对于<dkm, zk>, 文档dkm属于类zk; FALSE值表示对于<dkm,zk>, 文档dkm不属于
类zk;
当用户访问不同的服务 时, 给出其中不同位置传输的个人标识信 息的类型的概率分布
形式, 从而确定服 务‑位置内传输的信息的类型。
5.如权利要求1所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 步骤3包括以下步骤:
步骤3.1: 过概 率分布描述网络流 量产生数据的过程, 建立 一个信息传输生成模型;
生成模型, 是认为网络流量中每个服务 ‑位置DK及其中传输的信息都是通过概率选择
过程生成; 首先, 以一个概率分布选择DK类型, 然后从这个类型中以另一个概率分布选择某
个信息; 如果需要生成任意网络流量, 其服务 ‑位置DK中的每个信息V出现的概率p(V|DK),
如式1所示:
其中, Z表示服务 ‑位置的类型; p(Z|DK)表示每个信息V在其服务 ‑位置DK中出现的概
率;
步骤3.2: 设若干用户访问网络产生的流量中, 在若干服务 ‑位置DK中传输若干个信息
V, 则构建第i个服 务‑位置dki中的第j个信息vi,j的生成模型。
6.如权利要求5所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 步骤3.1中, 条件概 率表示为矩阵乘法形式, 如式2所示:
其中, 等式左边的C矩阵表示每个服务 ‑位置中每个信息出现的概率p(V|DK); 等式右
边, Φ矩阵表 示每个类型Z中每个信息V出现的概率p(V|Z); Θ矩阵表 示每个服务 ‑位置DK中
各个类型Z出现的概 率p(Z|DK)。
7.如权利要求5所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征
在于, 步骤3.2中, 生成模型的构建, 包括以下步骤:
步骤3.2.1:
该过程表示生成第i个服务 ‑位置时, 首先从狄利克雷先验参数
随机选取DKi的类型概
率分布
然后从多 项概率分布
中随机选取第j个信息vi,j的类型zi,j;
步骤3.2.2:
该过程表示生成第i个服务 ‑位置中传输的第j个信息vi,j, 即从狄利克雷先验参数
中
选择k=zi,j的多项概率分布
并从
中随机选取传输信息vi,j;
重复步骤3.2.1和3.2.2, 得到生成服 务‑位置dkm, 以及其中传输的所有信息 。
8.如权利要求1所述的一种基于信息向量空间模型的个人标识信息分类方法, 其特征权 利 要 求 书 2/3 页
3
CN 115438179 A
3
专利 一种基于信息向量空间模型的个人标识信息分类方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:24上传分享