(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210792373.1
(22)申请日 2022.07.05
(71)申请人 南京航空航天大 学
地址 211106 江苏省南京市江宁区将军大
道29号
(72)发明人 陶传奇 陈梦瑶 郭虹静
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 贺翔
(51)Int.Cl.
G06F 8/74(2018.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的移动应用安全缺陷摘
要生成方法
(57)摘要
本发明公开了一种基于深度学习的移动应
用安全缺陷摘要生成方法, 步骤如下: 对在移动
应用商店获得的原始用户评论进行预处理; 对预
处理后的评论句子进行情感分析, 剔除情感倾向
为积极的句子, 保留情感倾向为中立和消极的句
子; 对处理后的评论句子进行分类, 并采用逻辑
回归算法将其分为安全缺陷相关的评论和安全
缺陷无关的评论, 构建与安全缺陷相关的评论数
据集; 从安全缺陷相关的评论中提取<方面 ‑观
点‑不良行为>三元组, 构成安全缺陷相关的评论
摘要。 本发 明能够在非结构化的用户评论中抽取
出表示安全缺陷的三元组, 利用深度学习技术构
建针对移动应用安全缺陷的评论摘要生成模型,
为待测移动应用提供安全缺陷的关键信息 。
权利要求书2页 说明书6页 附图2页
CN 115357288 A
2022.11.18
CN 115357288 A
1.一种基于深度学习的移动应用安全缺陷摘要生成方法, 其特 征在于, 步骤如下:
1)对在移动应用商店获得的原始用户评论进行预处理, 包括句子分割, 拼写错误改正,
缩写和缩略式扩充;
2)对预处理后的评论句子进行情感分析, 剔除情感倾向为积极的句子, 保留情感倾向
为中立和 消极的句子;
3)对经步骤2)处理的评论句子进行分类, 并采用逻辑回归算法将其分为安全缺陷相关
的评论和安全缺陷无关的评论, 构建与安全缺陷相关的评论数据集;
4)从安全缺陷相关的评论中提取<方面 ‑观点‑不良行为>三元组, 构成安全缺陷相关的
评论摘要。
2.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述步骤1)具体包括:
11)句子分割: 采用分隔符结合pytho n第三方库re库的spl it()方法进行句子分割;
12)拼写错误改正: 采用python自带的拼写检查库PyEnchant, 对评论句子进行错误检
查, 若检测到拼写错 误的单词, 则将其 替换;
13)缩写和缩略式扩充: 采用正则表达式将评论句子中的缩写替换为完整的表达形式。
3.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述步骤2)具体包括:
21)采用自然语言处理工具包自带的情感分析模块Vader对预处理后的评论数据进行
情感分析, 对评论句 子所表达的情感进行判别, 分为积极、 消极和中立三类极性, 获得该评
论句子的三类情感极性的概率和一个复合得分; 所述复合得分的计算方法是将词典中每个
单词的效价分数相加, 并根据规则进行调整, 然后归一 化为‑1和1之间;
22)根据步骤21)获得的复合得分判别评论句子的情 感倾向, 提取出情感倾向为消极和
中立的评论句子 。
4.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述步骤3)具体包括:
31)构造分类模型的数据集: 使用步骤2)中获得的部分评论句子构造分类模型的数据
集, 以csv文件格式进行存储, 文件第一列为lab el即该评论句子的类别, 用1表示该条评论
与安全性相关的评论, 0表示该评论与安全性无关的评论; 第二列为review即用户评论的内
容, 采用人工标注的方式构造分类模型的训练测试集;
32)采用词频 ‑逆文档频率算法进行特征提取; 从SparkML库中导入HashingTF, IDF和
Tokenizer; 构造文档集合, 创建一个DataFrame, 每一个句子代表一个文档; 得到文档集合
后, 用tokenizer对句子进行分词; 得到分词后的文档序列后, 使用HashingTF的transform
()方法把句子哈希成特征向量, 每一个单词被 哈希成一个不同的索引值; 使用IDF对单纯
的词频特征向量进行修正, 使其体现不同词汇对文本的区别能力, 调用fit()方法并将词
频特征向量传入, 产生一个IDFModel; 调用ID FModel的trans form()方法, 得到每一个单词
对应的TF ‑IDF矩阵;
33)采用pytho n的sklearn库的L ogisticRegres sion()方法进行逻辑回归 模型的构建;
34)采用十折交叉验证方法训练和测试逻辑回归模型; 再将未分类的评论数据输入到
训练后的逻辑回归模型中, 将其分为安全性相关和安全性无关, 得到安全缺陷相关的评论权 利 要 求 书 1/2 页
2
CN 115357288 A
2数据集。
5.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述步骤4)具体包括:
41)采用人工标注的方式构造BERT ‑BiLSTM‑CRF模型和textCN N模型的数据集;
42)BERT‑BiLSTM‑CRF模型中, BERT为一个用Transfor mers作为特征抽取器的深度双向
预训练语言理解模型, 用于提取出安全缺陷相关的评论句 子中的词级特征、 语法结构特征
和语义特征; 双向长短期记忆神经网络模型由前向LSTM与后向LSTM组合而成; 通过BERT ‑
BiLSTM‑CRF模型提取出代表方面、 观 点、 不良行为的词或短语, 得到<方面 ‑观点‑不良行为>
三元组;
43)训练textCNN模型, textCNN为一个 由卷积神经网络衍生出来的用于文本分类 的神
经网络, textCNN模 型包含: 词嵌入层、 卷积层、 池化层、 全连接层; 通过词嵌入层得到词向量
矩阵, 在词向量矩阵上使用不同大小的卷积核卷积, 提取输入的部 分特征, 然后 将卷积结果
经过激活函数处理后输入到池化层, 池化层生成更高维的向量; 将池化层的结果通过
dropout层随机 选择后通过全连接层连接, 得到分类结果;
44)使用训练后的textCNN模型对步骤42)中得到 的三元组进行分类, 分为无效和有效
三元组, 过 滤掉无效的三元组;
45)采用python的自然语言处理工具包对上述步骤44)中得到的有效三元组中的方面
词和不良行为词进行词形还原, 形成最终的评论摘要三元组。
6.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述方法还包括步骤5): 采用雷达图对上述步骤4)中得到的安全缺陷相关的评论摘要
进行可视化总结。
7.根据权利要求6所述的基于深度学习的移动应用安全缺陷摘要生成方法, 其特征在
于, 所述步骤5)具体包括:
将具有相同方面的三元组进行分组, 对于每个方面, 三元组的数量被计算为频率; 采用
python自带的pyg al库绘制雷达图, 调用Rader类设置雷达图的参数。权 利 要 求 书 2/2 页
3
CN 115357288 A
3
专利 一种基于深度学习的移动应用安全缺陷摘要生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:14上传分享