专利 一种基于深度学习的移动应用安全缺陷摘要生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210792373.1 (22)申请日 2022.07.05 (71)申请人南京航空航天大学地址 211106 江苏省南京市江宁区将军大道29号 (72)发明人陶传奇　陈梦瑶　郭虹静　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师贺翔 (51)Int.Cl. G06F 8/74(2018.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的移动应用安全缺陷摘要生成方法 (57)摘要本发明公开了一种基于深度学习的移动应用安全缺陷摘要生成方法，步骤如下：对在移动应用商店获得的原始用户评论进行预处理；对预处理后的评论句子进行情感分析，剔除情感倾向为积极的句子，保留情感倾向为中立和消极的句子；对处理后的评论句子进行分类，并采用逻辑回归算法将其分为安全缺陷相关的评论和安全缺陷无关的评论，构建与安全缺陷相关的评论数据集；从安全缺陷相关的评论中提取<方面 ‑观点‑不良行为>三元组，构成安全缺陷相关的评论摘要。本发明能够在非结构化的用户评论中抽取出表示安全缺陷的三元组，利用深度学习技术构建针对移动应用安全缺陷的评论摘要生成模型，为待测移动应用提供安全缺陷的关键信息。权利要求书2页说明书6页附图2页 CN 115357288 A 2022.11.18 CN 115357288 A 1.一种基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，步骤如下： 1)对在移动应用商店获得的原始用户评论进行预处理，包括句子分割，拼写错误改正，缩写和缩略式扩充； 2)对预处理后的评论句子进行情感分析，剔除情感倾向为积极的句子，保留情感倾向为中立和消极的句子； 3)对经步骤2)处理的评论句子进行分类，并采用逻辑回归算法将其分为安全缺陷相关的评论和安全缺陷无关的评论，构建与安全缺陷相关的评论数据集； 4)从安全缺陷相关的评论中提取<方面 ‑观点‑不良行为>三元组，构成安全缺陷相关的评论摘要。 2.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述步骤1)具体包括： 11)句子分割：采用分隔符结合pytho n第三方库re库的spl it()方法进行句子分割； 12)拼写错误改正：采用python自带的拼写检查库PyEnchant，对评论句子进行错误检查，若检测到拼写错误的单词，则将其替换； 13)缩写和缩略式扩充：采用正则表达式将评论句子中的缩写替换为完整的表达形式。 3.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述步骤2)具体包括： 21)采用自然语言处理工具包自带的情感分析模块Vader对预处理后的评论数据进行情感分析，对评论句子所表达的情感进行判别，分为积极、消极和中立三类极性，获得该评论句子的三类情感极性的概率和一个复合得分；所述复合得分的计算方法是将词典中每个单词的效价分数相加，并根据规则进行调整，然后归一化为‑1和1之间； 22)根据步骤21)获得的复合得分判别评论句子的情感倾向，提取出情感倾向为消极和中立的评论句子。 4.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述步骤3)具体包括： 31)构造分类模型的数据集：使用步骤2)中获得的部分评论句子构造分类模型的数据集，以csv文件格式进行存储，文件第一列为lab el即该评论句子的类别，用1表示该条评论与安全性相关的评论， 0表示该评论与安全性无关的评论；第二列为review即用户评论的内容，采用人工标注的方式构造分类模型的训练测试集； 32)采用词频 ‑逆文档频率算法进行特征提取；从SparkML库中导入HashingTF， IDF和 Tokenizer；构造文档集合，创建一个DataFrame，每一个句子代表一个文档；得到文档集合后，用tokenizer对句子进行分词；得到分词后的文档序列后，使用HashingTF的transform ()方法把句子哈希成特征向量，每一个单词被哈希成一个不同的索引值；使用IDF对单纯的词频特征向量进行修正，使其体现不同词汇对文本的区别能力，调用fit()方法并将词频特征向量传入，产生一个IDFModel；调用ID FModel的trans form()方法，得到每一个单词对应的TF ‑IDF矩阵； 33)采用pytho n的sklearn库的L ogisticRegres sion()方法进行逻辑回归模型的构建； 34)采用十折交叉验证方法训练和测试逻辑回归模型；再将未分类的评论数据输入到训练后的逻辑回归模型中，将其分为安全性相关和安全性无关，得到安全缺陷相关的评论权　利　要　求　书 1/2 页 2 CN 115357288 A 2数据集。 5.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述步骤4)具体包括： 41)采用人工标注的方式构造BERT ‑BiLSTM‑CRF模型和textCN N模型的数据集； 42)BERT‑BiLSTM‑CRF模型中， BERT为一个用Transfor mers作为特征抽取器的深度双向预训练语言理解模型，用于提取出安全缺陷相关的评论句子中的词级特征、语法结构特征和语义特征；双向长短期记忆神经网络模型由前向LSTM与后向LSTM组合而成；通过BERT ‑ BiLSTM‑CRF模型提取出代表方面、观点、不良行为的词或短语，得到<方面 ‑观点‑不良行为> 三元组； 43)训练textCNN模型， textCNN为一个由卷积神经网络衍生出来的用于文本分类的神经网络， textCNN模型包含：词嵌入层、卷积层、池化层、全连接层；通过词嵌入层得到词向量矩阵，在词向量矩阵上使用不同大小的卷积核卷积，提取输入的部分特征，然后将卷积结果经过激活函数处理后输入到池化层，池化层生成更高维的向量；将池化层的结果通过 dropout层随机选择后通过全连接层连接，得到分类结果； 44)使用训练后的textCNN模型对步骤42)中得到的三元组进行分类，分为无效和有效三元组，过滤掉无效的三元组； 45)采用python的自然语言处理工具包对上述步骤44)中得到的有效三元组中的方面词和不良行为词进行词形还原，形成最终的评论摘要三元组。 6.根据权利要求1所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述方法还包括步骤5)：采用雷达图对上述步骤4)中得到的安全缺陷相关的评论摘要进行可视化总结。 7.根据权利要求6所述的基于深度学习的移动应用安全缺陷摘要生成方法，其特征在于，所述步骤5)具体包括：将具有相同方面的三元组进行分组，对于每个方面，三元组的数量被计算为频率；采用 python自带的pyg al库绘制雷达图，调用Rader类设置雷达图的参数。权　利　要　求　书 2/2 页 3 CN 115357288 A 3

专利 一种基于深度学习的移动应用安全缺陷摘要生成方法

专利一种基于深度学习的移动应用安全缺陷摘要生成方法