专利 一种基于文本分类模型的公平竞争审查辅助方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210550470.X (22)申请日 2022.05.18 (71)申请人南京物浦大数据有限公司地址 210000 江苏省南京市建邺区嘉陵江东街18号3栋2层295室 (72)发明人高永伟　汪洵　薛驭　罗昌志　周荣华　 (74)专利代理机构南京安藤洋知识产权代理事务所(普通合伙) 32660 专利代理师孙清晓 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称一种基于文本分类模型的公平竞争审查辅助方法 (57)摘要本发明公开了一种基于文本分类模型的公平竞争审查辅助方法，包括构建政府政策文本信息库，获取政府发布的政策文本，进行子类划分，采集不同的政策文本，构建预训练语言模型，通过专家对采集的政策文本进行标注数据，识别政策文本内专家标注的数据，对审查样本库内部的政策文本进行模型训练分析，根据训练分析结果对政策文本进行初筛和复核，统计不同政策文本的公平审查结果，对构建的模型进行信息迭代，旨在解决原有的相似度模型准确率不高，缺少语义理解的问题，根据政府的政策文书搭建模型实时训练数据，通过对文本的自主学习，得到文本的语义特征，利用该模型对待审查的政府政策文件进行分类审查，辅助专家进行判断，减少审查的人力成本。权利要求书3页说明书6页附图3页 CN 114860882 A 2022.08.05 CN 114860882 A 1.一种基于文本分类模型的公平竞争审查辅助方法，其特征在于： S1:构建政府政策文本信息库，获取政府发布的政策文本，对不同的政策文本进行关键词标记，按照不同的关键词进行分类，对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分； S2：采集不同的政策文本，筛查不同政策文本是否存在专家标注数据，对不同的政策文本按照有专家标注数据和无专家标注数据进行分类，提取无专家标注数据的政策文本，进行预训练，构建预训练语言模型，预训练模型结构采用BERT模型结构； S3：通过专家对采集的政策文本进行标注数据，识别政策文本内专家标注的数据，对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类，将分类后的政策文本按照类别录入审查样本库，对审查样本库内部的政策文本进行模型训练分析； S4：根据训练分析结果对政策文本进行初筛和复核，统计不同政策文本的公平审查结果，对构建的模型进行信息迭代。 2.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法，其特征在于:所述步骤S1中，对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分，还包括以下步骤： S1‑1：对分类后的政策文本的发布时间按照年份进行统计划分子类，对每一年份的政策文本按照发布优先级进行二次归类； S1‑2：筛查不同年份重复的政策文本数据，判断该重复的政策文本数据是否存在新增记录，当重复政策文本数据存在新增记录，对年份在前的政策文本数据标记为历史记录数据； S1‑3：审查政策文本数据的有效性，获取不同政策文本的发布时间，对发布时间大于设定阈值的政策文本进行重点标记审查，统计政府政策文本信息库内部不同政策文本的浏览数据，分析不同政策文本的浏览数据的平均值，设定不同政策文本的浏览数据的平均值为 R (f)，设定某一政策文本浏览数据为R(0)，当对该政策文本进行重点标记审查。 3.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法，其特征在于:所述步骤S2中，提取无专家标注数据的政策文本，进行预训练，构建预训练语言模型，预训练模型结构采用BERT模型结构，还包括以下步骤： S2‑1：采集任意政策文本，对采集的政策文本内部任意字符进行遮蔽，将已遮蔽字符的政策文本输入预训练语言模型，预训练语言模型利用政策文本上下文对已遮蔽字符进行预测； S2‑2：统计预训练语言模型的预测准确率，将预测准确率与设定阈值进行比对，当准确率低于设定阈值，对预训练语言模型调整策略参数，继续训练，当准确率高于或等于设定阈值，停止训练； S2‑3：对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练，直至达到预测准确。 4.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法，其特征在于:所述步骤S 3中，将分类后的政策文本按照类别录入审查样本库，对审查样本库内部的政权　利　要　求　书 1/3 页 2 CN 114860882 A 2策文本进行模型训练分析，还包括以下步骤： S3‑1：设定审查样本库内部有N个审查标准，添加不违反所有审查标准选项，设定审查样本库包括N+1个审查类别，设定预训练语言模型内部输入的某一政策文本为x，该文本长度为L，设定其所述类别为y，将输入参数转为one ‑hot向量化表示，设定模型输出维度为N+ 1，类别y对应所在维度值为1，预训练BERT模型对该政策文本每个字进行映射，将文本的每个字映射到一个512维的高维向量空间，该政策文本通过BERT模型处理转变为L ×512的 hidden向量； S3‑2：对政策文本不同字的向量求平均值，将该政策文本表示为一个512维的text向量，利用一个全连接层+softmax，将text向量映射为概率向量prop，设定全连接层+softmax 包含一个权重矩阵w，其维度设定为R512×(N+1)，其中， prop向量维度设定为N+1维度， prop向量的每个维度的值表示该政策文本属于这个维度所代表的审查类别的概率； S3‑3：利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值，设定预测结果概率和真实结果的损失值为loss，利用反向传播去调整预训练语言模型参数，根据公式： x＝(x1,x2...xL),y＝(0. ...1....0) hidden＝Bert(x),hid den∈RL×512 text＝avera ge(hidden),text∈R1×512 prop＝softmax(w ·text),w∈R512×(N+1),prop∈R1×(N+1) 根据上述公式对输入的政策文本进行模型训练，直到损失值不再下降，搭建政策文本审查类别分类模型。 5.根据权利要求4所述的一种基于文本分类模型的公平竞争审查辅助方法，其特征在于:所述步骤S 3‑3中，根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查，政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率，对该政府文本所属的不同审查标准类别的概率进行统计，按照每一审查标准类别的概率大小进行降序排序，提取概率最大的审查标准类别作为该政府文本所属的审查类别，同时筛查政府文本是否违反审查标准，对违反审查标准的政府文本进行突出标记。 6.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法，其特征在于:所述步骤S4中，根据训练分析结果对政策文本进行初筛和复核，统计不同政策文本的公平审查结果，对构建的模型进行信息迭代，还包括以下步骤： S4‑1：获取不同政府文本所属的审查类别，剔除违反审查标准的政府文本，形成初步筛查统计列表，将列表发送至人工审核通道，专家对初步筛查统计列表内部的初筛结果进行复核； S4‑2：统计不同政府文本的复核结果，形成最终筛查统计列表，将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库； S4‑3：将最终筛查统计列表同时录入审查样本库，定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练，进权　利　要　求　书 2/3 页 3 CN 114860882 A 3

专利 一种基于文本分类模型的公平竞争审查辅助方法

专利一种基于文本分类模型的公平竞争审查辅助方法