(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210550470.X
(22)申请日 2022.05.18
(71)申请人 南京物浦大数据有限公司
地址 210000 江苏省南京市 建邺区嘉陵江
东街18号3栋2层295室
(72)发明人 高永伟 汪洵 薛驭 罗昌志
周荣华
(74)专利代理 机构 南京安藤 洋知识产权代理事
务所(普通 合伙) 32660
专利代理师 孙清晓
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 40/216(2020.01)G06F 40/30(2020.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于文本分类模型的公平竞争审查辅
助方法
(57)摘要
本发明公开了一种基于文本分类模型的公
平竞争审查辅助方法, 包括构建政府政策文本信
息库, 获取政府发布的政 策文本, 进行子类划分,
采集不同的政策文本, 构建预训练语言模型, 通
过专家对采集的政策文本进行标注数据, 识别政
策文本内专家标注的数据, 对审查样本库内部的
政策文本进行模 型训练分析, 根据训练分析结果
对政策文本进行初筛和复核, 统计不同政策文本
的公平审查结果, 对构建的模型进行信息迭代,
旨在解决原有的相似度模型准确率不高, 缺少语
义理解的问题, 根据政府的政策文书搭建模型实
时训练数据, 通过对文本的自主学习, 得到文本
的语义特征, 利用该模型对待审查的政府政策文
件进行分类审查, 辅助专家进行判断, 减少审查
的人力成本 。
权利要求书3页 说明书6页 附图3页
CN 114860882 A
2022.08.05
CN 114860882 A
1.一种基于文本分类模型的公平竞争审查辅助方法, 其特 征在于:
S1:构建政府政策文本信息库, 获取政府发布的政策文本, 对不同的政策文本进行关键
词标记, 按照不同的关键词进行分类, 对分类后的政策文本按照发布 时间、 优先级、 新增记
录和文本有效性进行子类划分;
S2: 采集不同的政策文本, 筛查不同政策文本是否存在专家标注数据, 对不同的政策文
本按照有专家标注数据和无专家标注数据进行分类, 提取无专家标注数据的政策文本, 进
行预训练, 构建预训练语言模型, 预训练模型 结构采用BERT模型 结构;
S3: 通过专家对采集的政策文本进行标注数据, 识别政策文本内专家标注的数据, 对标
注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类, 将分类后的政
策文本按照类别录入审查样本库, 对审查样本库内部的政策文本进行模型训练分析;
S4: 根据训练分析结果对政策文本进行初筛和复核, 统计不同政策文本的公平审查结
果, 对构建的模型进行信息迭代。
2.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法, 其特征在
于:所述步骤S1中, 对分类后的政策文本按照发布 时间、 优先级、 新增记录和文本有效性进
行子类划分, 还 包括以下步骤:
S1‑1: 对分类后的政策文本的发布时间按照年份进行统计划分子类, 对每一年份的政
策文本按照发布优先级 进行二次归类;
S1‑2: 筛查不同年份重复的政策文本数据, 判断该重复的政策文本数据是否存在新增
记录, 当重复政策文本数据存在新增记录, 对年份在前 的政策文本数据标记为历史记录数
据;
S1‑3: 审查政策文本数据的有效性, 获取不同政策文本的发布时间, 对发布时间大于设
定阈值的政策文本进 行重点标记审查, 统计政府政策文本信息库内部不同政策文本的浏览
数据, 分析不同政策文本的浏览数据的平均值, 设定不同政策文本的浏览数据的平均值为 R
(f), 设定某一政策文本浏览数据为R(0), 当
对该政策文本进行重点标记审
查。
3.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法, 其特征在
于:所述步骤S2中, 提取无专家标注数据的政 策文本, 进 行预训练, 构建预训练语 言模型, 预
训练模型 结构采用BERT模型 结构, 还包括以下步骤:
S2‑1: 采集任意政策文本, 对采集的政策文本内部任意字符进行遮蔽, 将已遮蔽字符的
政策文本输入预训练语言模型, 预训练语言模 型利用政策文本上下文对已遮蔽字符进 行预
测;
S2‑2: 统计预训练语言模型的预测准确率, 将预测准确率与设定阈值进行比对, 当准确
率低于设定阈值, 对 预训练语言模型调整 策略参数, 继续训练, 当准确率高于或等于 设定阈
值, 停止训练;
S2‑3: 对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练, 直至达
到预测准确。
4.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法, 其特征在
于:所述步骤S 3中, 将分类后的政 策文本按照类别录入审查样 本库, 对审查样本库内部的政权 利 要 求 书 1/3 页
2
CN 114860882 A
2策文本进行模型训练分析, 还 包括以下步骤:
S3‑1: 设定审查样本库内部有N个审查标准, 添加不违反所有审查标准选项, 设定审查
样本库包括N+1个审查类别, 设定预训练语言模型内部输入的某一政策文本为x, 该文本长
度为L, 设定其所述类别为y, 将输入参数转为one ‑hot向量化表示, 设定模型输出维度为N+
1, 类别y对应所在维度值为1, 预训练BERT模型对该政策文本每个字进行映射, 将文本的每
个字映射到一个512维的高维向量空间, 该政策文本通过BERT模型处理转变为L ×512的
hidden向量;
S3‑2: 对政策文本不同字的向量求平均值, 将该政策文本表示为一个512维的text向
量, 利用一个全 连接层+softmax, 将text向量映射为概率向量prop, 设定全 连接层+softmax
包含一个权重矩阵w, 其维度设定 为R512×(N+1), 其中, prop向量维度设定为N+1维度, prop向量
的每个维度的值表示该政策文本属于这个维度所代 表的审查类别的概 率;
S3‑3: 利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失
值, 设定预测结果概率和真实结果的损失值为loss, 利用反向传播去调整预训练语言模型
参数, 根据公式:
x=(x1,x2...xL),y=(0. ...1....0)
hidden=Bert(x),hid den∈RL×512
text=avera ge(hidden),text∈R1×512
prop=softmax(w ·text),w∈R512×(N+1),prop∈R1×(N+1)
根据上述公式对输入的政策文本进行模型训练, 直到损 失值不再下降, 搭建政策文本
审查类别分类模型。
5.根据权利要求4所述的一种基于文本分类模型的公平竞争审查辅助方法, 其特征在
于:所述步骤S 3‑3中, 根据政 策文本审查类别分类模型对待审查的政策文本进 行分类筛查,
政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率, 对该政府文本
所属的不同审查标准类别的概率进行 统计, 按照每一审查标准类别的概率大小进 行降序排
序, 提取概率最大 的审查标准类别作为该政府文本所属的审查类别, 同时筛查政府文本是
否违反审查标准, 对违反审查标准的政 府文本进行突出 标记。
6.根据权利要求1所述的一种基于文本分类模型的公平竞争审查辅助方法, 其特征在
于:所述步骤S4中, 根据训练分析结果对政策文本进 行初筛和复核, 统计不同政 策文本的公
平审查结果, 对构建的模型进行信息迭代, 还 包括以下步骤:
S4‑1: 获取不同政府文本所属的审查类别, 剔除违反审查标准的政府文本, 形成初步筛
查统计列表, 将列表发送至人工审核通道, 专家对初步筛查统计列表内部的初筛结果进行
复核;
S4‑2: 统计不同政府文本的复核结果, 形成最终筛查统计列表, 将最终筛查统计列表作
为政府文本公平审查结果上传至政 府政策文本信息库;
S4‑3: 将最终筛查统计列表同时录入审查样本库, 定期任意调用审查样本库内部标注
的政府文本输入预训练语言和政策文本审查类别分类模型进 行重新预训练和审查训练, 进权 利 要 求 书 2/3 页
3
CN 114860882 A
3
专利 一种基于文本分类模型的公平竞争审查辅助方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:57上传分享