国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210703906.4 (22)申请日 2022.06.21 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 申请人 浙江大学滨江研究院 (72)发明人 潘晓华 沈诗婧 张志伟 尹建伟  (74)专利代理 机构 杭州天勤知识产权代理有限 公司 33224 专利代理师 高燕 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于主动学习的小样本文本标注方法 及装置 (57)摘要 本发明公开了一种基于主动学习的小样本 文本标注方法, 包括: 获取已标注样本集与未标 注样本集; 使用已标注样本集对 预构建的标注模 型进行训练, 使用未标注样本集对训练后的标注 模型进行测试; 利用判断策略从测试结果中选取 出至少一个不确定性文本, 构建不确定性文本 集; 利用预先构建的主动学习框架, 对步骤3获得 的不确定性文本集进行数据处理与人工标注, 获 得代表性标注样本集; 利用代表性标注样本集, 对标注模型进行迭代训练, 获得最终的标注模 型。 本发明还公开了一种基于上述方法构建的文 本标注装置。 本发明提供的方法通过引入判断策 略与主动学习框架, 提高了小样本资源的利用 率, 也缓解人工标注的压力, 从而获得高质量的 标注模型。 权利要求书2页 说明书6页 附图1页 CN 115129872 A 2022.09.30 CN 115129872 A 1.一种基于主动学习的小样本文本标注方法, 其特 征在于, 包括: 步骤1、 获取已标注样本集与未 标注样本集; 步骤2、 使用所述已标注样本集对预构建的标注模型进行训练, 使用所述未标注样本集 对训练后的标注模型进行测试, 获得相应的测试 结果; 步骤3、 对步骤2获得的测试结果, 利用判断策略从所述测试结果中选取出至少一个不 确定性文本, 构建不确定性文本集; 步骤4、 利用预先构建的主动学习框架, 对步骤3获得的不确定性文本集进行数据处理 与人工标注, 获得代 表性标注样本集, 同时将对应的样本集从所述未 标注样本集中移除; 步骤5、 利用步骤4获得的代表性标注样本集, 对步骤2训练后的标注模型进行迭代训 练, 重复步骤2 ‑4直至满足 终止条件, 获得最终高质量的标注模型。 2.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 2中的标注模型 是基于Bi LSTM模型与CRF序列化标注算法进行构建。 3.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 3中的判断策略是通过计算测试结果中未标注文本的信息熵函数, 将信息熵小于预设值的 未标注文本 视为不确定性文本 。 4.根据权利要求3所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述信 息 熵函数的表达式如下: 式中, n表示类别数, p(yi|x)表示样本x被文本 标注模型分类为第i个标签的概率, θ表示 不确定性文本的预设值。 5.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 4中的主动学习框架包括特征提取模块, 降维模块以及聚类模块, 所述特征提取模块对输入 的不确定性文本进行特征提取, 将提取获得 的多种特征信息输入至降维模块, 所述降维模 块将输入的多种特征信息进行降维, 舍去部分特征信息后获得关键特征信息, 所述聚类模 块根据输入的关键特征信息, 对不确定性文本进行聚类划分, 输出聚类结果中每一个簇类 中的中心样本, 构建代 表性未标注样本集。 6.根据权利要求5所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述主动 学习框架是基于BERT模型的特 征提取主干网络进行构建。 7.根据权利要求5所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述代表 性未标注样本集的具体表达式如下: {x|min( ‖x‑μi‖2),x∈Ci,i=1,2…k} 权 利 要 求 书 1/2 页 2 CN 115129872 A 2式中, k表述簇 的个数, x表示样本, Ci表示第i个簇类, μi表示Ci中的均值向量, E表示最 小化平方误差 。 8.根据权利要求1所述的基于主动学习的小样本文本标注方法, 其特征在于, 所述步骤 5中的终止条件为当轮学习测试中, 不确定性文本集与未标注样本集的比值不超过阈值时, 判断标注模型 学习停止, 完成模型的训练。 9.一种文本标注装置, 包括计算机存储器、 计算机处理器以及存储在所述计算机存储 器中并可在所述计算机处理器上执行 的计算机程序, 其特征在于, 所述计算机存储器中采 用权利要求1所述的最终高质量的标注模型; 所述计算机处理器执行所述计算机程序时实 现以下步骤: 将待标注的文本内容输入至所述标注模型中, 经计算与分析, 输出完成标注的 文本内容。权 利 要 求 书 2/2 页 3 CN 115129872 A 3

.PDF文档 专利 一种基于主动学习的小样本文本标注方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于主动学习的小样本文本标注方法及装置 第 1 页 专利 一种基于主动学习的小样本文本标注方法及装置 第 2 页 专利 一种基于主动学习的小样本文本标注方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。