国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210756506.X (22)申请日 2022.06.29 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 姚雷 杜新凯 吕超 纪诚  董汉鑫 陈慧琳  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 于彬 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于树结构的文本分类模型的训练方 法、 装置及设备 (57)摘要 本申请提供了一种基于树结构的文本分类 模型的训练方法、 装置及设备, 其中, 该方法包 括: 确定与实际分类标签相匹配的实际叶子节点 所对应的实际节点路径; 确定实际节 点路径对应 的标签参数值; 将训练文本输入初始文本分类模 型, 以获得训练文本在不同分类标签下的匹配度 向量; 确定树结构中与该分类标签相匹配的叶子 节点所对应的训练节点路径; 根据实际节点路径 对应的标签参数值、 训练文本在不同分类标签下 的匹配度向量 以及各训练节点路径对应的节点 路径参数向量, 确定针对文本分类模 型的损失函 数值; 根据损失函数值, 对初始文本分类模型进 行训练, 以获得文本分类模型。 达到精准计算文 本分类模型损失值, 并根据损失值精确调整文本 分类模型参数的效果。 权利要求书3页 说明书8页 附图3页 CN 115034219 A 2022.09.09 CN 115034219 A 1.一种基于树结构的文本分类模型的训练方法, 其特 征在于, 所述方法包括: 获取训练文本以及所述训练文本对应的实际分类标签; 基于所述树结构, 确定与 所述实际分类标签相匹配的实际叶子节点所对应的实际节点 路径; 确定所述实际节点路径对应的标签参数值; 将所述训练文本输入初始文本分类模型, 以获得所述训练文本在不同分类标签下的匹 配度向量; 针对每个分类标签, 确定树结构中与该分类标签相匹配的叶子节点所对应的训练节点 路径; 根据所述实际节点路径对应的标签参数值、 所述训练文本在不同分类标签下的匹配度 向量以及各训练节点路径对应的节点路径参数向量, 确定针对文本分类模型的损失函数 值; 根据所述损失函数值, 对初始文本分类模型进行训练, 以获得文本分类模型。 2.根据权利要求1所述的方法, 其特征在于, 所述树结构包括叶子节点、 中间节点和根 节点, 其中, 所述叶子节点为树结构的最下级节点, 每个叶子节点对应一个分类标签, 所述叶 子节点的上一级节点为中间节点, 中间节点的上一级节点为中间节点或根节点, 所述根节 点为树结构的最上级节点, 所述实际节点路径包括所述树结构中从实际叶子节点到根节点的路径上的所有节点, 每个训练节点路径包括所述树结构中从与分类标签相匹配的叶子节点到根节点的路径上 的所有节点。 3.根据权利要求1所述的方法, 其特征在于, 确定所述实际节点路径对应的标签参数值 的步骤包括: 根据每个节点的节点参数向量, 计算实际节点路径上的每个节点的节点路径参数向 量; 根据实际节点路径匹配度向量和实际节点路径上的每个节点的节点路径参数向量, 确 定所述实际节点路径对应的标签参数值。 4.根据权利要求3所述的方法, 其特征在于, 通过以下方式计算实际节点路径上的每个 节点的节点路径参数向量: 判断该节点是否为叶子节点; 若该节点为叶子节点, 则将该节点的节点参数向量确定为该节点在实际节点路径中的 节点路径参数向量; 若该节点不为叶子节点, 则根据该节点的节点参数向量和实际节点路径中的叶子节点 的节点参数向量, 确定该节点在实际节点路径中的节点路径参数向量。 5.根据权利要求3所述的方法, 其特征在于, 通过以下公式计算所述实际节点路径对应 的标签参数值: 其中, A表示实际节点路径对应的标签参数值, e为自然 常数, Py表示实际节点路径, vi表权 利 要 求 书 1/3 页 2 CN 115034219 A 2示实际节点路径中第i个节点的节 点路径参数向量, x为 实际节点路径匹配度向量, T表 示向 量的转置计算。 6.根据权利要求1所述的方法, 其特征在于, 通过以下方式计算每个训练节点路径对应 的节点路径参数向量: 针对该训练节点路径中的每个训练节点执行如下处理: 确定该训练节点是否为叶子节 点, 若该训练节点不是叶子节点, 则根据该训练节点的节点参数向量和在训练节点路径中 处于该训练节点的父节点的节点参数向量, 确定该训练节点在训练节点路径中的节点路径 参数向量, 若该训练节点是叶子节点, 则将该训练节点的节点参数向量确定为该训练节点 在训练节点路径中的节点路径参数向量。 7.根据权利要求6所述的方法, 其特征在于, 根据所述实际节点路径对应的标签参数 值、 所述训练文本在不同分类标签下的匹配度向量以及各训练节点路径对应的节点路径参 数向量, 确定针对文本分类模型的损失函数值的步骤 包括: 针对每个分类标签, 根据所述训练文本在该分类标签下的匹配度向量以及与 该分类标 签对应的训练节点路径的节点路径参数向量, 计算训练文本在该分类标签下的训练节点路 径参数值; 根据训练文本在不同分类标签下的训练节点路径参数值, 计算训练文本的训练参数 值; 根据所述标签参数值和所述训练参数值, 确定针对文本分类模型的损失函数值。 8.根据权利要求7所述的方法, 其特征在于, 通过以下公式计算针对文本分类模型的损 失函数值: 其中, loss表示损失函数值, e为自然常数, Py表示实际节点路径, Pj表示第j个训练节点 路径, vq表示训练节点路径中的第q个节点的节点路径参数向量, z表示训练文 本在Pj训练节 点路径下的叶子节点所对应 的分类标签的匹配度向量, vi表示实际节点路径中第i个节点 的节点路径参数向量, x为实际节点路径匹配度向量, T表示向量的转置计算, k表示树结构 中的节点路径的数量。 9.一种基于树结构的文本分类模型的训练装置, 其特 征在于, 所述装置包括: 训练文本获取模块, 用于获取训练文本以及所述训练文本对应的实际分类标签; 实际节点路径确定模块, 用于基于所述树结构, 确定与所述实 际分类标签相匹配的实 际叶子节点所对应的实际节点路径; 标签参数值确定模块, 用于确定所述实际节点路径对应的标签参数值; 匹配的向量计算模块, 用于将所述训练文本输入初始文本分类模型, 以获得所述训练 文本在不同分类标签下的匹配度向量; 训练节点路径确定模块, 用于针对每个分类标签, 确定树结构中与该分类标签相匹配 的叶子节点所对应的训练节点路径; 损失函数值确定模块, 用于根据所述实 际节点路径对应的标签参数值、 所述训练文本 在不同分类标签下的匹配度向量以及各训练节点路径对应的节点路径参数向量, 确定针对权 利 要 求 书 2/3 页 3 CN 115034219 A 3

.PDF文档 专利 一种基于树结构的文本分类模型的训练方法、装置及设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于树结构的文本分类模型的训练方法、装置及设备 第 1 页 专利 一种基于树结构的文本分类模型的训练方法、装置及设备 第 2 页 专利 一种基于树结构的文本分类模型的训练方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。