专利 一种文本信息分类方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210607812.7 (22)申请日 2022.05.31 (71)申请人中国电信股份有限公司地址 100033 北京市西城区金融大街31号 (72)发明人范潇　贾炎　康志峰　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师苏培华 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称一种文本信息分类方法、装置、电子设备及存储介质 (57)摘要本发明实施例提供了一种文本信息分类方法、装置、电子设备及存储介质，通过在完成对标签向量矩阵和文本向量矩阵构建后的推理过程中，且在通过既有模型利用用于表达类别标签置信度的标签观测概率作为推理依据的前提下，通过计算出不同层次之间的标签转移概率，对各层级的类别标签的分类结果进行约束，避免了在输出错误标签的置信度高于正确标签的置信度时，将错误标签作为标签预测结果，并将错误信息传递给下层的预测中，从而提高了针对文本信息分类的准确率。权利要求书3页说明书15页附图3页 CN 114943295 A 2022.08.26 CN 114943295 A 1.一种文本信息分类方法，其特征在于，所述方法应用于文本分类模型，所述文本分类模型具有多个层级，所述层级包含对应的标签节点，所述标签节点具有对应的类别标签，所述类别标签用于表达所述标签节点的类别，所述方法包括：生成针对所述类别标签的标签向量，并采用所述标签向量生成标签向量矩阵；生成针对所述文本信息的文本向量，并采用所述文本向量生成文本向量矩阵；生成针对所述类别标签的标签转移概率；将所述标签向量矩阵和所述文本向量矩阵输入至所述文本分类模型，并生成针对所述类别标签的标签观测概率；基于所述标签观测概率和所述标签转移概率，确定针对所述类别标签的分类结果，并采用所述分类结果作为针对所述文本信息的分类结果。 2.根据权利要求1所述的方法，其特征在于，所述文本分类模型集成有词向量模型，所述标签节点包括父节点，以及，与所述父节点具有直接关联关系的子节点，所述生成针对所述类别标签的标签向量，并采用所述标签向量生成标签向量矩阵的步骤包括：采用所述词向量模型确定针对所述子节点的子类别标签的子标签向量；确定所述子节点的个数；采用所述子标签向量，和，所述子节点的个数计算生成针对所述父节点的父类别标签的父标签向量；采用所述子标签向量，和，所述父标签向量构建标签向量矩阵。 3.根据权利要求2所述的方法，其特征在于，所述生成针对所述类别标签的标签转移概率的步骤包括：在所述父节点所在的父层级中确定出针对所述父类别标签的父标签类别数量；在所述子节点所在的子层级中确定出针对所述子类别标签的子标签类别数量；采用所述父标签类别数量和所述子标签类别数量计算生成针对所述类别标签的标签转移概率。 4.根据权利要求3所述的方法，其特征在于，所述基于所述标签观测概率和所述标签转移概率，确定针对所述类别标签的分类结果，并采用所述分类结果作为针对所述文本信息的分类结果的步骤包括：基于维特比算法，采用所述标签观测概率和所述标签转移概率计算出多个所述类别标签两两之间的最短路径；采用所述最短路径作为针对所述类别标签的分类结果，并采用所述分类结果作为针对所述文本信息的分类结果。 5.根据权利要求2所述的方法，其特征在于，所述词向量模型为多语言博特模型的多语言模型，所述生成针对所述文本信息的文本向量，并采用所述文本向量生成文本向量矩阵的步骤包括：采用所述多语言博特模型获取针对所述文本信息的文本向量，并采用所述文本向量生成文本向量矩阵。 6.一种文本信息分类装置，其特征在于，所述装置应用于文本分类模型，所述文本分类模型具有多个层级，所述层级包含对应的标签节点，所述标签节点具有对应的类别标签，所述类别标签用于表达所述标签节点的类别，所述装置包括：权　利　要　求　书 1/3 页 2 CN 114943295 A 2标签向量矩阵生成模块，用于生成针对所述类别标签的标签向量，并采用所述标签向量生成标签向量矩阵；文本向量矩阵生成模块，用于生成针对所述文本信息的文本向量，并采用所述文本向量生成文本向量矩阵；标签转移概率生成模块，用于生成针对所述类别标签的标签转移概率；标签观测概率生成模块，用于将所述标签向量矩阵和所述文本向量矩阵输入至所述文本分类模型，并生成针对所述类别标签的标签观测概率；分类结果确定模块，用于基于所述标签观测概率和所述标签转移概率，确定针对所述类别标签的分类结果，并采用所述分类结果作为针对所述文本信息的分类结果。 7.根据权利要求6所述的装置，其特征在于，所述文本分类模型集成有词向量模型，所述标签节点包括父节点，以及，与所述父节点具有直接关联关系的子节点，所述标签向量矩阵生成模块包括：子标签向量确定子模块，用于采用所述词向量模型确定针对所述子节点的子类别标签的子标签向量；子节点个数确定子模块，用于确定所述子节点的个数；父标签向量计算子模块，用于采用所述子标签向量，和，所述子节点的个数计算生成针对所述父节点的父类别标签的父标签向量；标签向量矩阵生成子模块，用于采用所述子标签向量，和，所述父标签向量构建标签向量矩阵。 8.根据权利要求7 所述的装置，其特征在于，所述标签转移概率生成模块包括：父标签类别数量确定子模块，用于在所述父节点所在的父层级中确定出针对所述父类别标签的父标签类别数量；子标签类别数量确定子模块，用于在所述子节点所在的子层级中确定出针对所述子类别标签的子标签类别数量；标签转移概率生成子模块，用于采用所述父标签类别数量和所述子标签类别数量计算生成针对所述类别标签的标签转移概率。 9.根据权利要求8所述的装置，其特征在于，所述分类结果确定模块包括：最短路径计算子模块，用于基于维特比算法，采用所述标签观测概率和所述标签转移概率计算出多个所述类别标签两两之间的最短路径；分类结果确定子模块，用于采用所述最短路径作为针对所述类别标签的分类结果，并采用所述分类结果作为针对所述文本信息的分类结果。 10.根据权利要求7所述的装置，其特征在于，所述词向量模型为多语言博特模型的多语言模型，所述文本向量矩阵生成模块包括：文本向量矩阵生成子模块，用于采用所述多语言博特模型获取针对所述文本信息的文本向量，并采用所述文本向量生成文本向量矩阵。 11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1 ‑5任一项所述的方权　利　要　求　书 2/3 页 3 CN 114943295 A 3

专利 一种文本信息分类方法、装置、电子设备及存储介质

专利一种文本信息分类方法、装置、电子设备及存储介质