国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210700715.2 (22)申请日 2022.06.20 (71)申请人 科大国创云网科技有限公司 地址 230000 安徽省合肥市高新区文曲路 355号办公楼4层 (72)发明人 李飞 冯影 程磊 周源 王颜颜  (74)专利代理 机构 合肥昊晟德专利代理事务所 (普通合伙) 3415 3 专利代理师 何梓秋 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06F 40/258(2020.01)G06F 16/35(2019.01) (54)发明名称 一种客服热点事 件发现方法及系统 (57)摘要 本发明公开了一种客服热点事件发现方法 及系统, 属于自然语言处理技术领域, 包括以下 步骤: S1: 语义表征; S2: 事件发现; S3: 事件类别 预测。 本发 明通过调整字词权重的方式增强语义 表征, 基于 K‑Means算法实现热点事件发现, 优 化 运营商客服领域热点事件发现的准确率, 在运营 商客服领域数据事件聚类发现的实验中, 本方法 明显优于其他已有的层次和密度聚类算法, 准确 率提升了13.83%。 权利要求书2页 说明书7页 附图1页 CN 115034206 A 2022.09.09 CN 115034206 A 1.一种客 服热点事 件发现方法, 其特 征在于, 包括以下步骤: S1: 语义表征 在通用词库的基础上进行客服领域新词发现, 然后计算客服文本动态句向量, 并对语 义表征进行压缩; S2: 事件发现 基于客服文本语义表征向量, 采用K ‑Means算法对不同客服场景话务进行 聚类, 生成样 本类别, 在计算类别的热词组合, 形成类别标题, 实现客 服文本事 件发现; S3: 事件类别预测 构造客服文本事件类型预测训练样本, 训练分类模型, 通过训练好的分类模型预测新 文本类别, 完成事 件入库。 2.根据权利要求1所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中, 进行新词发现的具体过程如下: S101: 采用W ord2vec方法训练客 服语料, 生成词汇 表作为客服行业基础词库; S102: 客服领域文本分词后, 若 文本分词后的词不在基础词库中, 进行词频统计; S103: 设置新词发现阈值, 将超过阈值的词语记录下来作为 候选业务词; S104: 候选业 务词与通用词库相融合, 建立 运营商客 服领域业务词库。 3.根据权利要求2所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中, 客服文本动态句向量计算过程具体如下: S201: 对于客服文本序列s, 采用运营商客服领域业务词库将序列s中与客服业务无关 的词汇去除, 只保留运营商客服领域业务词, 因此序列更新为s ′={c1,…,ci,…,cN}, 其中 ci表示序列s ′中的第i个词汇, N表示序列s ′的文本长度; S202: 基于Word2vec方法获得序列s ′中每一个词汇的初始向量, es′={e1,…,ei,…, eN}; S203: 在传统TF‑IDF算法的基础上新增词长 权重, 权重信息具体 计算公式为: 其中, 为序列s′中第i个词汇的权重信息, len(ci)为ci的长度, m为词汇ci在该文本 中出现的频 数, T为该文本中的总词汇数, H为总文本数, h为含有词汇ci的文本数; S204: 应用序列s ′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相 结合的方式, 动态计算句向量, 生成文本的句向量空间, 完成客服文本向量化, 具体计算公 式为: 其次, Vs为文本的句向量表示, 为词汇ci的权重信息, ei为词汇ci的词向量。 4.根据权利要求3所述的一种客服热点事件发现方法, 其特征在于: 在所述步骤S1中, 进行语义表征进行压缩的具体过程如下: S201: 将步骤S204中生成的句向量进行归一 化; S202: 采用PCA降维的方式将原 始句向量的维度降低到指定维度, 具体 计算公式为:权 利 要 求 书 1/2 页 2 CN 115034206 A 2其中, Vs′为语义表征压缩后的句向量, Xi为原始句向量中中第i维的数值, Xmax、 Xmin分别 为原始句向量中最大值和最小值, F 是PCA降维函数, d是指定维度。 5.根据权利要求4所述的一种客服热点事件发现方法, 其特征在于: 所述步骤S2的具体 过程如下: S21: 随机 选取K个点作为初始聚类中心; S22: 根据欧式距离的公式进行计算, 将靠近初始聚类中心的数据, 划分到同一个簇中, 以此迭代; S23: 依据各簇数据点的均值更新其聚类中心, 直至聚类中心不再改变, 由此将客服文 本划分为K个样本类别, 再分别根据每一类中词汇词频的高低提取K个类别的热词组合, 即 关键词文本, 形成类别标题, 实现客 服文本事 件发现。 6.根据权利要求5所述的一种客服热点事件发现方法, 其特征在于: 所述步骤S3包括以 下步骤: S31: 通过步骤S23中的K个样本类别、 K个类别的热词组合, 构造客服文本事件类型预测 训练样本, 其中客服文本作为训练数据, 通过客服文本语义表征和客服热点事件发现获得 客服文本数据的K个样本类别作为训练标签; S32: 采用有监督Fasttext算法训练客服文本事件样本, 获得基于Fasttext算法对文本 事件分类模型 modelf, 对于新的客服文 本序列x通 过训练好的模型 modelf获得序列x属于K个 类型的概 率y1,…,yi,…,yk; S33: 通过最大值 函数获得序列x的属于可能类别的概 率: 设置预测置信度P, 预测新文本事件类别, 若文本序列x属于可能类别的概率 达到预测 置信度, 则归到K个类别中的概率最大的相似类别中, 否则将不对文本序列x做分类处理, 直 到不做分类处理的文本数量满足指定数额Q, 则所有数据重新聚类, 以此整合后续事件, 完 成事件入库。 7.一种客服热点事件发现系统, 其特征在于, 利用 如权利要求1~6任一项所述的方法 实现客服热点事 件发现及对新文本进行 预测, 包括: 语义表征模块, 用于在通用词库的基础上进行客服领域新词发现, 然后计算客服文本 动态句向量, 并对语义表征进行压缩; 事件发现模块, 用于基于客服文本语义表征向量, 采用K ‑Means算法对不同客服场景话 务进行聚类, 生成样本类别, 在计算类别的热词组合, 形成类别标题, 实现客服文本事件发 现; 事件类别预测模块, 用于构造客服文本事件类型预测训练样本, 训练分类模型, 通过训 练好的分类模型 预测新文本类别, 完成事 件入库; 控制处理模块, 用于向其 他模块发出指令, 完成相关动作; 所述语义表征模块、 事 件发现模块、 事 件类别预测模块均 与控制处 理模块电连接 。权 利 要 求 书 2/2 页 3 CN 115034206 A 3

.PDF文档 专利 一种客服热点事件发现方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种客服热点事件发现方法及系统 第 1 页 专利 一种客服热点事件发现方法及系统 第 2 页 专利 一种客服热点事件发现方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。