专利 一种客服热点事件发现方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210700715.2 (22)申请日 2022.06.20 (71)申请人科大国创云网科技有限公司地址 230000 安徽省合肥市高新区文曲路 355号办公楼4层 (72)发明人李飞　冯影　程磊　周源　王颜颜　 (74)专利代理机构合肥昊晟德专利代理事务所 (普通合伙) 3415 3 专利代理师何梓秋 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06F 40/258(2020.01)G06F 16/35(2019.01) (54)发明名称一种客服热点事件发现方法及系统 (57)摘要本发明公开了一种客服热点事件发现方法及系统，属于自然语言处理技术领域，包括以下步骤： S1：语义表征； S2：事件发现； S3：事件类别预测。本发明通过调整字词权重的方式增强语义表征，基于 K‑Means算法实现热点事件发现，优化运营商客服领域热点事件发现的准确率，在运营商客服领域数据事件聚类发现的实验中，本方法明显优于其他已有的层次和密度聚类算法，准确率提升了13.83％。权利要求书2页说明书7页附图1页 CN 115034206 A 2022.09.09 CN 115034206 A 1.一种客服热点事件发现方法，其特征在于，包括以下步骤： S1：语义表征在通用词库的基础上进行客服领域新词发现，然后计算客服文本动态句向量，并对语义表征进行压缩； S2：事件发现基于客服文本语义表征向量，采用K ‑Means算法对不同客服场景话务进行聚类，生成样本类别，在计算类别的热词组合，形成类别标题，实现客服文本事件发现； S3：事件类别预测构造客服文本事件类型预测训练样本，训练分类模型，通过训练好的分类模型预测新文本类别，完成事件入库。 2.根据权利要求1所述的一种客服热点事件发现方法，其特征在于：在所述步骤S1中，进行新词发现的具体过程如下： S101：采用W ord2vec方法训练客服语料，生成词汇表作为客服行业基础词库； S102：客服领域文本分词后，若文本分词后的词不在基础词库中，进行词频统计； S103：设置新词发现阈值，将超过阈值的词语记录下来作为候选业务词； S104：候选业务词与通用词库相融合，建立运营商客服领域业务词库。 3.根据权利要求2所述的一种客服热点事件发现方法，其特征在于：在所述步骤S1中，客服文本动态句向量计算过程具体如下： S201：对于客服文本序列s，采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除，只保留运营商客服领域业务词，因此序列更新为s ′＝{c1,…,ci,…,cN}，其中 ci表示序列s ′中的第i个词汇， N表示序列s ′的文本长度； S202：基于Word2vec方法获得序列s ′中每一个词汇的初始向量， es′＝{e1,…,ei,…, eN}； S203：在传统TF‑IDF算法的基础上新增词长权重，权重信息具体计算公式为：其中，为序列s′中第i个词汇的权重信息， len(ci)为ci的长度， m为词汇ci在该文本中出现的频数， T为该文本中的总词汇数， H为总文本数， h为含有词汇ci的文本数； S204：应用序列s ′每一个词汇的向量es′＝{e1,…,ei,…,eN}与其对应词汇权重信息相结合的方式，动态计算句向量，生成文本的句向量空间，完成客服文本向量化，具体计算公式为：其次， Vs为文本的句向量表示，为词汇ci的权重信息， ei为词汇ci的词向量。 4.根据权利要求3所述的一种客服热点事件发现方法，其特征在于：在所述步骤S1中，进行语义表征进行压缩的具体过程如下： S201：将步骤S204中生成的句向量进行归一化； S202：采用PCA降维的方式将原始句向量的维度降低到指定维度，具体计算公式为：权　利　要　求　书 1/2 页 2 CN 115034206 A 2其中， Vs′为语义表征压缩后的句向量， Xi为原始句向量中中第i维的数值， Xmax、 Xmin分别为原始句向量中最大值和最小值， F 是PCA降维函数， d是指定维度。 5.根据权利要求4所述的一种客服热点事件发现方法，其特征在于：所述步骤S2的具体过程如下： S21：随机选取K个点作为初始聚类中心； S22：根据欧式距离的公式进行计算，将靠近初始聚类中心的数据，划分到同一个簇中，以此迭代； S23：依据各簇数据点的均值更新其聚类中心，直至聚类中心不再改变，由此将客服文本划分为K个样本类别，再分别根据每一类中词汇词频的高低提取K个类别的热词组合，即关键词文本，形成类别标题，实现客服文本事件发现。 6.根据权利要求5所述的一种客服热点事件发现方法，其特征在于：所述步骤S3包括以下步骤： S31：通过步骤S23中的K个样本类别、 K个类别的热词组合，构造客服文本事件类型预测训练样本，其中客服文本作为训练数据，通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签； S32：采用有监督Fasttext算法训练客服文本事件样本，获得基于Fasttext算法对文本事件分类模型 modelf，对于新的客服文本序列x通过训练好的模型 modelf获得序列x属于K个类型的概率y1,…,yi,…,yk； S33：通过最大值函数获得序列x的属于可能类别的概率：设置预测置信度P，预测新文本事件类别，若文本序列x属于可能类别的概率达到预测置信度，则归到K个类别中的概率最大的相似类别中，否则将不对文本序列x做分类处理，直到不做分类处理的文本数量满足指定数额Q，则所有数据重新聚类，以此整合后续事件，完成事件入库。 7.一种客服热点事件发现系统，其特征在于，利用如权利要求1～6任一项所述的方法实现客服热点事件发现及对新文本进行预测，包括：语义表征模块，用于在通用词库的基础上进行客服领域新词发现，然后计算客服文本动态句向量，并对语义表征进行压缩；事件发现模块，用于基于客服文本语义表征向量，采用K ‑Means算法对不同客服场景话务进行聚类，生成样本类别，在计算类别的热词组合，形成类别标题，实现客服文本事件发现；事件类别预测模块，用于构造客服文本事件类型预测训练样本，训练分类模型，通过训练好的分类模型预测新文本类别，完成事件入库；控制处理模块，用于向其他模块发出指令，完成相关动作；所述语义表征模块、事件发现模块、事件类别预测模块均与控制处理模块电连接。权　利　要　求　书 2/2 页 3 CN 115034206 A 3

专利 一种客服热点事件发现方法及系统

专利一种客服热点事件发现方法及系统