专利 一种基于模型融合的海量旅游网络文本语义分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210772206.0 (22)申请日 2022.06.30 (71)申请人郑州信大先进技术研究院地址 450000 河南省郑州市高新技术产业开发区莲花街55号 (72)发明人张有为　房飞越　陶泽坤　李静　陆川伟　吴洪建　赵清波　 (74)专利代理机构郑州德勤知识产权代理有限公司 41128 专利代理师黄红梅 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) (54)发明名称一种基于模型融合的海量旅游网络文本语义分析方法 (57)摘要本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法，获取评论数据集，并对数据集中的数据进行预处理；对数据集中的数据进行可视化分析；对评论数据集采用DBSCAN密度聚类，获得数据集D1；利用Word2Vec模型，得到数据集D2；利用Simhash算法，得到数据集D3；利用N‑Gram语言模型得到数据集D4；将数据集D1 ‑ D4中的数据结果综合得到数据集D5；将预处理之后的数据集D5导入TF ‑IDF模型和LDA模型，提取得到关键词和主题词；词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；根据特色词、酒店名称、酒店类型相互组合构建三元组，得到知识图谱。权利要求书1页说明书4页附图3页 CN 115099241 A 2022.09.23 CN 115099241 A 1.一种基于模型融合的海量旅游网络文本语义分析方法，其特征在于：步骤1，获取评论数据集，并对数据集中的数据进行预处理；其中，评论数据集是csv文件，包含酒店名称、酒店类别、评论时间、酒店评论内容；步骤2，对数据集中的数据进行可视化分析；步骤3，对评论数据集采用DBSCAN密度聚类，获得数据集D1＝{x_1,x_2, …,x_m}；步骤4，利用Word2Vec模型对酒店评论内容进行向量化处理后计算相似度，得到数据集 D2；步骤5，利用Simhash算法在评论数据集上进行相似去重，得到数据集D3；步骤6，利用N ‑Gram语言模型计算评论数据集中文本的成句概率，再把每个句子困惑度 PPL计算出来，按照从小到大的顺序排列，取四分位数为75％以下数据即得到数据集D4；步骤7，模型融合根据少数服从多数来定最终结果，将数据集D1 ‑D4中的数据结果综合得到数据集D5；步骤8，对数据集D5进行预处理；步骤9，将预处理之后的数据集D5导入TF ‑IDF模型提取得到按权重顺序排列的关键词；步骤10，将预处理之后的数据集D5导入LDA模型提取得到按权重顺序排列的主题词；步骤11，将步骤9和步骤10得到的结果关键词和主题词，词向量化计算每条评论的关键词向量与主题词向量之间的距离，并根据距离输出结果高的词；步骤12，根据特色词、酒店名称、酒店类型相互组合构建三元组，利用py2neo库，对 neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中，最终得到一个简单的知识图谱。 2.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法，其特征在于：步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理，具体表现为：步骤1‑1：若数据中存在空白的属性和记录，则将该条数据删除；步骤1‑2：若数据中存在多条各个属性项完全重复的记录，则只保留一条记录并将其余删除。 3.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法，其特征在于：步骤2‑1：文本长度统计，数据集大小统计，时间序列的统计；步骤2‑2：运用matpl otlib.pyplot函数对统计数据进行可视化分析。权　利　要　求　书 1/1 页 2 CN 115099241 A 2一种基于模型融合的海量旅游网络文本语义分析方法技术领域 [0001]本发明涉及数据挖掘领域，更具体地，涉及一种基于模型融合的海量旅游网络文本语义分析方法。背景技术 [0002]Hunt于1971年提出了旅游目的地形象的概念，从营销传播的角度看，旅游目的地形象是旅游者获得的有关旅游目的地信息在旅游者心目中形成的综合性的感知评价，是目的地选择决策的重要参考变量。作为旅游目的地形象感知的阶段，情感形象是游客对旅游目的地的感情性认识，是游客对旅游地的偏好程度。 Russel基于情感测量模型，将旅游目的地情感形象划分成四个维度，以此确定游客对旅游目的地形象的情感评价。通过情感形象评价分析，了解游客对旅游地偏好的要素，有助于旅游地进行更好的形象定位，扬长避短，突出特色，从而得以持续健康地发展。因此，如何对这种复杂的旅游文本数据的处理是该研究领域的主要挑战之一。 [0003]网络文本语义分析是网络评论信息处理的重要技术。目前，网络评论文本分析在旅游学术界广泛应用，酒店网络评论分析的研究主要集中两个方面：基于评论信息的服务质量研究和评论信息的语境挖掘。无论哪个方面都需要从对文本的有效性出发，然后进行研究挖掘。因此，引入模型融合的文本语义处理方式能更好的完成文本信息的提取。 [0004]另外，文本有效性可以从人为定义、统计学习、机器学习、深度学习等方式处理，但是，每个方法都有一些缺陷，不能够筛选出具有代表性、真实性和有效性的评论文本数据集，以减少信息搜寻成本，提高评论质量，增强评论生态的活力。因此，需要提供一种模型融合方式以得到一个最好的语义数据集。发明内容 [0005]针对现有技术的缺陷，本发明提供了一种基于模型融合的海量旅游网络文本语义分析方法： [0006]步骤1，获取评论数据集，并对数据集中的数据进行预处理；其中，评论数据集是 csv文件，包含酒店名称、酒店类别、评论时间、酒店评论内容； [0007]步骤2，对数据集中的数据进行可视化分析； [0008]步骤3，对评论数据集采用DBSCAN密度聚类，获得数据集D1＝{x_1,x_2, …,x_m}； [0009]步骤4，利用Word2V ec模型对酒店评论内容进行向量化处理后计算相似度，得到数据集D2； [0010]步骤5，利用Simhash算法在评论数据集上进行相似去重，得到数据集D3； [0011]步骤6，利用N ‑Gram语言模型计算文本的成句概率，再把每个句子困惑度PPL计算出来，按照从小到大的顺序排列，取四分位数为75％以下数据即得到数据集D4； [0012]步骤7，模型融合根据少数服从多数来定最终结果，将数据集D1 ‑D4中的数据结果综合得到数据集D5；说　明　书 1/4 页 3 CN 115099241 A 3

专利 一种基于模型融合的海量旅游网络文本语义分析方法

专利一种基于模型融合的海量旅游网络文本语义分析方法