国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210772206.0 (22)申请日 2022.06.30 (71)申请人 郑州信大 先进技术研究院 地址 450000 河南省郑州市高新 技术产业 开发区莲 花街55号 (72)发明人 张有为 房飞越 陶泽坤 李静  陆川伟 吴洪建 赵清波  (74)专利代理 机构 郑州德勤知识产权代理有限 公司 41128 专利代理师 黄红梅 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01) (54)发明名称 一种基于模型融合的海量旅游网络文本语 义分析方法 (57)摘要 本发明公开了一种基于模型融合的海量旅 游网络文本语义分析方法, 获取评论数据集, 并 对数据集中的数据进行预处理; 对 数据集中的数 据进行可视化分析; 对评论数据集采用DBSCAN密 度聚类, 获得数据集D1; 利用Word2Vec模型, 得到 数据集D2; 利用Simhash算法, 得到数据集D3; 利 用N‑Gram语言模型得到数据集D4; 将数据集D1 ‑ D4中的数据结果综合得到数据集D5; 将预处理之 后的数据集D5导入TF ‑IDF模型和LDA模型, 提取 得到关键词和主题词; 词向量化计算每条评论的 关键词向量与主题词向量之间的距离, 并根据距 离输出结果高的词; 根据特色词、 酒店名称、 酒店 类型相互 组合构建三元组, 得到知识图谱。 权利要求书1页 说明书4页 附图3页 CN 115099241 A 2022.09.23 CN 115099241 A 1.一种基于模型融合的海量旅游网络文本语义分析 方法, 其特 征在于: 步骤1, 获取评论数据集, 并对数据集中的数据进行预处理; 其中, 评论数据集是csv文 件, 包含酒店名称、 酒店类别、 评论时间、 酒店评论内容; 步骤2, 对数据集中的数据进行 可视化分析; 步骤3, 对评论数据集采用DBSCAN密度聚类, 获得 数据集D1={x_1,x_2, …,x_m}; 步骤4, 利用Word2Vec模型对酒店评论 内容进行向量化处理后 计算相似度, 得到数据 集 D2; 步骤5, 利用Simhash算法在评论数据集上进行相似去重, 得到数据集D3; 步骤6, 利用N ‑Gram语言模型计算评论数据集中文本的成句概率, 再把每个句子 困惑度 PPL计算出来, 按照从小到大的顺序排列, 取四分位数为75%以下 数据即得到数据集D4; 步骤7, 模型融合根据少数服从多数来定最终结果, 将数据集D1 ‑D4中的数据结果综合 得到数据集D5; 步骤8, 对数据集D5进行 预处理; 步骤9, 将预处 理之后的数据集D5导入TF ‑IDF模型提取 得到按权 重顺序排列的关键词; 步骤10, 将预处 理之后的数据集D5导入LDA模型提取 得到按权 重顺序排列的主题词; 步骤11, 将步骤9和步骤10得到的结果关键词和主题词, 词向量化计算每条评论的关键 词向量与主题词向量之间的距离, 并根据距离 输出结果高的词; 步骤12, 根据特色词、 酒店名称、 酒店类型相互组合构建三元组, 利用py2neo库, 对 neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中, 最终得到一个简单的知 识图谱。 2.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法, 其特征在 于: 步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理, 具体表现 为: 步骤1‑1: 若数据中存在空白的属性和记录, 则将该 条数据删除; 步骤1‑2: 若数据中存在多条各个属性项完全重复的记录, 则只保留一条记录并将其余 删除。 3.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法, 其特征在 于: 步骤2‑1: 文本长度统计, 数据集大小统计, 时间序列的统计; 步骤2‑2: 运用matpl otlib.pyplot函数对统计数据进行 可视化分析。权 利 要 求 书 1/1 页 2 CN 115099241 A 2一种基于模型融合的海量旅游网 络文本语 义分析方 法 技术领域 [0001]本发明涉及数据挖掘 领域, 更具体地, 涉及一种基于模型融合的海量旅游网络文 本语义分析 方法。 背景技术 [0002]Hunt于1971年提出了旅游目的地形象的概念, 从营销传播的角度看, 旅游目的地 形象是旅游者获得的有关旅游目的地信息在旅游 者心目中形成的综合性的感知评价, 是目 的地选择决策 的重要参考变量。 作为旅游目的地形象感知的阶段, 情感形象是游客对旅游 目的地的感情性认识, 是游客对旅游 地的偏好程度。 Russel基于情感测量模 型, 将旅游目的 地情感形象划分成四个维度, 以此确定游客对旅游目的地形象的情感评价。 通过情感形象 评价分析, 了解游客对旅游地偏好的要素, 有助于旅游地进行更好的形象定位, 扬长避短, 突出特色, 从而得以持续健康 地发展。 因此, 如何对这种复杂的旅游文本数据的处理是该研 究领域的主 要挑战之一。 [0003]网络文本语义分析是网络评论信息处理的重要技术。 目前, 网络评论文本分析在 旅游学术界广泛应用, 酒店网络评论分析 的研究主要集中两个方面: 基于评论信息的服务 质量研究和评论信息的语境挖掘 。 无论哪个方面都需要从对文本的有效性出发, 然后进行 研究挖掘。 因此, 引入 模型融合的文本语义处 理方式能更好的完成文本信息的提取。 [0004]另外, 文本有效性可以从人为定义、 统计学习、 机器学习、 深度学习等方式处理, 但 是, 每个方法都有一些缺陷, 不能够筛选出具有代表性、 真实性和有效性的评论文本数据 集, 以减少 信息搜寻成本, 提高评论质量, 增强评论生态的活力。 因此, 需要提供一种模型融 合方式以得到一个最 好的语义数据集。 发明内容 [0005]针对现有技术的缺陷, 本发明提供了一种基于模型融合的海量旅游网络文本语义 分析方法: [0006]步骤1, 获取评论数据集, 并对数据集中的数据进行预处理; 其中, 评论数据集是 csv文件, 包 含酒店名称、 酒店类别、 评论时间、 酒店评论内容; [0007]步骤2, 对数据集中的数据进行 可视化分析; [0008]步骤3, 对评论数据集采用DBSCAN密度聚类, 获得 数据集D1={x_1,x_2, …,x_m}; [0009]步骤4, 利用Word2V ec模型对酒店评论内容进行向量化处理后计算相似度, 得到数 据集D2; [0010]步骤5, 利用Simhash算法在评论数据集上进行相似去重, 得到数据集D3; [0011]步骤6, 利用N ‑Gram语言模型计算文本的成句概率, 再把每个句子困惑度PPL计算 出来, 按照从小到大的顺序排列, 取四分位数为75%以下 数据即得到数据集D4; [0012]步骤7, 模型融合根据少数服从多数来定最终结果, 将数据集D1 ‑D4中的数据结果 综合得到数据集D5;说 明 书 1/4 页 3 CN 115099241 A 3

.PDF文档 专利 一种基于模型融合的海量旅游网络文本语义分析方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模型融合的海量旅游网络文本语义分析方法 第 1 页 专利 一种基于模型融合的海量旅游网络文本语义分析方法 第 2 页 专利 一种基于模型融合的海量旅游网络文本语义分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。