(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210772206.0
(22)申请日 2022.06.30
(71)申请人 郑州信大 先进技术研究院
地址 450000 河南省郑州市高新 技术产业
开发区莲 花街55号
(72)发明人 张有为 房飞越 陶泽坤 李静
陆川伟 吴洪建 赵清波
(74)专利代理 机构 郑州德勤知识产权代理有限
公司 41128
专利代理师 黄红梅
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/216(2020.01)
(54)发明名称
一种基于模型融合的海量旅游网络文本语
义分析方法
(57)摘要
本发明公开了一种基于模型融合的海量旅
游网络文本语义分析方法, 获取评论数据集, 并
对数据集中的数据进行预处理; 对 数据集中的数
据进行可视化分析; 对评论数据集采用DBSCAN密
度聚类, 获得数据集D1; 利用Word2Vec模型, 得到
数据集D2; 利用Simhash算法, 得到数据集D3; 利
用N‑Gram语言模型得到数据集D4; 将数据集D1 ‑
D4中的数据结果综合得到数据集D5; 将预处理之
后的数据集D5导入TF ‑IDF模型和LDA模型, 提取
得到关键词和主题词; 词向量化计算每条评论的
关键词向量与主题词向量之间的距离, 并根据距
离输出结果高的词; 根据特色词、 酒店名称、 酒店
类型相互 组合构建三元组, 得到知识图谱。
权利要求书1页 说明书4页 附图3页
CN 115099241 A
2022.09.23
CN 115099241 A
1.一种基于模型融合的海量旅游网络文本语义分析 方法, 其特 征在于:
步骤1, 获取评论数据集, 并对数据集中的数据进行预处理; 其中, 评论数据集是csv文
件, 包含酒店名称、 酒店类别、 评论时间、 酒店评论内容;
步骤2, 对数据集中的数据进行 可视化分析;
步骤3, 对评论数据集采用DBSCAN密度聚类, 获得 数据集D1={x_1,x_2, …,x_m};
步骤4, 利用Word2Vec模型对酒店评论 内容进行向量化处理后 计算相似度, 得到数据 集
D2;
步骤5, 利用Simhash算法在评论数据集上进行相似去重, 得到数据集D3;
步骤6, 利用N ‑Gram语言模型计算评论数据集中文本的成句概率, 再把每个句子 困惑度
PPL计算出来, 按照从小到大的顺序排列, 取四分位数为75%以下 数据即得到数据集D4;
步骤7, 模型融合根据少数服从多数来定最终结果, 将数据集D1 ‑D4中的数据结果综合
得到数据集D5;
步骤8, 对数据集D5进行 预处理;
步骤9, 将预处 理之后的数据集D5导入TF ‑IDF模型提取 得到按权 重顺序排列的关键词;
步骤10, 将预处 理之后的数据集D5导入LDA模型提取 得到按权 重顺序排列的主题词;
步骤11, 将步骤9和步骤10得到的结果关键词和主题词, 词向量化计算每条评论的关键
词向量与主题词向量之间的距离, 并根据距离 输出结果高的词;
步骤12, 根据特色词、 酒店名称、 酒店类型相互组合构建三元组, 利用py2neo库, 对
neo4j数据库进行三元组数据转换为sql语句上传到neo4j数据中, 最终得到一个简单的知
识图谱。
2.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法, 其特征在
于: 步骤1中的评论数据的预处理主要包括缺失数据的处理和重复数据的处理, 具体表现
为:
步骤1‑1: 若数据中存在空白的属性和记录, 则将该 条数据删除;
步骤1‑2: 若数据中存在多条各个属性项完全重复的记录, 则只保留一条记录并将其余
删除。
3.根据权利要求1所述的基于模型融合的海量旅游网络文本语义分析方法, 其特征在
于:
步骤2‑1: 文本长度统计, 数据集大小统计, 时间序列的统计;
步骤2‑2: 运用matpl otlib.pyplot函数对统计数据进行 可视化分析。权 利 要 求 书 1/1 页
2
CN 115099241 A
2一种基于模型融合的海量旅游网 络文本语 义分析方 法
技术领域
[0001]本发明涉及数据挖掘 领域, 更具体地, 涉及一种基于模型融合的海量旅游网络文
本语义分析 方法。
背景技术
[0002]Hunt于1971年提出了旅游目的地形象的概念, 从营销传播的角度看, 旅游目的地
形象是旅游者获得的有关旅游目的地信息在旅游 者心目中形成的综合性的感知评价, 是目
的地选择决策 的重要参考变量。 作为旅游目的地形象感知的阶段, 情感形象是游客对旅游
目的地的感情性认识, 是游客对旅游 地的偏好程度。 Russel基于情感测量模 型, 将旅游目的
地情感形象划分成四个维度, 以此确定游客对旅游目的地形象的情感评价。 通过情感形象
评价分析, 了解游客对旅游地偏好的要素, 有助于旅游地进行更好的形象定位, 扬长避短,
突出特色, 从而得以持续健康 地发展。 因此, 如何对这种复杂的旅游文本数据的处理是该研
究领域的主 要挑战之一。
[0003]网络文本语义分析是网络评论信息处理的重要技术。 目前, 网络评论文本分析在
旅游学术界广泛应用, 酒店网络评论分析 的研究主要集中两个方面: 基于评论信息的服务
质量研究和评论信息的语境挖掘 。 无论哪个方面都需要从对文本的有效性出发, 然后进行
研究挖掘。 因此, 引入 模型融合的文本语义处 理方式能更好的完成文本信息的提取。
[0004]另外, 文本有效性可以从人为定义、 统计学习、 机器学习、 深度学习等方式处理, 但
是, 每个方法都有一些缺陷, 不能够筛选出具有代表性、 真实性和有效性的评论文本数据
集, 以减少 信息搜寻成本, 提高评论质量, 增强评论生态的活力。 因此, 需要提供一种模型融
合方式以得到一个最 好的语义数据集。
发明内容
[0005]针对现有技术的缺陷, 本发明提供了一种基于模型融合的海量旅游网络文本语义
分析方法:
[0006]步骤1, 获取评论数据集, 并对数据集中的数据进行预处理; 其中, 评论数据集是
csv文件, 包 含酒店名称、 酒店类别、 评论时间、 酒店评论内容;
[0007]步骤2, 对数据集中的数据进行 可视化分析;
[0008]步骤3, 对评论数据集采用DBSCAN密度聚类, 获得 数据集D1={x_1,x_2, …,x_m};
[0009]步骤4, 利用Word2V ec模型对酒店评论内容进行向量化处理后计算相似度, 得到数
据集D2;
[0010]步骤5, 利用Simhash算法在评论数据集上进行相似去重, 得到数据集D3;
[0011]步骤6, 利用N ‑Gram语言模型计算文本的成句概率, 再把每个句子困惑度PPL计算
出来, 按照从小到大的顺序排列, 取四分位数为75%以下 数据即得到数据集D4;
[0012]步骤7, 模型融合根据少数服从多数来定最终结果, 将数据集D1 ‑D4中的数据结果
综合得到数据集D5;说 明 书 1/4 页
3
CN 115099241 A
3
专利 一种基于模型融合的海量旅游网络文本语义分析方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:08上传分享