国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210710638.9 (22)申请日 2022.06.22 (71)申请人 上海人工智能创新中心 地址 200232 上海市徐汇区云锦路701号 37、 38层 申请人 上海申康医院发展中心 (72)发明人 王延峰 王兴鹏 张文宏 徐捷 石虎伟 张昊澄 (74)专利代理 机构 上海智晟知识产权代理事务 所(特殊普通 合伙) 31313 专利代理师 张瑞莹 李镝的 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 16/951(2019.01) G06F 16/215(2019.01) G06F 40/205(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大数据的舆情监控与分析系统及 方法 (57)摘要 本发明提供一种基于大数据的舆情监控与 分析方法, 首先根据待监控主题, 确定检索词, 然 后获取舆情数据并存储, 其中, 舆情数据包括舆 情新闻及其评论, 接下来基于舆情数据, 提取舆 情热词, 并对舆情数据进行情感分类及量化分 析, 最后根据舆情热词及量化分析结果形成分析 报告。 权利要求书2页 说明书7页 附图1页 CN 115098773 A 2022.09.23 CN 115098773 A 1.一种基于大 数据的舆情监控与分析 方法, 其特 征在于, 包括: 根据待监控主题, 确定检索词; 根据所述检索词, 获取舆情数据, 其中所述舆情数据包括舆情新闻及其评论; 基于所述舆情数据, 提取舆情热词; 对所述舆情数据进行情感分类, 并进行量 化分析; 以及 根据所述舆情热词及量 化分析结果形成分析报告。 2.如权利要求1所述的方法, 其特 征在于, 所述检索词的确定包括: 根据待监控主题, 确定基础检索词; 以及 基于词向量技术, 进行语义相似度分析, 以获取与所述基础检索词的词向量相似的新 词, 并将所述 新词作为迭代检索词。 3.如权利要求2所述的方法, 其特 征在于, 所述词向量 根据如下步骤训练得到: 将获取的部分或全部 舆情数据作为无监 督训练语料; 对所述无监 督训练语料进行清洗, 包括: 分词、 去除符号及停用词; 以及 使用词向量模型对清洗后的语料进行训练, 得到词向量。 4.如权利要求1所述的方法, 其特 征在于, 所述舆情数据通过爬虫技 术获取。 5.如权利要求4所述的方法, 其特征在于, 通过爬虫技术获取舆情数据包括每间隔指定 时长, 执行一次以下动作: 在指定网站的热搜榜中检索包 含所述检索词的话题; 以及 选取所述话题下热度最高的舆情新闻, 并获取其对应的评论。 6.如权利要求1所述的方法, 其特 征在于, 所述舆情热词的提取包括: 对所述舆情新闻的标题进行分词; 对符合预定词性的关键词进行词频统计, 并按照词频从高到低进行排序; 以及 确定排序前N位的关键词的搜索指数, 删除搜索指数低于预设值的关键词, 将剩下的关 键词作为舆情热词。 7.如权利要求1所述的方法, 其特征在于, 对所述舆情数据进行情感分类包括: 根据情 感模型确定所述舆情数据的情感分数, 进 而确定情感分类。 8.如权利要求7 所述的方法, 其特 征在于, 所述情感模型根据如下步骤训练得到: 对训练数据集进行清洗及 分词, 其中所述训练数据集包括互联网上公开的已标注情感 的评论, 以及根据检索词获取的舆情数据; 基于互联网上公开的评论数据集, 采用无监督的词向量模型训练得到词向量, 作为第 一特征; 从互联网获取情感词表, 并根据所述情感词表, 对训练数据集中的每段文字的情感词 进行编码, 得到第二特 征, 其中, 所述情感词表包括积极、 消极两个词表; 以及 融合所述第一特 征及第二特 征, 通过深度学习技 术得到情感模型。 9.如权利要求8所述的方法, 其特征在于, 对训练数据集进行清洗及分词时, 保留表情 词、 带有明确情感的新词汇以及问号、 感叹号。 10.如权利要求8所述的方法, 其特 征在于, 所述深度学习技 术包括: 使用Bi‑LSTM对融合后第一特 征及第二特 征进行特征提取; 以及 用线性层输出 得到情感分数, 其中, 所述情感分数 取值为0到1之间, 包 含1和0:权 利 要 求 书 1/2 页 2 CN 115098773 A 2若某段文字的情感分数 大于0.6, 则所述文字的情感分类判定为积极; 若某段文字的情感分数小于 0.4, 则所述文字的情感分类判定为消极; 若某段文字的情感分数介于 0.4到0.6之间, 则所述文字的情感分类判定为中性。 11.如权利要求8所述的方法, 其特 征在于, 所述情感模型的训练还 包括: 训练多个情感模型, 并将训练得到最优结果的模型作为 最终的情感模型。 12.如权利要求1所述的方法, 其特 征在于, 所述分析报告包括: 舆情热词及其对应的不同情感分类的舆情新闻和/或评论的数量和/或比例; 报告概论, 包括所述舆情数据中, 消极评论 量排名前L位的舆情新闻的标题; 以及 详细新闻列表, 包括所述舆情数据中所有评论 量不为0的舆情新闻及其情感分类。 13.如权利要求1所述的方法, 其特 征在于, 还 包括: 将所述舆情热词及量 化分析结果以可视化的方式展示出来。 14.一种基于大数据的舆情监控与分析系统, 其特征在于, 其被配置为执行如权利要求 1至13任一所述的方法, 所述系统包括: 数据抓取模块, 其被 配置为根据检索词获取舆情数据; 数据存储模块, 其被 配置为存 储舆情数据、 舆情热词以及量 化分析结果; 以及 数据处理模块, 其被配置为执行以下动作: 基于所述舆情数据提取舆情热词、 对所述舆 情数据进行情感分类及量 化分析、 以及形成分析报告。权 利 要 求 书 2/2 页 3 CN 115098773 A 3
专利 一种基于大数据的舆情监控与分析系统及方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:47
上传分享
举报
下载
原文档
(386.7 KB)
分享
友情链接
GB-T 43221-2023 无人飞艇飞行控制系统通用要求.pdf
T-ZZB 1993—2020 电梯光幕.pdf
GB-T 31206-2014 机械产品绿色设计 导则.pdf
aigc安全研究分享.pdf
ISO 27002 2022 中文试译交流版.pdf
DB44-T 747-2010 转子侧变频调速节能装置通用技术规范 广东省.pdf
T-JSIA 0001—2022 能源大数据 数据分类分级指南.pdf
GB-T 25441-2022 吸尘器电机.pdf
GB-T 25731-2010 粮油机械 长管蒸发器.pdf
GB-T 30491.1-2014 天然气 热力学性质计算 第1部分:输配气中的气相性质.pdf
GB-T 41269-2022 网络关键设备安全技术要求 路由器设备.pdf
GB-T 34079.1-2021 基于云计算的电子政务公共平台服务规范 第1部分:服务分类与编码.pdf
GW0203-2014 国家电子政务外网 安全监测体系技术规范与实施指南.pdf
TTAF 150—2023 移动互联网应用人工智能模型安全指南.pdf
NY-T 1060-2006 水泥生产用磷石膏.pdf
SC-T 8012-2011 渔业船舶无线电通信、航行及信号设备配备要求.pdf
GB-T 26935-2011 集装箱钢材表面处理和涂料施工规范.pdf
T-ZYLM 0003—2023 昌吉玉米种子 制种玉米种子加工技术规程.pdf
奇安信 2022中国白帽人才能力与发展状况调研报告.pdf
GM-T 0044.3-2016 SM9标识密码算法 第3部分:密钥交换协议.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(386.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。