(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210524363.X
(22)申请日 2022.05.14
(71)申请人 北京清博智能科技有限公司
地址 100095 北京市海淀区花园路5号13 3
幢13层13 01
(72)发明人 夏茂晋 朱旭琪 王欢 马云腾
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/335(2019.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06F 40/247(2020.01)
G06F 40/30(2020.01)
G06F 16/951(2019.01)
G06K 9/62(2022.01)
G06Q 50/00(2012.01)
(54)发明名称
一种基于热点榜单的话题生成系统及方法
(57)摘要
本发明公开了一种基于热点榜单的话题生
成系统及方法, 包括数据采集模块、 数据处理模
块、 检索过滤模块、 分类抽取模块、 结果输出模
块, 述数据采集模块用于获取平台用于从网络上
爬取热文榜单, 并将获取的榜单数据发送至数据
处理模块, 数据处理模块用于读取数据采取模块
的榜单数据并转换成文本格式, 再将文本格式的
数据发送至检索过滤模块, 检索过滤模块用于接
收文本格式数据。 本发明够综合各网络社交平台
榜单数据, 更加系统全面分析各话题文章信息,
利用大数据分析和自然语言处理相关方法, 采集
不同社交媒体榜单信息, 通过聚类 分析海量文本
数据得出相关话题的关键词, 从而更加全面、 科
学、 客观地描述热点事 件。
权利要求书1页 说明书4页 附图3页
CN 114860936 A
2022.08.05
CN 114860936 A
1.一种基于热点榜单的话题生成系统, 其特征在于, 包括数据采集模块、 数据处理模
块、 检索过 滤模块、 分类抽取模块、 结果输出模块;
所述数据采集模块用于获取平台用于从网络上爬取热文榜单, 并将 获取的榜单数据发
送至数据处 理模块;
所述数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式, 再将文本格
式的数据发送至检索过 滤模块;
所述检索过滤模块用于接收文本格式数据, 根据寓意对榜单竖进行聚类, 将文章中的
词转化为词向量, 再得出文本 向量, 再根据聚类文本词语分布构建高频词文本 向量并计算
文本相似度, 用于 筛查过滤重复、 相似的文章;
所述分类抽取模块用于分析文章中的关键词, 并分类抽取关键词作为备选;
所述结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合, 并提高榜
单词及标题词权 重对备选词进行次序调整, 最终生成可代 表话题含义的关键词组。
2.根据权利要求1所述的一种基于热点榜单的话题生成方法, 其特征在于, 所述方法包
括以下步骤:
A、 数据采集模块从网络爬取从网络上爬取热文榜单, 并将获取的榜单数据发送至数据
处理模块, 检索过滤模块用于接收文本格式数据, 根据寓意对榜单竖进 行聚类, 将文章中的
词转化为词向量, 再得出文本 向量, 再根据聚类文本词语分布构建高频词文本 向量并计算
文本相似度, 用于 筛查过滤重复、 相似的文章;
B、 数据处理模块读取数据采取模块的榜单数据并转换成文本格式, 再将文本格 式的数
据发送至检索过滤模块, 检索过滤模块用于接 收文本格式数据, 根据寓意对榜单竖进行聚
类, 将文章中的词转化为词向量, 再得出文本向量, 再根据聚类文本词语分布构建高频词文
本向量并计算文本相似度, 用于 筛查过滤重复、 相似的文章;
C、 分类抽取模块分析文章中的关键词, 并分类抽取关键词作为备选, 结果输出模块用
于分析对前后连续出现频率高的备选词语对进行聚合, 并提高榜单词及标题词权重对备选
词进行次序调整, 最终生成可代 表话题含义的关键词组。
3.根据权利要求1所述的一种基于热点榜单的话题生成方法, 其特征在于, 所述分类抽
取模块生成方法包括以下步骤:
S1、 按照先验概 率P(d_m)选择一 篇文档d_m;
S2、 从Diric hlet分布α 中取样生成文档d_m的主题分布 ϑ_m;
S3、 从主题的多 项式分布 ϑ_m中取样生成文档d_m第n个词的主题z_(m,n);
S4、 从Diric hlet分布β 中取样生成主题z_(m,n)对应的词语分布φ_(z_(m,n) );
S5、 从词语的多 项式分布φ_(z_(m,n) )中采样最终生成词语w_(m,n)。权 利 要 求 书 1/1 页
2
CN 114860936 A
2一种基于热点榜单的话题生成系统及方 法
技术领域
[0001]本发明属于自然语言处理领域, 尤其涉及 一种基于热点榜单的话题生成系统及方
法。
背景技术
[0002]由于不同平台发布的榜单信息量较少且分散, 想要对其进行深层次的信息挖掘并
不容易。 比如百度热搜榜单只展现相关话题的简短描述, 具体内容需要针对这一话题重新
检索。 再比如微信热榜上展示的是热文标题, 可链接至某一热文的具体页面, 但不会显示相
关话题的其他文章。 新闻搜索和综合搜索需要获得各媒体每日的热门标签进行数据建设,
并通过标签分析热点事件脉络关系。 因此我们对此做出改进, 提出一种基于热点榜单 的话
题生成系统。
发明内容
[0003]本发明的目的在于克服现有技术存在的以上问题, 提供一种基于热点榜单的话题
生成系统及方法, 能够综合各网络社 交平台榜单数据, 更加系统全面分析各话题文章信息,
利用大数据分析和自然语言处理相关方法, 采集不同社交媒体榜单信息, 通过聚类分析海
量文本数据得 出相关话题的关键词, 从而更加全面、 科 学、 客观地描述热点事 件。
[0004]为实现上述 技术目的, 达 到上述技术效果, 本发明通过以下技 术方案实现:
一种基于热点榜单的话题生成系统, 包括数据采集模块、 数据处理模块、 检索过滤
模块、 分类抽取模块、 结果输出模块;
所述数据采集模块用于获取平台用于从网络上爬取热文榜单, 并将获取的榜单数
据发送至数据处 理模块;
所述数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式, 再将文
本格式的数据发送至检索过 滤模块;
所述检索过滤模块用于接收文本格式数据, 根据寓意对榜单竖进行聚类, 将文章
中的词转化为词向量, 再得出文本 向量, 再根据聚类文本词语分布构建高频词文本 向量并
计算文本相似度, 用于 筛查过滤重复、 相似的文章;
所述分类抽取模块用于分析文章中的关键词, 并分类抽取关键词作为备选;
所述结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合, 并提
高榜单词及标题词权 重对备选词进行次序调整, 最终生成可代 表话题含义的关键词组。
[0005]一种基于热点榜单的话题生成方法:
A、 数据采集模块从网络爬取从网络上爬取热文榜单, 并将获取的榜单数据发送至
数据处理模块, 检索过滤模块用于接收文本格式数据, 根据寓意对榜单竖进行聚类, 将文章
中的词转化为词向量, 再得出文本 向量, 再根据聚类文本词语分布构建高频词文本 向量并
计算文本相似度, 用于 筛查过滤重复、 相似的文章;
B、 数据处理模块读取数据采取模块的榜单数据并转换成文本格式, 再将文本格式说 明 书 1/4 页
3
CN 114860936 A
3
专利 一种基于热点榜单的话题生成系统及方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:18上传分享