国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210650261.2 (22)申请日 2022.06.10 (71)申请人 北京企名片科技有限公司 地址 100080 北京市海淀区上地信息产业 基地创业路6号3层3 028 (72)发明人 党壮 (74)专利代理 机构 北京巨弘知识产权代理事务 所(普通合伙) 11673 专利代理师 张婧 (51)Int.Cl. G06F 16/953(2019.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 一种投资信息数据筛 选方式 (57)摘要 本发明公开了一种投资信息数据筛选方式, 包括以下步骤: 通过爬虫软件获取原始商业信 息; 去噪; 对去噪后的各商业信息进行语义特征 提取后聚类形成事件类型表; 根据事件类型表所 涉及到的领域对事件类型表聚类, 形成行业事件 表; 在行业事件表中根据表内事件重复被抓取的 次数对事件类型表进行排列; 审查各表和各语义 特征之间的匹配程度; 按顺序输出行业类型和对 应的事件筛选结果。 本发明通过对抓取的信息事 件进行归类, 得到事件的基础类型, 根据抓取语 义特征, 并设定行业中常用语义, 将事件类型与 行业本身进行匹配得到基于行业的事件信息流, 根据信息获取者的需求将符合信息获取者关注 的行业的相关信息展示给信息获取者。 权利要求书1页 说明书3页 附图1页 CN 115186162 A 2022.10.14 CN 115186162 A 1.一种投资信息数据筛 选方式, 其特 征在于: 包括以下步骤: S1、 通过爬虫 软件获取原 始商业信息, 并将所述原 始商业信息存 储至存储服务器中; S2、 通过去噪模块对 存储在所述存 储服务器中的原 始商业信息进行去噪; S3、 对去噪后的各所述商业信息进行语义特征提取, 并对相同语义特征的所述商业信 息进行聚类形成事 件类型表; S4、 根据所述事 件类型表所 涉及到的领域对所述事 件类型表聚类, 形成行业事 件表; S5、 在所述行业事件表中根据表内事件重复被抓取的次数对所述事件类型表进行排 列; S6、 审查各表和各语义特征之间的匹配程度, 删除不匹配的所述行业事件表中的所述 事件类型表; S7、 将删除的所述事 件类型表信息反馈给语义特 征提取模块进行机器学习; S8、 按顺序输出 行业类型和对应的事 件筛选结果。 2.根据权利要求1所述的一种投资信 息数据筛选方式, 其特征在于: 所述步骤S5具体如 下: S51、 对重复的商业信息进行整合并赋予各商业信息事 件id和重复抓取事 件次数的值; S52、 各事件类型表内根据重复抓取事件次数的值由高到低将所述商业信息事件id排 列; S53、 在所述事件类型表内将各所述商业信息事件id对应的所述重复抓取事件次数的 值与各所述商业信息事件id同时存储于所述行业事件表的数量的乘积之和与所述事件类 型表所对应的语义特征同时存储于所述行业事件表的数量相乘得到各所述事件类型表的 事件重要度指数; S54、 根据所述事 件重要度指数排列所述事 件类型表在所述行业事 件表中的顺序。 3.根据权利要求2所述的一种投资信 息数据筛选方式, 其特征在于: 所述步骤S8中按顺 序输出的规则如下: 将所述行业事件表中各所述事件类型表的所述事件重要度指数相加, 按照顺序排列, 得到热门行业 赛道顺序, 并按照所述热门行业 赛道顺序输出筛 选结果。 4.根据权利要求1所述的一种投资信 息数据筛选方式, 其特征在于: 所述事件类型表所 涉及到的领域的分类依据为GICS四级行业分类。权 利 要 求 书 1/1 页 2 CN 115186162 A 2一种投资信息数据筛选方式 技术领域 [0001]本发明涉及数据筛 选领域, 特别是 涉及一种投资信息数据筛 选方式。 背景技术 [0002]在投资信息领域, 往往需要基于 企业的工商数据和新闻信息来进行评价。 其中, 股 东对于该企业的投资行为能够反映资本方的稳定和重视程度, 是评价企业运营与发展状况 的重要维度。 [0003]然而, 有关投资信息 的数据碎片化情况比较严重, 具体表现在新闻类投资信息往 往难以归类, 导 致得到的投资信息难以针对信息 接收者的需求进行合理的筛 选和展示。 [0004]现需一种投资信息数据筛 选方式解决上述问题 发明内容 [0005]本发明是为了解决现有技术中有关投资信息的数据碎片化情 况比较严重, 具体表 现在新闻类投资信息往往难以归类, 导致得到的投资信息难以针对信息接收者的需求进 行 合理的筛选和展示的问题, 提供了一种投资信息数据筛选方式, 采用行业分类的方法, 解决 了上述问题。 [0006]本发明提供了一种投资信息数据筛 选方式, 包括以下步骤: [0007]S1、 通过爬虫 软件获取原 始商业信息, 并将原 始商业信息存 储至存储服务器中; [0008]S2、 通过去噪模块对 存储在存储服务器中的原 始商业信息进行去噪; [0009]S3、 对去噪后的各商业信息进行语义特征提取, 并对相同语义特征的商业信息进 行聚类形成事 件类型表; [0010]S4、 根据事 件类型表所 涉及到的领域对 事件类型表聚类, 形成行业事 件表; [0011]S5、 在行业事 件表中根据表内事 件重复被抓取的次数对 事件类型表进行排列; [0012]S6、 审查各表和各语义特征之间的匹配程度, 删除不匹配 的行业事件表中的事件 类型表; [0013]S7、 将删除的事 件类型表信息反馈给语义特 征提取模块进行机器学习; [0014]S8、 按顺序输出 行业类型和对应的事 件筛选结果。 [0015]本发明所述的一种投资信息数据筛 选方式, 作为优选方式, 步骤S5具体如下: [0016]S51、 对重复的商业信息进行整合并赋予各商业信息事件id和重复抓取事件次数 的值; [0017]S52、 各事件类型表内根据重复抓取事件次数的值由高到低将商业信息事件id排 列; [0018]S53、 在事件类型表内将各商业信息事件id对应的重复抓取事件次数的值与各商 业信息事件id同时存储于行业事件表的数量的乘积之和与事件类型表所对应的语义特征 同时存储于行业事 件表的数量相乘得到各事 件类型表的事 件重要度指数; [0019]S54、 根据事 件重要度指数排列事 件类型表在行业事 件表中的顺序。说 明 书 1/3 页 3 CN 115186162 A 3
专利 一种投资信息数据筛选方式
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:09:01
上传分享
举报
下载
原文档
(264.0 KB)
分享
友情链接
DB52-T 1541.5-2021 政务数据平台 第5部分:安全技术规范 贵州省.pdf
GB-Z 40847-2021 认知康复训练系统通用技术条件.pdf
GB-T 31499-2015 信息安全技术 统一威胁管理产品技术要求和测试评价方法.pdf
TB-T 3210.1-2020 铁路煤炭运输抑尘技术条件 第1部分:抑尘剂.pdf
DB34-T 3704-2020 公路工程路基动态回弹模量现场测试规程 安徽省.pdf
专利 黑产设备的确定方法、装置及服务器.PDF
国测 智能网联汽车安全渗透白皮书 2020.pdf
GB-T 33770.2-2019信息技术服务外包第2部分数据保护要求.pdf
GB-T 6414-2017 铸件 尺寸公差、几何公差与机械加工余量.pdf
GB-T 28608-2012 工业用1,4-氧氮杂环己烷(吗啉).pdf
DB37-T 5237-2022 《超低能耗公共建筑技术标准》 山东省.pdf
TB-T 1718.2-2017 机车车辆轮对组装 第2部分:车辆.pdf
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
嘶吼 网络安全服务市场洞察报告 2023.pdf
TTAF 180.4—2023 小程序个人信息保护规范 第4部分:全生命周期.pdf
JR-T 0185—2020 《商业银行应用程序接口安全管理规范》.pdf
GB-T 30998-2014信息技术软件安全保障规范.pdf
GB-T 35003-2018 非易失性存储器耐久和数据保持试验方法.pdf
SCIE 004-2021 智慧城市产业生态圈联盟标准.pdf
GB-T 42048-2022 载人航天空间科学与应用项目遴选要求.pdf
1
/
3
6
评价文档
赞助2.5元 点击下载(264.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。