国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688296.5 (22)申请日 2022.06.17 (71)申请人 东方合智数据科技 (广东) 有限责任 公司 地址 528237 广东省佛山市南海区狮山 镇 强狮路2号 (厂房A) C区 (住所申报) (72)发明人 王晓峰 (74)专利代理 机构 深圳市君胜知识产权代理事 务所(普通 合伙) 44268 专利代理师 陈专 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于瓦楞纸行业的原纸行情数据处理 方法及相关 设备 (57)摘要 本发明公开了一种基于瓦楞纸行业的原纸 行情数据处理方法及相关设备, 所述方法包括: 导入多个数据处理工具, 用于对数据、 中文文字 和语义进行相关处理; 载入原纸行情记录文本, 加载文本, 去除停用词、 去除数字以及去除左右 空格, 利用jieba中文分词库将中文句子拆分成 多个词组, 统计词频出现次数并去重后输出结 果; 根据已完成的分词词组进行词嵌入, 将文本 转化为数值向量表示, 并将数值向量输入到第一 层词向量神经网络进行训练和运算; 基于第二层 神经网络和第三层神经网络为汇聚层进行数据 模型训练并对文本识别分类, 定义字典对词性分 类标注, 将预测结果保存并写入HDF5文件。 本发 明实现了 行情数据信息标注分类, 关键词统计和 行情预测。 权利要求书2页 说明书9页 附图3页 CN 115146059 A 2022.10.04 CN 115146059 A 1.一种基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述基于瓦楞纸行业 的原纸行情数据处 理方法包括: 导入多个数据处 理工具, 用于对数据、 中文 文字和语义进行相关处 理; 载入原纸行情记录文本, 调用jieba分词库加载文本, 基于开源组件自带的停用词典去 除停用词、 去除数字以及去除左右空格, 利用jieba中文分词库将中文句子拆分成多个词 组, 统计词频 出现次数并去重后输出 结果; 根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并将数值向量输入 到第一层词向量神经网络进行训练和运 算; 选择LSTM搭建第二层神经网络, 第三层神经网络为汇聚层, 基于第二层神经网络和第 三层神经网络为汇 聚层进行数据模型训练并对文本识别分类, 定义字典对词性分类标注, 将预测结果保存并写入HDF5文件。 2.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 数据处理工具包括: numpy、 matelotlib、 jieba、 NLTK、 math, re、 gensim、 tensorflow和 keras; numpy用于提供高性 能的矩阵运算; matelotlib用于观测数据变化和分布; jieba是 一个Python中文分词组件; NLTK为自然语言工具; math用于数学函数运算; re为正则化处理 工具; gensim用于将中文转换成Word2Vec向量; tensorflow是一个基于数据流编程的符号 数学系统; keras是开源的深度学习框架。 3.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并将数值向量输入到第 一层词向量神经网络进行训练和运 算, 具体包括: 根据已完成的分词词组进行词嵌入, 创建字典并设置2万个 高频词汇, 嵌入矩阵行数设 置为16行; 每一个语句最大长度为200, 数据模型选择Sequential序 贯模型, 配置训练集和测试集 数据用于模型训练调用, 第一层词向量神经网络搭建完成。 4.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第一层词向量神经网络用于将向量数据加载到序贯模型, 通过add传入所有参数加载到深 度学习神经网络层, 进行运 算准备。 5.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第二层神经网络选择LSTM时序型运算模式并设置128个神经元, 形成一个128*128的图形化 矩阵用于运 算转化后的文字向量。 6.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第三层神经网络对图像中的数据进行分类, 输出层选择计算公式函数, 作为 最终数据展示。 7.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 预测结果包括: 原纸行情信息利好、 无影响和较差行情中。 8.一种基于瓦楞纸行业的原纸行情数据处理系统, 其特征在于, 所述基于瓦楞纸行业 的原纸行情数据处 理系统包括: 工具导入模块, 用于导入多个数据处理工具, 用于对数据、 中文文字和语义进行相关处 理; 分词识别模块, 用于载入原纸行情记录文本, 调用jieba分词库加载文本, 基于开源组权 利 要 求 书 1/2 页 2 CN 115146059 A 2件自带的停用词典去除停用词、 去除数字以及去除左右空格, 利用jieba中文分词 库将中文 句子拆分成多个词组, 统计词频 出现次数并去重后输出 结果; 词嵌入模块, 用于根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并 将数值向量输入到第一层词向量神经网络进行训练和运 算; 识别分类模块, 用于选择LSTM搭建第二层神经网络, 第三层神经网络为汇聚层, 基于第 二层神经网络和 第三层神经网络为汇聚层进 行数据模型训练并对文本识别分类, 定义字典 对词性分类标注, 将预测结果保存并写入HDF5文件。 9.一种终端, 其特征在于, 所述终端包括: 存储器、 处理器及存储在所述存储器上并可 在所述处理器上运行的基于瓦楞纸行业的原 纸行情数据处理程序, 所述基于瓦楞纸行业的 原纸行情数据处理程序被所述处理器执行时实现如权利要求 1‑7任一项所述的基于瓦楞纸 行业的原纸行情数据处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有基于瓦楞 纸行业的原 纸行情数据处理程序, 所述基于瓦楞纸行业的原 纸行情数据处理程序被处理器 执行时实现如权利要求1 ‑7任一项所述的基于瓦楞纸行业的原纸行情数据处理方法的步 骤。权 利 要 求 书 2/2 页 3 CN 115146059 A 3
专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:19
上传分享
举报
下载
原文档
(680.5 KB)
分享
友情链接
GB-T 5975-2006 钢丝绳用压板.pdf
北京网络安全大会 中小企业如何做好工业互联网安全防护.pdf
阿里巴巴 毕玄 从自动化到智能化的阿里运维体系.pdf
GB-T 24718-2023 防眩板.pdf
GB-T 37408-2019 光伏发电并网逆变器技术要求.pdf
GB-T 43690-2024 成像衍射光学元件衍射效率的测量方法.pdf
GB-T 36549-2018 电化学储能电站运行指标及评价.pdf
T-ZZB 1136—2019 汽车发动机冷却用膨胀水壶.pdf
GB-T 17903.2-2021 信息技术 安全技术 抗抵赖 第2部分:采用对称技术的机制.pdf
GB-T 34112-2022 信息与文献 文件 档案 管理体系 要求.pdf
信通院 量子信息技术发展与应用研究报告-2020年.pdf
GB-T 42002-2022 跨境电子商务交易类产品信息多语种描述 智能手机.pdf
T-CEC 664—2022 电力行业职业技能标准 电力网络安全员.pdf
安恒 黄承开 网络安全技术标准化和下一代网络安全架构技术介绍 2022.pdf
OWASP AI大模型应用网络安全治理检查清单 LLM_AI_Security_and_Governance_Checklist 2024.pdf
GB-T 42595-2023 承压设备修理基本要求.pdf
GM-T 0016-2023 智能密码钥匙密码应用接口规范.pdf
DB21-T 1799.3—2019 信息技术 信息服务管理规范 第3部分:IT系统运维 辽宁省.pdf
GB-T 43706-2024 资产管理 战略资产管理计划 SAMP 实施指南.pdf
GB-T 10886-2019 三螺杆泵.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(680.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。