国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210697122.5 (22)申请日 2022.06.20 (71)申请人 国网山东省电力公司营销服 务中心 (计量中心) 地址 250001 山东省济南市 市中区大观园 经二路15 0号 申请人 国家电网有限公司 (72)发明人 张雪梅 刘昳娟 陈云龙 吴雪霞 刘继彦 王者龙 鞠文杰 王为帅 于相洁 王倩 高玉华 李静 徐美玲 侯燕文 邹喜林 王若晗 任昶羽 李兆茹 隋欣 李丽 (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 董雪(51)Int.Cl. G06F 16/16(2019.01) G06F 40/151(2020.01) G06F 40/166(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于序列编码的文件分类标注方法与 系统 (57)摘要 本公开属于文本 分类技术领域, 提供了一种 基于序列编码的文件分类标注方法与系统, 包括 以下步骤: 获取待分类文件的位置特征; 根据所 获取的位置特征, 对待分类文件中单词级的句法 和语义信息进行词嵌入, 对待分类文件中的句子 级的关系和结构信息进行序列编码, 完成待分类 文件从文档空间到矢量空间的转换; 提取待分类 文件的矢量空间特征, 对所提取的矢量空间特征 进行序列编码; 基于矢量空间特征的序列编码和 预设的文 件分类模型, 进行文 件的分类 。 权利要求书2页 说明书12页 附图4页 CN 115292251 A 2022.11.04 CN 115292251 A 1.一种基于序列编码的文件分类方法, 其特 征在于, 包括以下步骤: 获取待分类文件的位置特 征; 根据所获取的位置特征, 对待分类文件中单词级的句法和语义信息进行词嵌入, 对待 分类文件中的句子级的关系和结构信息进 行序列编 码, 完成待分类文件从文档空间到矢量 空间的转换; 提取待分类文件的矢量空间特 征, 对所提取的矢量空间特 征进行序列编码; 基于矢量空间特 征的序列编码和预设的文件分类模型, 进行文件的分类。 2.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在获取待分 类文件的位置特征 的过程中, 根据待分类文件中句 子和文档的长度, 结合所述句 子和所述 文档之间的相对位置, 生成基于依赖图的位置特 征。 3.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在所述单词 级的句法和语义信息进行词嵌入的过程中, 基于树型位置编码技术, 利用双向门控循环单 元模型对基于依赖图的位置特征进 行编码; 增加双向门控循环单元层、 构建嵌入层, 实现单 词级的句法和语义信息的词嵌入。 4.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 在所述句子 级的关系和结构信息进行序列编码的过程中, 通过双向长短时记忆网络提取特征数据, 完 成句子级的关系和结构信息的序列编码。 5.如权利要求4中所述的一种基于序列编码的文件分类方法, 其特征在于, 利用高速网 络调整原始文本和主题词的语义空间, 使 所述原始文本和所述主题词二者在同一语义空间 中。 6.如权利要求1中所述的一种基于序列编码的文件分类方法, 其特征在于, 所述文件分 类模型采用改进的卷积神经网络 。 7.如权利要求6 中所述的一种基于序列编码的文件分类方法, 其特征在于, 所述基于矢 量空间特 征的序列编码和预设的文件分类模型进行文件的分类的具体过程 为: 输入待分类文件的矢量空间特 征; 提取待分类文件的单词和句子, 将所述单词嵌入所表示的文档聚合到所述句子的向量 中; 输入所提取到的空间矢量特 征的序列编码, 得到序列编码矩阵; 将所得到的序列编码矩阵与所述句子向量相串联; 基于句子向量中元 素的最大值, 将句子矩阵与序列编码矩阵与待分类文件相连接; 结合所有间的文件分类模型, 实现文件的分类。 8.一种基于序列编码的文件分类系统, 其特 征在于, 包括: 获取模块, 被 配置为获取待分类文件的位置特 征; 转换模块, 被配置为根据所获取的位置特征, 对待分类文件中单词级的句法和语义信 息进行词嵌入, 对待分类文件中的句 子级的关系和结构信息进行序列编码, 完成待分类文 件从文档空间到 矢量空间的转换; 提取模块, 被配置为提取待分类文件的矢量空间特征, 对所提取的矢量空间特征进行 序列编码; 分类模块, 被配置为基于矢量空间特征的序列编码和预设的文件分类模型, 进行文件权 利 要 求 书 1/2 页 2 CN 115292251 A 2的分类。 9.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时实 现如权利要求1 ‑7中任一项所述的基于序列编码的文件分类方法中的步骤。 10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的程 序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基于序列 编码的文件分类方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115292251 A 3
专利 一种基于序列编码的文件分类标注方法与系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:51
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
T-CEC 612—2022 港口岸电系统船用移动电源.pdf
GB-T 25055-2010 信息安全技术 公钥基础设施安全支撑平台技术框架.pdf
T-LYYLXH 002—2021 养老护理员职业技能操作培训规范.pdf
DB11-T 880-2020 电动汽车充电站运营管理规范 北京市.pdf
GB-T 14352.13-2010 钨矿石、钼矿石化学分析方法 第13部分:锡量测定.pdf
GB-T 17473.6-2008 微电子技术用贵金属浆料测试方法 分辨率测定.pdf
GB-T 19667.1-2005 基于XML的电子公文格式规范 第1部分总则.pdf
GB-T 28456-2012 IPsec协议应用测试规范.pdf
T-ZYYX 001—2020 医疗机构患者满意度第三方评价要求.pdf
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
T-ZGKSL 010—2023 重组胶原蛋白透皮吸收测定方法.pdf
GB-T 13870.1-2022 电流对人和家畜的效应 第1部分通用部分.pdf
GB-T 35536-2017 酵母浸出粉检测方法.pdf
T-GDCKCJH 068—2022 离子风机静电消除器性能要求与检测方法.pdf
SN-T 5202-2020 梅花鹿物种鉴定技术规范—实时荧光PCR法.pdf
DB42-T 1380-2018 农村公路工程技术标准 湖北省.pdf
GB-T 31250-2014 电子电气产品环境信息基本要求.pdf
T-GCHA 1.4—2018 定制家居产品 人造板定制衣柜 第4部分:安装验收规范.pdf
GB-T 43766-2024 智能网联汽车运行安全测试技术要求.pdf
等级保护 渗透测试报告-样例.doc
1
/
3
19
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。