国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210608239.1 (22)申请日 2022.05.31 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 赵铁军 郭常江 杨沐昀 朱聪慧 徐冰 曹海龙 (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 孙莉莉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06F 16/951(2019.01) G06F 16/9035(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于关键信息指导面向微博文本的生 成式自动文本摘要方法 (57)摘要 本发明提出了一种基于关键信息指导面向 微博文本的生成式自动文本摘要方法, 首先需要 将微博文本进行清洗, 去除其中冗余信息和其他 非关键信息; 然后通过关键信息提取模块, 得到 微博文本中的关键词和关键短语; 之后针对该任 务设计专用的深度学习神经网络并使用公开数 据集训练模 型; 最后将处理好的微博文本和关键 信息作为输入, 使用关键信息进行指导摘要生 成, 得到最终的摘要结果; 本发明的目的是为了 改进根据微博文本生成摘要的精度, 进一步提高 舆情分析系统在针对微博文本进行分析时内容 检索的准确性, 更为简要、 准确地覆盖微博文本 的主要信息, 节省人工阅读全 文的时间。 权利要求书3页 说明书9页 附图3页 CN 115034217 A 2022.09.09 CN 115034217 A 1.一种基于关键信息指导 面向微博文本的生成式自动文本摘要方法, 其特 征在于: 所述方法具体包括以下步骤: 步骤1: 对微博文本进行清理, 去除其中冗余信息和其 他非必要信息; 步骤2: 通过关键信息提取模块, 得到微博文本中的关键词(组); 步骤3: 设计基于深度 学习神经网络的微博文本自动摘要模型, 并使用公开数据集训练 模型; 步骤4: 将步骤一清 理后的微博文本和步骤二得到的关键词(组)作为输入, 输入到步骤 三训练好的模型中, 使用关键信息进行指导摘要生成, 得到最终的摘要结果。 2.根据权利要求1所述方法, 其特 征在于: 在步骤1中, 所述其他非必要信息为微博平台的特有标签, 包括 “@”用户名、 微博站内链接、 超话链 接和微博表情符号。 3.根据权利要求2所述方法, 其特 征在于: 在步骤1中, 步骤1.1: 使用正则表达式对获得的微博文本进行清理, 保留中文、 英文和数字字符, 去 除其中无用的微博用户名、 微博站内链接、 超话链接、 表情符号、 空格以及非中文字符; 步骤1.2: 使用Python编程语言中的库函数, 对源文本进行化简, 将其中的繁体字变为 简体字, 如果原文无繁体字则跳过这 一步。 4.根据权利要求3所述方法, 其特 征在于: 在步骤2中, 步骤2.1: 使用分词工具对步骤1中获得的文本进行分词, 得到分词结果; 步骤2.2: 结合语法解析树和设定的需要保留的词性, 获得待抽取关键词(组); 步骤2.3: 统计待抽取关键词(组)的位置信息和频率信息; 步骤2.4: 使用预训练的词嵌入模型模型对步骤1和步骤2.2所获得的文本进行嵌入并 计算, 得到关键词分布1; 步骤2.5: 使用步骤1和步骤2.2的文本以及步骤2.4的文本嵌入表示, 应用于图模型 TextRank中, 获得关键词分布 2。 步骤2.6: 融合步骤2.4和步骤2.5 的关键词分布1、 2得到最终的关键词分布, 并选取其 中的前10个作为关键词(组)。 5.根据权利要求 4所述方法, 其特 征在于: 在步骤3中, 所述公开数据集为LCSTS数据集, 数据集中的全部数据均 来自微博文本, 首 先对数据集进行 预处理; 步骤3.1: 对数据集中的每一个摘要进行打分, 该分数为文摘的准确度, 对于训练数据 集, 保留全部的准确度的数据; 而针对 验证集和 测试集仅保留分数 大于等于 3的数据; 步骤3.2: 使用步骤2的方法处理步骤3.1中筛选出来的数据, 获得每条微博文本的关键 词(组); 步骤3.3: 将步骤3.2中得到的关键词(组)与对应的微博文本、 摘要组合成一条新的数 据, 最终得到一个新的数据集。 6.根据权利要求5所述方法, 其特 征在于: 在步骤3中, 所述微博文本自动摘要模型包括微博文本编码器、 关键词(组)编码器和解权 利 要 求 书 1/3 页 2 CN 115034217 A 2码器; 所述微博文本编码器包括词嵌入层和一层双向LSTM网络, 结合注意力机制获得每个时 刻的语义表示向量ct, 具体的: 将步骤2.1中的每一个分词结果经过Embe dding层映射, 得到向量Embeddingi, 其中i表 示该句子中的第i个词; 向量Embeddingi输入到一层双向LSTM中, 得到前后语义的表示, 前向表示记为 后向 表示为 将前后向 向量拼接在一 块记为该词在解码时刻为t时的表示 每个时刻计算当前时刻的注意力分数和整条微博文本的向量表示ct: 其中v, Wh, Ws, b均为可 学习参数, st为t时刻解码器的输出 结果; 所述关键词(组)编码器使用预训练模型alber t‑tiny作为Embed ding层, 将关键词(组)的嵌入结果通过一层选 择门控网络, 得到不同重要性 分数scorei, 再结合 词嵌入结果得到t时刻关键词(组)的语义中心向量: 其中W, b为可训练参数, st为解码器在t时刻的状态向量表示。 修改前文pgen的生成方式: pgen=sigmoid(Ws·st+Wh·ct+Wx·xt+Wk·keyt+b) 其中Wk为可训练参数; 所述解码器包括Embed ding层、 一层单向LSTM和两层全连接层; 解码器将前一时刻的到的单词映射为向量yt‑1, 之后将该向量和前一时刻微博文本语 义向量ct‑1拼接得到当前时刻t的输入 xt: xt=[yt‑1; ct‑1] 将t时刻的输入xt输入到解码器的LSTM网络中, 得到其隐向量表示st; 再将该隐向量和 和ct拼接, 经过两层全连接层得到当前时刻的词分布P(w): P(w)=Dense1(Dense2([st; ct])) 根据该词分布选择概 率最大的词wt作为当前时刻的解码结果。 7.根据权利要求6所述方法, 其特 征在于: 在步骤3中, 所述 微博文本自动摘要模型还 包括指针生成机制和历史信息覆盖 机制;权 利 要 求 书 2/3 页 3 CN 115034217 A 3
专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:25
上传分享
举报
下载
原文档
(962.9 KB)
分享
友情链接
T-WEEA 007—2022 手摇式升降课桌椅.pdf
NY-T 2236-2012 植物新品种特异性、一致性和稳定性测试指南 番茄.pdf
奇安信 2021网络安全应急响应分析报告.pdf
DB43-T 2055-2021 水上交通气象灾害风险预警等级划分预评标准 湖南省.pdf
山石网科《岩谈》第五期-2022年4月(数据安全专刊).pdf
GB-T 37721-2019信息技术大数据分析系统功能要求.pdf
GM-T 0058-2018 可信计算 TCM服务模块接口规范.pdf
GB-T 39779-2021 分布式冷热电能源系统设计导则.pdf
T-SSCI 002—2021 学校室外运动场地合成材料面层 铺装技术规程.pdf
T-WSJD 29—2022 化妆品安全评估 毒理学关注阈值法.pdf
GB-T 34608-2017 节水型企业 铁矿采选行业.pdf
T-CIECCPA 009—2020 工业企业节能诊断改造效果评估指南.pdf
T-CRAA 004—2024 观赏鱼评分规则 孔雀鱼.pdf
DB31-T 329.1—2019 重点单位重要部位安全技术防范系统要求 第1部分:展览馆、博物馆 上海市.pdf
信通院 白皮书-移动应用-App数据安全与个人信息保护白皮书-1225.pdf
T-ZZB 2924—2022 船用燃气输送双壁管.pdf
专利 一种基于大数据解析的信息技术咨询终端.PDF
思度安全-DSMM-005 数据安全需求分析管理规范V1.0.pdf
i春秋 网络安全人才实战能力白皮书 攻防实战能力篇 2022.pdf
T-ZACA 007—2019 认证活动职业健康安全管理规范.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(962.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。