国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210608239.1 (22)申请日 2022.05.31 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 赵铁军 郭常江 杨沐昀 朱聪慧  徐冰 曹海龙  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 孙莉莉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06F 16/951(2019.01) G06F 16/9035(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于关键信息指导面向微博文本的生 成式自动文本摘要方法 (57)摘要 本发明提出了一种基于关键信息指导面向 微博文本的生成式自动文本摘要方法, 首先需要 将微博文本进行清洗, 去除其中冗余信息和其他 非关键信息; 然后通过关键信息提取模块, 得到 微博文本中的关键词和关键短语; 之后针对该任 务设计专用的深度学习神经网络并使用公开数 据集训练模 型; 最后将处理好的微博文本和关键 信息作为输入, 使用关键信息进行指导摘要生 成, 得到最终的摘要结果; 本发明的目的是为了 改进根据微博文本生成摘要的精度, 进一步提高 舆情分析系统在针对微博文本进行分析时内容 检索的准确性, 更为简要、 准确地覆盖微博文本 的主要信息, 节省人工阅读全 文的时间。 权利要求书3页 说明书9页 附图3页 CN 115034217 A 2022.09.09 CN 115034217 A 1.一种基于关键信息指导 面向微博文本的生成式自动文本摘要方法, 其特 征在于: 所述方法具体包括以下步骤: 步骤1: 对微博文本进行清理, 去除其中冗余信息和其 他非必要信息; 步骤2: 通过关键信息提取模块, 得到微博文本中的关键词(组); 步骤3: 设计基于深度 学习神经网络的微博文本自动摘要模型, 并使用公开数据集训练 模型; 步骤4: 将步骤一清 理后的微博文本和步骤二得到的关键词(组)作为输入, 输入到步骤 三训练好的模型中, 使用关键信息进行指导摘要生成, 得到最终的摘要结果。 2.根据权利要求1所述方法, 其特 征在于: 在步骤1中, 所述其他非必要信息为微博平台的特有标签, 包括 “@”用户名、 微博站内链接、 超话链 接和微博表情符号。 3.根据权利要求2所述方法, 其特 征在于: 在步骤1中, 步骤1.1: 使用正则表达式对获得的微博文本进行清理, 保留中文、 英文和数字字符, 去 除其中无用的微博用户名、 微博站内链接、 超话链接、 表情符号、 空格以及非中文字符; 步骤1.2: 使用Python编程语言中的库函数, 对源文本进行化简, 将其中的繁体字变为 简体字, 如果原文无繁体字则跳过这 一步。 4.根据权利要求3所述方法, 其特 征在于: 在步骤2中, 步骤2.1: 使用分词工具对步骤1中获得的文本进行分词, 得到分词结果; 步骤2.2: 结合语法解析树和设定的需要保留的词性, 获得待抽取关键词(组); 步骤2.3: 统计待抽取关键词(组)的位置信息和频率信息; 步骤2.4: 使用预训练的词嵌入模型模型对步骤1和步骤2.2所获得的文本进行嵌入并 计算, 得到关键词分布1; 步骤2.5: 使用步骤1和步骤2.2的文本以及步骤2.4的文本嵌入表示, 应用于图模型 TextRank中, 获得关键词分布 2。 步骤2.6: 融合步骤2.4和步骤2.5 的关键词分布1、 2得到最终的关键词分布, 并选取其 中的前10个作为关键词(组)。 5.根据权利要求 4所述方法, 其特 征在于: 在步骤3中, 所述公开数据集为LCSTS数据集, 数据集中的全部数据均 来自微博文本, 首 先对数据集进行 预处理; 步骤3.1: 对数据集中的每一个摘要进行打分, 该分数为文摘的准确度, 对于训练数据 集, 保留全部的准确度的数据; 而针对 验证集和 测试集仅保留分数 大于等于 3的数据; 步骤3.2: 使用步骤2的方法处理步骤3.1中筛选出来的数据, 获得每条微博文本的关键 词(组); 步骤3.3: 将步骤3.2中得到的关键词(组)与对应的微博文本、 摘要组合成一条新的数 据, 最终得到一个新的数据集。 6.根据权利要求5所述方法, 其特 征在于: 在步骤3中, 所述微博文本自动摘要模型包括微博文本编码器、 关键词(组)编码器和解权 利 要 求 书 1/3 页 2 CN 115034217 A 2码器; 所述微博文本编码器包括词嵌入层和一层双向LSTM网络, 结合注意力机制获得每个时 刻的语义表示向量ct, 具体的: 将步骤2.1中的每一个分词结果经过Embe dding层映射, 得到向量Embeddingi, 其中i表 示该句子中的第i个词; 向量Embeddingi输入到一层双向LSTM中, 得到前后语义的表示, 前向表示记为 后向 表示为 将前后向 向量拼接在一 块记为该词在解码时刻为t时的表示 每个时刻计算当前时刻的注意力分数和整条微博文本的向量表示ct: 其中v, Wh, Ws, b均为可 学习参数, st为t时刻解码器的输出 结果; 所述关键词(组)编码器使用预训练模型alber t‑tiny作为Embed ding层, 将关键词(组)的嵌入结果通过一层选 择门控网络, 得到不同重要性 分数scorei, 再结合 词嵌入结果得到t时刻关键词(组)的语义中心向量: 其中W, b为可训练参数, st为解码器在t时刻的状态向量表示。 修改前文pgen的生成方式: pgen=sigmoid(Ws·st+Wh·ct+Wx·xt+Wk·keyt+b) 其中Wk为可训练参数; 所述解码器包括Embed ding层、 一层单向LSTM和两层全连接层; 解码器将前一时刻的到的单词映射为向量yt‑1, 之后将该向量和前一时刻微博文本语 义向量ct‑1拼接得到当前时刻t的输入 xt: xt=[yt‑1; ct‑1] 将t时刻的输入xt输入到解码器的LSTM网络中, 得到其隐向量表示st; 再将该隐向量和 和ct拼接, 经过两层全连接层得到当前时刻的词分布P(w): P(w)=Dense1(Dense2([st; ct])) 根据该词分布选择概 率最大的词wt作为当前时刻的解码结果。 7.根据权利要求6所述方法, 其特 征在于: 在步骤3中, 所述 微博文本自动摘要模型还 包括指针生成机制和历史信息覆盖 机制;权 利 要 求 书 2/3 页 3 CN 115034217 A 3

.PDF文档 专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法 第 1 页 专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法 第 2 页 专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。