专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210608239.1 (22)申请日 2022.05.31 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人赵铁军　郭常江　杨沐昀　朱聪慧　徐冰　曹海龙　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师孙莉莉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06F 16/951(2019.01) G06F 16/9035(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于关键信息指导面向微博文本的生成式自动文本摘要方法 (57)摘要本发明提出了一种基于关键信息指导面向微博文本的生成式自动文本摘要方法，首先需要将微博文本进行清洗，去除其中冗余信息和其他非关键信息；然后通过关键信息提取模块，得到微博文本中的关键词和关键短语；之后针对该任务设计专用的深度学习神经网络并使用公开数据集训练模型；最后将处理好的微博文本和关键信息作为输入，使用关键信息进行指导摘要生成，得到最终的摘要结果；本发明的目的是为了改进根据微博文本生成摘要的精度，进一步提高舆情分析系统在针对微博文本进行分析时内容检索的准确性，更为简要、准确地覆盖微博文本的主要信息，节省人工阅读全文的时间。权利要求书3页说明书9页附图3页 CN 115034217 A 2022.09.09 CN 115034217 A 1.一种基于关键信息指导面向微博文本的生成式自动文本摘要方法，其特征在于：所述方法具体包括以下步骤：步骤1：对微博文本进行清理，去除其中冗余信息和其他非必要信息；步骤2：通过关键信息提取模块，得到微博文本中的关键词(组)；步骤3：设计基于深度学习神经网络的微博文本自动摘要模型，并使用公开数据集训练模型；步骤4：将步骤一清理后的微博文本和步骤二得到的关键词(组)作为输入，输入到步骤三训练好的模型中，使用关键信息进行指导摘要生成，得到最终的摘要结果。 2.根据权利要求1所述方法，其特征在于：在步骤1中，所述其他非必要信息为微博平台的特有标签，包括 “@”用户名、微博站内链接、超话链接和微博表情符号。 3.根据权利要求2所述方法，其特征在于：在步骤1中，步骤1.1：使用正则表达式对获得的微博文本进行清理，保留中文、英文和数字字符，去除其中无用的微博用户名、微博站内链接、超话链接、表情符号、空格以及非中文字符；步骤1.2：使用Python编程语言中的库函数，对源文本进行化简，将其中的繁体字变为简体字，如果原文无繁体字则跳过这一步。 4.根据权利要求3所述方法，其特征在于：在步骤2中，步骤2.1：使用分词工具对步骤1中获得的文本进行分词，得到分词结果；步骤2.2：结合语法解析树和设定的需要保留的词性，获得待抽取关键词(组)；步骤2.3：统计待抽取关键词(组)的位置信息和频率信息；步骤2.4：使用预训练的词嵌入模型模型对步骤1和步骤2.2所获得的文本进行嵌入并计算，得到关键词分布1；步骤2.5：使用步骤1和步骤2.2的文本以及步骤2.4的文本嵌入表示，应用于图模型 TextRank中，获得关键词分布 2。步骤2.6：融合步骤2.4和步骤2.5 的关键词分布1、 2得到最终的关键词分布，并选取其中的前10个作为关键词(组)。 5.根据权利要求 4所述方法，其特征在于：在步骤3中，所述公开数据集为LCSTS数据集，数据集中的全部数据均来自微博文本，首先对数据集进行预处理；步骤3.1：对数据集中的每一个摘要进行打分，该分数为文摘的准确度，对于训练数据集，保留全部的准确度的数据；而针对验证集和测试集仅保留分数大于等于 3的数据；步骤3.2：使用步骤2的方法处理步骤3.1中筛选出来的数据，获得每条微博文本的关键词(组)；步骤3.3：将步骤3.2中得到的关键词(组)与对应的微博文本、摘要组合成一条新的数据，最终得到一个新的数据集。 6.根据权利要求5所述方法，其特征在于：在步骤3中，所述微博文本自动摘要模型包括微博文本编码器、关键词(组)编码器和解权　利　要　求　书 1/3 页 2 CN 115034217 A 2码器；所述微博文本编码器包括词嵌入层和一层双向LSTM网络，结合注意力机制获得每个时刻的语义表示向量ct，具体的：将步骤2.1中的每一个分词结果经过Embe dding层映射，得到向量Embeddingi，其中i表示该句子中的第i个词；向量Embeddingi输入到一层双向LSTM中，得到前后语义的表示，前向表示记为后向表示为将前后向向量拼接在一块记为该词在解码时刻为t时的表示每个时刻计算当前时刻的注意力分数和整条微博文本的向量表示ct：其中v， Wh， Ws， b均为可学习参数， st为t时刻解码器的输出结果；所述关键词(组)编码器使用预训练模型alber t‑tiny作为Embed ding层，将关键词(组)的嵌入结果通过一层选择门控网络，得到不同重要性分数scorei，再结合词嵌入结果得到t时刻关键词(组)的语义中心向量：其中W， b为可训练参数， st为解码器在t时刻的状态向量表示。修改前文pgen的生成方式： pgen＝sigmoid(Ws·st+Wh·ct+Wx·xt+Wk·keyt+b) 其中Wk为可训练参数；所述解码器包括Embed ding层、一层单向LSTM和两层全连接层；解码器将前一时刻的到的单词映射为向量yt‑1，之后将该向量和前一时刻微博文本语义向量ct‑1拼接得到当前时刻t的输入 xt： xt＝[yt‑1； ct‑1] 将t时刻的输入xt输入到解码器的LSTM网络中，得到其隐向量表示st；再将该隐向量和和ct拼接，经过两层全连接层得到当前时刻的词分布P(w)： P(w)＝Dense1(Dense2([st； ct])) 根据该词分布选择概率最大的词wt作为当前时刻的解码结果。 7.根据权利要求6所述方法，其特征在于：在步骤3中，所述微博文本自动摘要模型还包括指针生成机制和历史信息覆盖机制；权　利　要　求　书 2/3 页 3 CN 115034217 A 3

专利 一种基于关键信息指导面向微博文本的生成式自动文本摘要方法

专利一种基于关键信息指导面向微博文本的生成式自动文本摘要方法