专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210673842.8 (22)申请日 2022.06.15 (71)申请人哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号 (72)发明人赵铁军　郭常江　徐冰　曹海龙　杨沐昀　朱聪慧　 (74)专利代理机构哈尔滨市阳光惠远知识产权代理有限公司 2321 1 专利代理师赵艳华 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/953(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质 (57)摘要一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质，涉及自然语言处理技术领域。解决了现有生成式文本摘要技术在生成的时候并没有主动地去关注这些潜在的主题信息，导致在生成过程中失去部分重要信息的问题。所述方法包括：对新闻文本进行清理，去除所述新闻文本中无用的符号和信息；利用公开语料库进行主题模型的训练，获取主题语义矩阵；根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型，并利用公开数据集训练模型，获取数据集训练模型；将新闻文本的清洗步骤中处理的文本输入至数据集训练模型，利用主题信息进行指导摘要生成，获得摘要结果。本发明应用于新闻信息处理技术领域。权利要求书2页说明书7页附图3页 CN 115114428 A 2022.09.27 CN 115114428 A 1.一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述方法包括：新闻文本的清洗步骤：对新闻文本进行清理，去除所述新闻文本中无用的符号和信息；主题语义矩阵获取的步骤：利用公开语料库进行主题模型的训练，获取主题语义矩阵；建立数据集训练模型的步骤：根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型，并利用公开数据集训练模型，获取数据集训练模型；获取摘要的步骤：将新闻文本的清洗步骤中处理的文本输入至数据集训练模型，利用主题信息进行指导摘要生成，获得文本摘要。 2.根据权利要求1所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述主题语义矩阵获取的步骤包括：根据公开的中文语料库进行搜索，并将所述公开的中文语料库中繁体字替换为简体字，获取新的中文语料库；利用新的中文语料库进行LDA主题模型的训练，获取主题对应的词分布及主题训练模型，所述预设主题数量为150；根据主题对应的词分布进行主题词提取，提取所述每个主题的前10 0词及其权重；将主题对应的词嵌入主题训练模型，获取主题向量；利用主题向量进行拼接获取主题语义矩阵。 3.根据权利要求1所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述的数据集训练模型包括：新闻文本编码器、解码器、历史信息覆盖机制和指针生成机制。 4.根据权利要求3所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述新闻文本编码器包括：词嵌入层和一层双向LSTM 长短期记忆网络；所述词嵌入层和一层双向LSTM长短期记忆网络结合注意力机制获得每个时刻的语义表示向量ct：所述公开语料库中的每一个分词经过Embedding层映射，得到向量Embeddingi，其中i表示该句子中的第i个词；所述向量E mbeddingi输入到一层双向LSTM中，得到第i个词对应的前向向量和后向向量的语义表示，将所述前向向量和后向向量拼接在一起获取所述第i个词在解码时刻为t 时的向量根据所述向量获取每个时刻的语义表示向量ct：权　利　要　求　书 1/2 页 2 CN 115114428 A 2其中， v， Wh， b均表示所述注意力层的可学习参数， st表示t时刻解码器的输出结果，表示注意力运算结果，表示注意力分数， N表示编码器接收的输入长度。 5.根据权利要求3所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述解码器包括： Embed ding层、一层单向LSTM和两层全连接层；所述解码器将前一时刻的到的单词映射为向量yt‑1，将所述向量yt‑1和前一时刻新闻文本语义向量ct‑1拼接得到当前时刻t的输入 xt： xt＝[yt‑1； ct‑1] 将t时刻的输入xt输入到解码器的一层单向LSTM长短期记忆网络中，得到所述t时刻的隐向量st；利用所述隐向量st和ct拼接，经过两层全连接层获得当前时刻的词分布P(w)： P(w)＝Dense1(Dense2([st； ct]))，其中， Dense1为第一层全连接层， Dense2为第二层全连接层；根据当前时刻的词分布选择概率最大的词wt作为当前时刻的解码结果。 6.根据权利要求3所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述历史信息覆盖机制为：其中， WH为注意力层中增加的可训练参数。 7.根据权利要求3所述的一种基于主题信息的新闻文本摘要获取方法，其特征在于，所述指针生成机制为： pgen＝sigmoid(Ws·st+Wh·ct+Wx·xt+b)， P(w)＝pgen·P(w)+(1‑pgen)·Ht，其中， Ws， Wh， Wx， b均为生成指针的网络层的可训练参数， P(w)表示当前时刻的词分布， pgen表示指针生成层得到的指针，取值范围是[0,1]。 8.一种基于主题信息的新闻文本摘要获取装置，其特征在于，所述装置包括：新闻文本清洗单元：对新闻文本进行清理，去除所述新闻文本中无用的符号和信息；主题语义矩阵获取单元：利用公开语料库进行主题模型的训练，获取主题语义矩阵；建立数据集训练模型单元：根据获取的主题语义矩阵结合深度学习神经网络建立新闻文本的专用生成式摘要模型，并利用公开数据集训练模型，获取数据集训练模型；获取摘要单元：将新闻文本的清洗步骤中处理的文本输入至数据集训练模型，利用主题信息进行指导摘要生成，获得摘要结果。 9.一种基于主题信息的新闻文本摘要获取器，其特征在于，所述获取器包含权利要求8 所述的一种基于主题信息的新闻文本摘要获取装置。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1 ‑7所述的一种基于主题信息的新闻文本摘要获取方法。权　利　要　求　书 2/2 页 3 CN 115114428 A 3

专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质

专利一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质