国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210673842.8 (22)申请日 2022.06.15 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 赵铁军 郭常江 徐冰 曹海龙  杨沐昀 朱聪慧  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 赵艳华 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/953(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于主题信息的新闻文本摘要获取方 法、 装置、 获取器和存 储介质 (57)摘要 一种基于主题信息的新闻文本摘要获取方 法、 装置、 获取器和存储介质, 涉及自然语言处理 技术领域。 解决了现有生 成式文本摘要技术在生 成的时候并没有主动地去关注这些潜在的主题 信息, 导致在生成过程中失去部分重要信息的问 题。 所述方法包括: 对新闻文本进行清理, 去除所 述新闻文本中无用的符号和信息; 利用公开语料 库进行主题模型的训练, 获取主题语义矩阵; 根 据获取的主题语义矩 阵结合深度学习神经网络 建立新闻文本的专用生成式摘要模 型, 并利用公 开数据集训练模型, 获取数据集训练模型; 将新 闻文本的清洗步骤中处理的文本输入至数据集 训练模型, 利用主题信息进行指导摘要生成, 获 得摘要结果。 本发明应用于新闻信息处理技术领 域。 权利要求书2页 说明书7页 附图3页 CN 115114428 A 2022.09.27 CN 115114428 A 1.一种基于主题信息的新闻文本摘要获取 方法, 其特 征在于, 所述方法包括: 新闻文本的清洗步骤: 对新闻文本进行清理, 去除所述 新闻文本中无用的符号和信息; 主题语义矩阵获取的步骤: 利用公开语料库进行主题模型的训练, 获取主题语义矩阵; 建立数据集训练模型的步骤: 根据获取的主题语义矩阵结合深度 学习神经网络建立新 闻文本的专用生成式摘要模型, 并利用公开数据集训练模型, 获取 数据集训练模型; 获取摘要的步骤: 将新闻文本的清洗步骤中处理的文本输入至数据集训练模型, 利用 主题信息进行指导摘要生成, 获得文本摘要。 2.根据权利要求1所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述主题语义矩阵获取的步骤 包括: 根据公开的中文语料库进行搜索, 并将所述公开的中文语料库中繁体字替换为简体 字, 获取新的中文语料库; 利用新的中文语料库进行LDA主题模型的训练, 获取主题对应的词分布及主题训练模 型, 所述预设主题数量 为150; 根据主题对应的词分布进行主题词提取, 提取 所述每个主题的前10 0词及其权 重; 将主题对应的词嵌入主题训练模型, 获取主题向量; 利用主题向量进行拼接获取主题语义矩阵。 3.根据权利要求1所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述的数据集训练模型包括: 新闻文本编码器、 解码器、 历史信息覆盖 机制和指针生成机制。 4.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述新闻文本编码器包括: 词嵌入层和一层 双向LSTM 长短期记 忆网络; 所述词嵌入层和一层双向LSTM长短期记忆网络结合注意力机制获得每个时刻的语义 表示向量ct: 所述公开语 料库中的每一个分词经过Embedding层映射, 得到向量Embeddingi, 其中i表 示该句子中的第i个词; 所述向量E mbeddingi输入到一层双向LSTM中, 得到第i个词对应的前向向量 和后向向 量 的语义表示, 将所述前向向量和后向向量拼接在一起获取所述第i个词 在解码时刻为t 时的向量 根据所述向量 获取每个时刻的语义表示向量ct: 权 利 要 求 书 1/2 页 2 CN 115114428 A 2其中, v, Wh, b均表示所述注意力层的可学习参数, st表示t时刻解码器的输出结果, 表示注意力运 算结果, 表示注意力分数, N表示编码器接收的输入长度。 5.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述解码器包括: Embed ding层、 一层单向LSTM和两层全连接层; 所述解码器将前一时刻的到的单词映射为向量yt‑1, 将所述向量yt‑1和前一时刻新 闻文 本语义向量ct‑1拼接得到当前时刻t的输入 xt: xt=[yt‑1; ct‑1] 将t时刻的输入xt输入到解码器的一层单向LSTM长短期记忆网络中, 得到所述t时刻的 隐向量st; 利用所述隐向量st和ct拼接, 经过两层全连接层获得当前时刻的词分布P(w): P(w)=Dense1(Dense2([st; ct])), 其中, Dense1为第一层全连接层, Dense2为第二层全连接层; 根据当前时刻的词分布选择概 率最大的词wt作为当前时刻的解码结果。 6.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述历史信息覆盖 机制为: 其中, WH为注意力层中增 加的可训练参数。 7.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所 述指针生成机制为: pgen=sigmoid(Ws·st+Wh·ct+Wx·xt+b), P(w)=pgen·P(w)+(1‑pgen)·Ht, 其中, Ws, Wh, Wx, b均为生成指针 的网络层的可训练参数, P(w)表示当前时刻的词分布, pgen表示指针生成层得到的指针, 取值范围是[0,1]。 8.一种基于主题信息的新闻文本摘要获取装置, 其特 征在于, 所述装置包括: 新闻文本清洗单 元: 对新闻文本进行清理, 去除所述 新闻文本中无用的符号和信息; 主题语义矩阵获取 单元: 利用公开语料库进行主题模型的训练, 获取主题语义矩阵; 建立数据集训练模型单元: 根据获取的主题语义矩阵结合深度 学习神经网络建立新闻 文本的专用生成式摘要模型, 并利用公开数据集训练模型, 获取 数据集训练模型; 获取摘要单元: 将新闻文本的清洗步骤中处理的文本输入至数据集训练模型, 利用主 题信息进行指导摘要生成, 获得摘要结果。 9.一种基于主题信 息的新闻文本摘要获取器, 其特征在于, 所述获取器包含权利要求8 所述的一种基于主题信息的新闻文本摘要获取装置 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于储存计算机 程序, 所述计算机程序执行权利要求1 ‑7所述的一种基于主题信息的新闻文本摘要获取方 法。权 利 要 求 书 2/2 页 3 CN 115114428 A 3

.PDF文档 专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质 第 1 页 专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质 第 2 页 专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。