(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210673842.8
(22)申请日 2022.06.15
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 赵铁军 郭常江 徐冰 曹海龙
杨沐昀 朱聪慧
(74)专利代理 机构 哈尔滨市阳光惠远知识产权
代理有限公司 2321 1
专利代理师 赵艳华
(51)Int.Cl.
G06F 16/34(2019.01)
G06F 16/953(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于主题信息的新闻文本摘要获取方
法、 装置、 获取器和存 储介质
(57)摘要
一种基于主题信息的新闻文本摘要获取方
法、 装置、 获取器和存储介质, 涉及自然语言处理
技术领域。 解决了现有生 成式文本摘要技术在生
成的时候并没有主动地去关注这些潜在的主题
信息, 导致在生成过程中失去部分重要信息的问
题。 所述方法包括: 对新闻文本进行清理, 去除所
述新闻文本中无用的符号和信息; 利用公开语料
库进行主题模型的训练, 获取主题语义矩阵; 根
据获取的主题语义矩 阵结合深度学习神经网络
建立新闻文本的专用生成式摘要模 型, 并利用公
开数据集训练模型, 获取数据集训练模型; 将新
闻文本的清洗步骤中处理的文本输入至数据集
训练模型, 利用主题信息进行指导摘要生成, 获
得摘要结果。 本发明应用于新闻信息处理技术领
域。
权利要求书2页 说明书7页 附图3页
CN 115114428 A
2022.09.27
CN 115114428 A
1.一种基于主题信息的新闻文本摘要获取 方法, 其特 征在于, 所述方法包括:
新闻文本的清洗步骤: 对新闻文本进行清理, 去除所述 新闻文本中无用的符号和信息;
主题语义矩阵获取的步骤: 利用公开语料库进行主题模型的训练, 获取主题语义矩阵;
建立数据集训练模型的步骤: 根据获取的主题语义矩阵结合深度 学习神经网络建立新
闻文本的专用生成式摘要模型, 并利用公开数据集训练模型, 获取 数据集训练模型;
获取摘要的步骤: 将新闻文本的清洗步骤中处理的文本输入至数据集训练模型, 利用
主题信息进行指导摘要生成, 获得文本摘要。
2.根据权利要求1所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述主题语义矩阵获取的步骤 包括:
根据公开的中文语料库进行搜索, 并将所述公开的中文语料库中繁体字替换为简体
字, 获取新的中文语料库;
利用新的中文语料库进行LDA主题模型的训练, 获取主题对应的词分布及主题训练模
型, 所述预设主题数量 为150;
根据主题对应的词分布进行主题词提取, 提取 所述每个主题的前10 0词及其权 重;
将主题对应的词嵌入主题训练模型, 获取主题向量;
利用主题向量进行拼接获取主题语义矩阵。
3.根据权利要求1所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述的数据集训练模型包括:
新闻文本编码器、 解码器、 历史信息覆盖 机制和指针生成机制。
4.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述新闻文本编码器包括:
词嵌入层和一层 双向LSTM 长短期记 忆网络;
所述词嵌入层和一层双向LSTM长短期记忆网络结合注意力机制获得每个时刻的语义
表示向量ct:
所述公开语 料库中的每一个分词经过Embedding层映射, 得到向量Embeddingi, 其中i表
示该句子中的第i个词;
所述向量E mbeddingi输入到一层双向LSTM中, 得到第i个词对应的前向向量
和后向向
量
的语义表示, 将所述前向向量和后向向量拼接在一起获取所述第i个词 在解码时刻为t
时的向量
根据所述向量
获取每个时刻的语义表示向量ct:
权 利 要 求 书 1/2 页
2
CN 115114428 A
2其中, v, Wh, b均表示所述注意力层的可学习参数, st表示t时刻解码器的输出结果,
表示注意力运 算结果,
表示注意力分数, N表示编码器接收的输入长度。
5.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述解码器包括: Embed ding层、 一层单向LSTM和两层全连接层;
所述解码器将前一时刻的到的单词映射为向量yt‑1, 将所述向量yt‑1和前一时刻新 闻文
本语义向量ct‑1拼接得到当前时刻t的输入 xt:
xt=[yt‑1; ct‑1]
将t时刻的输入xt输入到解码器的一层单向LSTM长短期记忆网络中, 得到所述t时刻的
隐向量st; 利用所述隐向量st和ct拼接, 经过两层全连接层获得当前时刻的词分布P(w):
P(w)=Dense1(Dense2([st; ct])),
其中, Dense1为第一层全连接层, Dense2为第二层全连接层;
根据当前时刻的词分布选择概 率最大的词wt作为当前时刻的解码结果。
6.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述历史信息覆盖 机制为:
其中, WH为注意力层中增 加的可训练参数。
7.根据权利要求3所述的一种基于主题信 息的新闻文本摘要获取方法, 其特征在于, 所
述指针生成机制为:
pgen=sigmoid(Ws·st+Wh·ct+Wx·xt+b),
P(w)=pgen·P(w)+(1‑pgen)·Ht,
其中, Ws, Wh, Wx, b均为生成指针 的网络层的可训练参数, P(w)表示当前时刻的词分布,
pgen表示指针生成层得到的指针, 取值范围是[0,1]。
8.一种基于主题信息的新闻文本摘要获取装置, 其特 征在于, 所述装置包括:
新闻文本清洗单 元: 对新闻文本进行清理, 去除所述 新闻文本中无用的符号和信息;
主题语义矩阵获取 单元: 利用公开语料库进行主题模型的训练, 获取主题语义矩阵;
建立数据集训练模型单元: 根据获取的主题语义矩阵结合深度 学习神经网络建立新闻
文本的专用生成式摘要模型, 并利用公开数据集训练模型, 获取 数据集训练模型;
获取摘要单元: 将新闻文本的清洗步骤中处理的文本输入至数据集训练模型, 利用主
题信息进行指导摘要生成, 获得摘要结果。
9.一种基于主题信 息的新闻文本摘要获取器, 其特征在于, 所述获取器包含权利要求8
所述的一种基于主题信息的新闻文本摘要获取装置 。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于储存计算机
程序, 所述计算机程序执行权利要求1 ‑7所述的一种基于主题信息的新闻文本摘要获取方
法。权 利 要 求 书 2/2 页
3
CN 115114428 A
3
专利 一种基于主题信息的新闻文本摘要获取方法、装置、获取器和存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:19上传分享