国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210742295.4 (22)申请日 2022.06.28 (71)申请人 西安工业大 学 地址 710021 陕西省西安市未央区学府中 路2号 申请人 中国人民解 放军63768部队 (72)发明人 徐飞 贠曼 刘军 彭佳佳  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/258(2020.01)G06F 40/211(2020.01) G06F 40/194(2020.01) G06F 40/166(2020.01) G06F 40/151(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于TextRank与多维语义特征融合的 自动摘要方法及系统 (57)摘要 本发明公开了一种基于TextRank与多维语 义特征融合的自动摘要 方法及系统, 通过对预处 理后的新闻进行新闻关键词提取、 新闻主题的获 取、 句子的特征信息以及句子的向量表示, 将句 子与主题相似度、 句子与标题相似度、 关键词覆 盖率、 是否含 特征词四种因素作为影 响句子权重 的影响因素, 并将它们和TextRank原分数以一种 优化的组合应用到自动摘要中, 将 TextRank 分数 和句子特征分数相加取平均数得到句子综合分 数, 利用MMR算法计算句子间的相似度来去除冗 余度较高的句子, 最后根据相似度排序按设定个 数取前n个句子作为摘要, 高了原有公式去除冗 余句的效率, 能够准确获取新闻的摘要内容, 大 大提高了新闻内容概况准确性, 从而帮助人们减 少阅读的时间。 权利要求书2页 说明书11页 附图4页 CN 115017300 A 2022.09.06 CN 115017300 A 1.一种基于TextRank与多维语义特征融合的自动摘要方法, 其特征在于, 包括以下步 骤: S1, 对原始新闻除去无用的符号、 空格; S2, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征信息以及句 子的向量表示; S3, 将步骤S2获取的新闻关键词、 新 闻主题、 句子的特征信息以及句子的向量表示转化 成各自的特征分数, 然后将各自的特征分数按比例相加得到句子特征分数; 同时采用 TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将 TextRank分数和句子特 征分数相加取平均数 得到句子综合分数; S4, 利用MMR算法计算句子 间的相似度来去除冗余度较高的句子, 最后根据相似度排序 按设定个数 取前n个句子作为摘要。 2.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 新闻关键词 通过TF‑IDF方法和新闻所属领域的领域词共同得到; 新闻主题的获 取由LDA模 型通过无监督方法训练得到; 句子的特征信息则是判断句中是否含有 特征词; 句 子的向量表示则是通过W ord2vec深度学习的方法训练出词向量, 进 而得到句向量。 3.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 根据词语权重的加权公式在TF ‑IDF算法得到候选 关键词的基础上进 行加权后得 到候选关键词: weight(i,M)=h ×count(i,M) 其中, 表示单词i在文本M中的权重; 表示单词i在文本M出现的频率, 由TF ‑IDF算法计算 得出; h为词性影响因子, 根据名词和动词不同的重要性可分别赋予不同的权 重。 4.根据权利要求3所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 对特定领域建立出一个该领域较为关心的领域词词典, 若文中含有定义的领域 词, 则将该 领域词和上述经 过TF‑IDF算法得 出的候选关键词一 起提出作为本文的关键词。 5.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 采用基于LDA(Latent  Dirichlet  Allocation)主题生成模型来得到文档的主题 分布和句子的主题分布, 其中, 文档的主题分布可直接由LDA生成模型的参数得到, 句子的 主题分布公式如下: 其中, P(Wi|T)表示该主题下词语Wi的分布概率, 由LDA模型参数φ得到; len(S)表示句 子S的长度。 6.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 句子的特 征信息包括关键词: 据报道、 据说、 总而言之、 表明、 因此和显然。 7.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 利用加 和取平的方式的得到句向量, 通过句向量 来表示句子的整体 语义信息: 权 利 要 求 书 1/2 页 2 CN 115017300 A 2其中, 表示句子S的句向量; 表示构成句子 的各个词语的空间向量; n为句子长度; 由 word2vec计算得 出的一个k维的空间向量组成。 8.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 句子关键词覆盖率得分: 其中, weight(j,M)表示得到的候选关键词权重; m表示句子S中含有的候选关键词个 数; n表示句子S中含有的领域词个数; W表示领域词的权 重, 为了平衡候选关键词权 重; 句子与主题相似度得分: Theme(S)=1 ‑JS(P||Q) 通过1‑JS(P||Q), 可以得到若文档主题和句子主题相关性越大, 则句子权重越大的句 子权重计算公式, 且值 域范围依然控制在0 ‑1之间; 句子特征信息得分: 句子与标题相似性得分: 其中, 和表示句 子的句向量; 则表示句 子的相似度; 其中, 和 表示句子Si,Sj的句向 量; Similarity(Si,Sj)则表示句子Si,Sj的相似度。 9.根据权利要求1所述的一种基于TextRank与多维语义特征融合的自动摘要方法, 其 特征在于, 基于 MMR算法提出去除冗余句, 增 加摘要的可读性: MMR(Si)= λ×W(Si)‑(1‑λ )×max[Similarity(Si,D)] 其中, D为已入选的摘要句集 合。 10.一种基于TextRank与多维语义特征融合的自动摘要系统, 其特征在于, 包括预处理 模块, 特征提取模块, 句子打 分模块和摘要提取模块: 预处理模块, 对原 始新闻除去无用的符号、 空格; 特征提取模块, 对预处理后的新闻进行新闻关键词提取、 新闻主题的获取、 句子的特征 信息以及句子的向量表示; 句子打分模块, 将获取的新闻关键词、 新闻主题、 句子的特征信 息以及句子的向量表示 转化成各自的特征分数, 然后将各自的特征分数按比例相加得到句 子特征分数; 同时采用 TextRank方法对句子的向量表示进行巨资建相似度计算, 得到句子的TextRank分数, 将 TextRank分数和句子特 征分数相加取平均数 得到句子综合分数; 摘要提取模块, 计算句子间的相似度来去 除冗余度较高的句子, 最后根据相似度排序 按设定个数 取前n个句子作为摘要输出。权 利 要 求 书 2/2 页 3 CN 115017300 A 3

.PDF文档 专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统 第 1 页 专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统 第 2 页 专利 一种基于TextRank与多维语义特征融合的自动摘要方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。