国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210744348.6 (22)申请日 2022.06.28 (71)申请人 中国人民解 放军63768部队 地址 710699 陕西省西安市临潼区书院东 路12号 申请人 西安工业大 学 (72)发明人 刘军 徐飞 彭佳佳 陈芾珩  贠曼  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 17/16(2006.01) (54)发明名称 一种新闻自动摘要方法及系统 (57)摘要 本发明公开了一种新闻自动摘要方法及系 统, 基于MF ‑TextRank算法生成自动文本摘要模 型为抽取式摘要, 引入Word2vec模型进行文本语 义表示, 解决了矩阵稀疏和维数爆炸的问题, 同 时提高了语义表达程度; 计算句子与标题的相似 度, 根据IF ‑IDF算法获得新闻关键词, 计算句子 中心性; 结合标题特征, 中心性特征以及句间相 似度, 通过实验调整权重因子, 迭代计算直至收 敛, 选取句子节点权重靠前的进行新闻摘要抽 取; 本文给出的方法更好的挖掘文本信息, 不遗 漏关键信息, 充分利用领域信息, 得到一个面向 领域的冗余度低、 可读性较高的新闻摘要。 权利要求书2页 说明书9页 附图3页 CN 114996444 A 2022.09.02 CN 114996444 A 1.一种新闻自动摘要方法, 其特 征在于, 包括以下步骤: S1, 对新闻文本进行 预处理, 首先进行分句处 理, 根据分句结果进行分词, 去停用词; S2, 计算分词处 理后的新闻文本中句子与标题的相似度; S3, 利用IF ‑IDF模型获取新 闻文本中的关键词, 通过爬取新 闻相关领域词, 构 建领域词 典, 结合关键词和领域词计算句子中心性; S4, 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度; S5, 根据句子与标题 的相似度、 句子中心性和句子间的相似度迭代计算调整后的句子 相似度矩阵直至收敛, 根据句子权重大小进 行排序, 得到相应的句子排序, 选取句子权重排 序靠前的句子作为 最终摘要。 2.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 按照标点符号进行分句 处理, 对分句处 理后小于七个字的短句进行删除。 3.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 对标题进行分词并去停 用词, 然后对标题中的关键词赋权重, 根据关键词权重计算句子权重, 作为句子与标题的相 似度: 4.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 句子的中心性得分计算 公式如下: 其中Wc,k表示新闻中第k个句子的重要性得分, kw=ks∩kos, KW=ks∪kos, ks表示第k 个句子中包含的关键词, kos表示除第k个句子外, 其他句子中包含的关键词, w表示关键词 词的权重。 5.根据权利要求 4所述的一种新闻自动摘要方法, 其特 征在于, 领域词的权 重为0.5。 6.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 通过词向量将单词转换 为1*100维的向量, 所有词向量相加求平均值, 则句子可以表示 为: 其中si表示新闻中的第i个句子, w ′i表示senti中的第i个单词的词向量, 则两句子相似 度的计算公式表示 为: 其中, cos(si,sj)为句子si, sj的相似度, n为词向量的维数; sik为si向量第k维的值, sjk权 利 要 求 书 1/2 页 2 CN 114996444 A 2为sj向量第k维的值。 7.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 综合考虑各部分权重影 响因子, 构建句子 权重计算公式: WT= λtWt+λcWc+λfWf 其中λ为影响各部分权 重的影响因子, Wf为句间相似度, WT为最终的句子 权重。 8.根据权利要求7所述的一种新闻自动摘要方法, 其特征在于, λ是根据实验分析调优 后的加权系数, 取值范围为0~1, 且 λt+λc+λf=1。 9.根据权利要求8所述的一种新闻自动摘要方法, 其特征在于, λt=0.2, λc=0.1, λf= 0.7。 10.一种新闻自动摘要系统, 其特征在于, 包括预处理模块, 特征计算模块和摘要生成 模块: 预处理模块用于对新闻文本进行预处理, 首先进行分句处理, 根据分句结果进行分词, 去停用词; 特征计算模块用于计算分词处理后的新 闻文本中句子与标题的相似度; 利用IF ‑IDF模 型获取新闻文本中的关键词, 通过爬取新闻相关领域词, 构建领域词典, 结合关键词和领域 词计算句子中心性; 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度; 摘要生成模块用于根据句子与 标题的相似度、 句子 中心性和句子间的相似度迭代计算 调整后的句子相似度 矩阵直至收敛, 根据句子权重大小进行排序, 得到相应的句子排序, 选 取句子权重排序靠前的句子作为 最终摘要。权 利 要 求 书 2/2 页 3 CN 114996444 A 3

.PDF文档 专利 一种新闻自动摘要方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种新闻自动摘要方法及系统 第 1 页 专利 一种新闻自动摘要方法及系统 第 2 页 专利 一种新闻自动摘要方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。