国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210744348.6 (22)申请日 2022.06.28 (71)申请人 中国人民解 放军63768部队 地址 710699 陕西省西安市临潼区书院东 路12号 申请人 西安工业大 学 (72)发明人 刘军 徐飞 彭佳佳 陈芾珩 贠曼 (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06F 16/34(2019.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 17/16(2006.01) (54)发明名称 一种新闻自动摘要方法及系统 (57)摘要 本发明公开了一种新闻自动摘要方法及系 统, 基于MF ‑TextRank算法生成自动文本摘要模 型为抽取式摘要, 引入Word2vec模型进行文本语 义表示, 解决了矩阵稀疏和维数爆炸的问题, 同 时提高了语义表达程度; 计算句子与标题的相似 度, 根据IF ‑IDF算法获得新闻关键词, 计算句子 中心性; 结合标题特征, 中心性特征以及句间相 似度, 通过实验调整权重因子, 迭代计算直至收 敛, 选取句子节点权重靠前的进行新闻摘要抽 取; 本文给出的方法更好的挖掘文本信息, 不遗 漏关键信息, 充分利用领域信息, 得到一个面向 领域的冗余度低、 可读性较高的新闻摘要。 权利要求书2页 说明书9页 附图3页 CN 114996444 A 2022.09.02 CN 114996444 A 1.一种新闻自动摘要方法, 其特 征在于, 包括以下步骤: S1, 对新闻文本进行 预处理, 首先进行分句处 理, 根据分句结果进行分词, 去停用词; S2, 计算分词处 理后的新闻文本中句子与标题的相似度; S3, 利用IF ‑IDF模型获取新 闻文本中的关键词, 通过爬取新 闻相关领域词, 构 建领域词 典, 结合关键词和领域词计算句子中心性; S4, 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度; S5, 根据句子与标题 的相似度、 句子中心性和句子间的相似度迭代计算调整后的句子 相似度矩阵直至收敛, 根据句子权重大小进 行排序, 得到相应的句子排序, 选取句子权重排 序靠前的句子作为 最终摘要。 2.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 按照标点符号进行分句 处理, 对分句处 理后小于七个字的短句进行删除。 3.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 对标题进行分词并去停 用词, 然后对标题中的关键词赋权重, 根据关键词权重计算句子权重, 作为句子与标题的相 似度: 4.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 句子的中心性得分计算 公式如下: 其中Wc,k表示新闻中第k个句子的重要性得分, kw=ks∩kos, KW=ks∪kos, ks表示第k 个句子中包含的关键词, kos表示除第k个句子外, 其他句子中包含的关键词, w表示关键词 词的权重。 5.根据权利要求 4所述的一种新闻自动摘要方法, 其特 征在于, 领域词的权 重为0.5。 6.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 通过词向量将单词转换 为1*100维的向量, 所有词向量相加求平均值, 则句子可以表示 为: 其中si表示新闻中的第i个句子, w ′i表示senti中的第i个单词的词向量, 则两句子相似 度的计算公式表示 为: 其中, cos(si,sj)为句子si, sj的相似度, n为词向量的维数; sik为si向量第k维的值, sjk权 利 要 求 书 1/2 页 2 CN 114996444 A 2为sj向量第k维的值。 7.根据权利要求1所述的一种新闻自动摘要方法, 其特征在于, 综合考虑各部分权重影 响因子, 构建句子 权重计算公式: WT= λtWt+λcWc+λfWf 其中λ为影响各部分权 重的影响因子, Wf为句间相似度, WT为最终的句子 权重。 8.根据权利要求7所述的一种新闻自动摘要方法, 其特征在于, λ是根据实验分析调优 后的加权系数, 取值范围为0~1, 且 λt+λc+λf=1。 9.根据权利要求8所述的一种新闻自动摘要方法, 其特征在于, λt=0.2, λc=0.1, λf= 0.7。 10.一种新闻自动摘要系统, 其特征在于, 包括预处理模块, 特征计算模块和摘要生成 模块: 预处理模块用于对新闻文本进行预处理, 首先进行分句处理, 根据分句结果进行分词, 去停用词; 特征计算模块用于计算分词处理后的新 闻文本中句子与标题的相似度; 利用IF ‑IDF模 型获取新闻文本中的关键词, 通过爬取新闻相关领域词, 构建领域词典, 结合关键词和领域 词计算句子中心性; 将文本预处 理后的句子进行 特征向量表示, 计算句子间的相似度; 摘要生成模块用于根据句子与 标题的相似度、 句子 中心性和句子间的相似度迭代计算 调整后的句子相似度 矩阵直至收敛, 根据句子权重大小进行排序, 得到相应的句子排序, 选 取句子权重排序靠前的句子作为 最终摘要。权 利 要 求 书 2/2 页 3 CN 114996444 A 3
专利 一种新闻自动摘要方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:09:24
上传分享
举报
下载
原文档
(649.9 KB)
分享
友情链接
GB-T 28454-2020 信息技术 安全技术 入侵检测和防御系统(IDPS)的选择、部署和操作.pdf
ISO 17115 2020 Health informatics — Representation of categorial structures of terminology.pdf
MT-T 635-2020 矿井巷道通风摩擦阻力系数测定方法.pdf
GB-T 43624-2023 湿地术语.pdf
GB-T 39779-2021 分布式冷热电能源系统设计导则.pdf
GB-T 19515-2023 道路车辆 可再利用率和可回收利用率 要求及计算方法.pdf
GB-T 3782-2016 乙炔炭黑.pdf
GB-T 22653-2008 液化气体设备用紧急切断阀.pdf
信通院 量子信息技术发展与应用研究报告.pdf
GB-T 42381.8-2023 数据质量 第8部分:信息和数据质量:概念和测量.pdf
DB50-T 959-2019 营运高速公路施工管理规范 重庆市.pdf
DB11-T 585-2020 组织机构、职务职称英文译写通则 北京市.pdf
GB-T 33133.3-2021 信息安全技术 祖冲之序列密码算法 第3部分:完整性算法.pdf
GB-T 20279-2015 信息安全技术 网络和终端隔离产权安全技术要求.pdf
GB-T 12962-2015 硅单晶.pdf
T-CSTM 00411—2021 化学试剂 苯甲醇.pdf
专利 一种变压器散热器集流管的焊接装置.PDF
GB-T 22082-2017 预制混凝土衬砌管片.pdf
cnnic 2012年中国网络购物市场研究报告.pdf
T-SZUAVIA 009.8—2019 多旋翼无人机系统实验室环境试验方法 第 8 部分:振动试验.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(649.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。