国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210811645.8 (22)申请日 2022.07.11 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 孙靖哲 许文波 贾海涛 张博阳 李家伟 高源 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Seq2Seq模型的降低文本摘要 参数 量方法 (57)摘要 本发明公开了一种优化Seq2Seq模 型的降低 文本摘要参数量的方法。 首先通过遍历训练集内 容, 和BERT原生词典取交集, 并根据数据集情况 选定合适的阈值, 将低频词过滤, 降低词表数量, 降低分类数量; 其次通过共享BART模型中 Encoder和Decoder 部分的词嵌入层的参数, 进一 步降低参数量。 使用B ART模型, 使得Encoder在理 解原文时, 可 以结合上下文的语义信息, 语义理 解效果更好; 在生成摘要时, Decoder通过Mask机 制单向生成, 符合文本续写的逻辑。 权利要求书1页 说明书5页 附图3页 CN 115186090 A 2022.10.14 CN 115186090 A 1.一种基于Seq2Seq模型的降低文本摘要参数量方法, 其特征在于, 具体包括如下步 骤: 步骤1, 使用微博摘 要数据集, 基于BART预训练模型, 进行数据清洗, 划分训练集和测试 集。 步骤2, 遍历训练集文本数据, 根据训练集文本数据, 和BERT原生词典, 建立 新的词典。 步骤3, 根据新词典, 建立 新的分词器。 步骤4, 使用新的分词器, 结合Encoder中的n n.Embedding(), 构建新的词嵌入向量。 步骤5, 将BART模型中的Encoder和Decoder中的词嵌入层, 进行参数共享。 步骤6, 将训练集喂入 缩减词表的参数共享后的BART模型, 进行微调, 即Fi ne‑Tuning。 步骤7, 使用测试集, 进行文本摘要的预测。 2.如权利要求1所述方法, 其特征在于, 步骤1中, 涉及到的数据清洗主要包括去除空 格、 去除表情符号、 繁体中文和简体中文的转换、 中英文标点符号的转换、 将每条数据写成 统一的格式。 3.如权利要求1所述方法, 其特 征在于, 步骤2中, 建立 新词典的操作流 程大致为: 首先, 读取BERT词典, 按照先后顺序编号, 存 储为dict格式。 其次, 读取训练集数据, 以 “字”为单位, 进行遍历和词频统计, 构建另一个dict字典。 再次, 设置一个最小词频的阈值, 对低频词进行 过滤。 最后, 对训练集的词典进行遍历, 若该字在BERT原生词典中出现过, 则添加到新词典 中。 4.如权利 要求1所述方法, 其特征在于, 步骤5中提及的参数共享, 主要通过Tensorflow 中的tf.get_variable、 tf.variable_scope()和reuse_variables()来实现。权 利 要 求 书 1/1 页 2 CN 115186090 A 2一种基于Seq2Seq模型的降低文本摘要参数量方 法 技术领域 [0001]本发明涉及摘要 自动生成领域, 具体而言, 涉及一种基于NLP技术的中文摘 要自 动生成方法及系统。 背景技术 [0002]文本摘要是指通过各种技术, 对文本或者是文本的集合, 抽取、 总结或是精 炼其 中的要点信息, 用以概括和展示原始文本的主要内容或大意。 因为文本摘要 技术, 尤其是 生成式文本摘要, 涉及到很深层次的自然语 言处理(自然语言理解、 自然语言生成等)的能 力, 所以一直以来它都是自然语言技术的一个研究难点。 目前常用的文本摘要技术, 主要 可以分为两类: 抽取式文本摘要和生成 式文本摘 要。 抽取式文本摘要, 顾名思义, 就是从文 档或者文档集中抽取其中的一句或者 几句话, 构成摘要。 通过对文档中句子的得分进行计 算, 得分代表重要性程度, 得分越高代表句子越重要, 然后通过依次选取得分高的若干个 句子组成摘要, 摘 要的长度取决于压缩率。 这种 方案的好处在于简单实用, 不会完全脱离 于文档本 身。 尽管有其优点, 但也可能有着生成摘要不连贯、 字数不好控制、 目标句主旨 不明确等缺点, 甚至可以说, 其摘要好坏决定于原文。 而生成式文本摘要就没有 这样的问 题, 生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要, 而是从原文档中获 取主要思想后以不同的表达方式将其表达出来。 生成式摘要方 法为了传达原文档的主要 观点, 可以重复使用原文档中的短语和 语句, 但总体上 来说, 摘要需要用作者自己的话来 概括表达。 生成 式摘要方法需要利用自然语言 理解技术对原文档进 行语法语义的分析, 然 后对信息进行融合, 通过自然语言生 成的技术生成新的文本摘要。 发明内容 [0003]本发明的主要目的在于提供一种优化Seq2Se q模型的降低文本摘要参数量方 法, 以降低基于Seq2Seq模型的生成式摘要的参数量。 [0004]为了实现上述目的, 根据本发明的一个方面, 提供了一种优化Seq2Seq模型 的降 低文本摘要参数量方法, 包括如下步骤: [0005]步骤1, 使用微博摘要数据集, 基于BART预训练模型, 进行数据清洗, 划 分训练集 和测试集。 [0006]步骤2, 遍历训练集文本数据, 根据训练集文本数据, 和BERT原生词典, 建立新的 词典。 [0007]步骤3, 根据新词典, 建立 新的分词器。 [0008]步骤4, 使用新的分词器, 结合Encoder中的nn.Embedding(), 构 建新的词嵌 入向 量。 [0009]步骤5, 将BART模型中的Encoder和Decoder中的词嵌入层, 进行参数共 享。 [0010]步骤6, 将训练集喂入缩减词表的参数共享后的BART模型, 进行微调, 即 Fine‑ Tuning。说 明 书 1/5 页 3 CN 115186090 A 3
专利 一种基于Seq2Seq模型的降低文本摘要参数量方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:13
上传分享
举报
下载
原文档
(413.2 KB)
分享
友情链接
T-WEEA 007—2022 手摇式升降课桌椅.pdf
T-CFA 03110315—2020 铸件热处理单元数字化技术要求.pdf
美创 数据安全全流程审计和溯源技术的应用.pdf
数据产品交易标准化白皮书.pdf
GB-T 34336-2017 纳米孔气凝胶复合绝热制品.pdf
GB-T 16296.1-2018 声学 测听方法 第1部分:纯音气导和骨导测听法.pdf
T-CIE 070—2020 工业级高可靠集成电路评价 第4部分: 非易失性存储器.pdf
GB-T 36341.1-2018 信息技术 形状建模信息表示 第1部分:框架和基本组件.pdf
T-CESA 1180—2021 政务APP技术指标评价规范.pdf
DB22-T 3222-2021 医药企业安全生产标准化等级划分与评定 吉林省.pdf
逐浪大模型:互联网巨头的AI野望.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
T-GRM 001—2019 绿色矿山第三方评估工作作业规范.pdf
GB-T 36137-2018 中空纤维超滤膜和微滤膜组件完整性检验方法.pdf
GB-T 3161-2015 光学经纬仪.pdf
GB-T 22026-2008 气雾剂级丙烷 A-108.pdf
GB-T 5231-2022 加工铜及铜合金牌号和化学成分.pdf
GA-T 1996-2022 警用天通卫星移动终端及应用设备技术要求和测试方法.pdf
DB50-T 959-2019 营运高速公路施工管理规范 重庆市.pdf
DB37-T 3304-2018 信息安全技术 云计算运维安全管理规范 山东省.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(413.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。