专利 一种基于Seq2Seq模型的降低文本摘要参数量方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210811645.8 (22)申请日 2022.07.11 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人孙靖哲　许文波　贾海涛　张博阳　李家伟　高源　 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于Seq2Seq模型的降低文本摘要参数量方法 (57)摘要本发明公开了一种优化Seq2Seq模型的降低文本摘要参数量的方法。首先通过遍历训练集内容，和BERT原生词典取交集，并根据数据集情况选定合适的阈值，将低频词过滤，降低词表数量，降低分类数量；其次通过共享BART模型中 Encoder和Decoder 部分的词嵌入层的参数，进一步降低参数量。使用B ART模型，使得Encoder在理解原文时，可以结合上下文的语义信息，语义理解效果更好；在生成摘要时， Decoder通过Mask机制单向生成，符合文本续写的逻辑。权利要求书1页说明书5页附图3页 CN 115186090 A 2022.10.14 CN 115186090 A 1.一种基于Seq2Seq模型的降低文本摘要参数量方法，其特征在于，具体包括如下步骤：步骤1，使用微博摘要数据集，基于BART预训练模型，进行数据清洗，划分训练集和测试集。步骤2，遍历训练集文本数据，根据训练集文本数据，和BERT原生词典，建立新的词典。步骤3，根据新词典，建立新的分词器。步骤4，使用新的分词器，结合Encoder中的n n.Embedding()，构建新的词嵌入向量。步骤5，将BART模型中的Encoder和Decoder中的词嵌入层，进行参数共享。步骤6，将训练集喂入缩减词表的参数共享后的BART模型，进行微调，即Fi ne‑Tuning。步骤7，使用测试集，进行文本摘要的预测。 2.如权利要求1所述方法，其特征在于，步骤1中，涉及到的数据清洗主要包括去除空格、去除表情符号、繁体中文和简体中文的转换、中英文标点符号的转换、将每条数据写成统一的格式。 3.如权利要求1所述方法，其特征在于，步骤2中，建立新词典的操作流程大致为：首先，读取BERT词典，按照先后顺序编号，存储为dict格式。其次，读取训练集数据，以 “字”为单位，进行遍历和词频统计，构建另一个dict字典。再次，设置一个最小词频的阈值，对低频词进行过滤。最后，对训练集的词典进行遍历，若该字在BERT原生词典中出现过，则添加到新词典中。 4.如权利要求1所述方法，其特征在于，步骤5中提及的参数共享，主要通过Tensorflow 中的tf.get_variable、 tf.variable_scope()和reuse_variables()来实现。权　利　要　求　书 1/1 页 2 CN 115186090 A 2一种基于Seq2Seq模型的降低文本摘要参数量方法技术领域 [0001]本发明涉及摘要自动生成领域，具体而言，涉及一种基于NLP技术的中文摘要自动生成方法及系统。背景技术 [0002]文本摘要是指通过各种技术，对文本或者是文本的集合，抽取、总结或是精炼其中的要点信息，用以概括和展示原始文本的主要内容或大意。因为文本摘要技术，尤其是生成式文本摘要，涉及到很深层次的自然语言处理(自然语言理解、自然语言生成等)的能力，所以一直以来它都是自然语言技术的一个研究难点。目前常用的文本摘要技术，主要可以分为两类：抽取式文本摘要和生成式文本摘要。抽取式文本摘要，顾名思义，就是从文档或者文档集中抽取其中的一句或者几句话，构成摘要。通过对文档中句子的得分进行计算，得分代表重要性程度，得分越高代表句子越重要，然后通过依次选取得分高的若干个句子组成摘要，摘要的长度取决于压缩率。这种方案的好处在于简单实用，不会完全脱离于文档本身。尽管有其优点，但也可能有着生成摘要不连贯、字数不好控制、目标句主旨不明确等缺点，甚至可以说，其摘要好坏决定于原文。而生成式文本摘要就没有这样的问题，生成式摘要方法不是单纯地利用原文档中的单词或短语组成摘要，而是从原文档中获取主要思想后以不同的表达方式将其表达出来。生成式摘要方法为了传达原文档的主要观点，可以重复使用原文档中的短语和语句，但总体上来说，摘要需要用作者自己的话来概括表达。生成式摘要方法需要利用自然语言理解技术对原文档进行语法语义的分析，然后对信息进行融合，通过自然语言生成的技术生成新的文本摘要。发明内容 [0003]本发明的主要目的在于提供一种优化Seq2Se q模型的降低文本摘要参数量方法，以降低基于Seq2Seq模型的生成式摘要的参数量。 [0004]为了实现上述目的，根据本发明的一个方面，提供了一种优化Seq2Seq模型的降低文本摘要参数量方法，包括如下步骤： [0005]步骤1，使用微博摘要数据集，基于BART预训练模型，进行数据清洗，划分训练集和测试集。 [0006]步骤2，遍历训练集文本数据，根据训练集文本数据，和BERT原生词典，建立新的词典。 [0007]步骤3，根据新词典，建立新的分词器。 [0008]步骤4，使用新的分词器，结合Encoder中的nn.Embedding()，构建新的词嵌入向量。 [0009]步骤5，将BART模型中的Encoder和Decoder中的词嵌入层，进行参数共享。 [0010]步骤6，将训练集喂入缩减词表的参数共享后的BART模型，进行微调，即 Fine‑ Tuning。说　明　书 1/5 页 3 CN 115186090 A 3

专利 一种基于Seq2Seq模型的降低文本摘要参数量方法

专利一种基于Seq2Seq模型的降低文本摘要参数量方法