国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210810578.8 (22)申请日 2022.07.11 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 许文波 孙靖哲 赫熙煦 李建  刘博文 胡佳丽  (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 16/215(2019.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种基于核采样的摘要自动生成方法 (57)摘要 本发明公开了一种基于核采样的摘要自动 生成方法, 使用UniLM模型, 使得在理解原文时可 以结合上下文的语义信息, 语义理解效果更好; 在生成摘要时, 通过Mask机制单向生成, 符合文 本续写的逻辑; 且UniLM模型通过多任务进行预 训练, 拥有更强的泛化能力。 在UniLM进行解码 时, 采用核采样函数, 根据核采样函数构造Mask 矩阵, 使得待生成的词语在 有限的范围内随机采 样生成, 主要解决生成式摘要 生成重复文本的问 题。 权利要求书2页 说明书5页 附图3页 CN 115186089 A 2022.10.14 CN 115186089 A 1.一种基于核采样的摘要自动生成方法, 其特 征在于, 具体包括如下步骤: 步骤1, 使用微博摘要数据集, 基于UniLM预训练模型, 进行数据清洗, 划分训练集和测 试; 步骤2, 构造适用于Seq2Seq的Mask矩阵; 步骤3, 对Un iLM语言模型的参数微调, 即Fi ne‑Tuning; 步骤4, 核采样解码: a)根据输入的阈值p, 和温度的参数t, 构造核采样函数; b)根据核采样函数, 构造核采样Mask矩阵; c)根据Mask矩阵, 将Token的概率从大到小排序, 逐个累加, 直到概率累加和大于阈值 p, 停止累加, 形成候选To ken的集合; d)从Token的集合中, 随机采样, 得到预测的To ken; 步骤5, 对于生成摘要需要预测的摘要部分, 以每个Token为单位, 循环核采样解码, 形 成摘要生成模型; 步骤6, 将数据清洗后的测试集输入摘要生成模型, 获得摘要结果。 2.如权利要求1所述方法, 其特 征在于, 步骤2的具体Mask矩阵如下: Mask矩阵为一个下三角Mask矩阵和Mask矩阵进行拼接, 得到的梯形的Mask矩阵, 它可 以在不改变BERT基本架构的条件下, 仅通过一个Mask机制, 让BERT拥有阅读理解能力的同 时, 拥有生成能力。 且与GPT类单纯的生 成模型不同, 它能够使模型在阅读原文时, 同时看到 上下文的双向信息, 比GPT拥有更强的理解和归纳能力; 而在生成摘要时, 从前向后单向地 生成, 不破坏生成的基本 逻辑。 3.如权利要求1所述方法, 其特 征在于, 步骤4具体为: 给定一个分布P(x∣x1:i‑1), 我们把它的Top ‑p的词汇表 定义为最小的集合, 它 满足 即“占据了概率质量的绝大部分 ”的最小的子集, 称它为 Nucleus。 接下来核采样方法(Nucleus  Sampling)会从概率最高的词开始选取, 令 将初始的条件概 率分布rescale为 新的分布: 具体resalce的方法为, 通过温度采样来重新塑造一个概 率分布, 公式如下: 设置t∈[0,1), 使得分布向高概率事件倾斜, 也隐含 降低了尾部分布的比重 。 4.如权利要求1所述方法, 其特 征在于, 步骤5具体为: 例如有一条文本数据为 “[CLS]+原文+[SEP]+中国女排夺冠了+[SEP] ”, 在循环预测的 过程中, 每次输入 模型Decoder部分的数据, 模型收到的输入输出如下: 第一次: 输入: “原文+[SEP]”, 输出“原文+[SEP]+中”; 第二次: 输入: “原文+[SEP]+中”, 输出“原文+[SEP]+中国 ”; 第三次: 输入: “原文+[SEP]+中国 ”, 输出“原文+[SEP]+中国女 ”。 以此类推。权 利 要 求 书 1/2 页 2 CN 115186089 A 2此操作步骤, 并非通过不断调整输入输出来实现, 而是将 “[CLS]+原文+[SEP]+中国女 排夺冠了+[SEP] ”整条数据输入模型, 模型通过前文介绍的Seq2Seq的Mask机制来自动实 现。权 利 要 求 书 2/2 页 3 CN 115186089 A 3

.PDF文档 专利 一种基于核采样的摘要自动生成方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于核采样的摘要自动生成方法 第 1 页 专利 一种基于核采样的摘要自动生成方法 第 2 页 专利 一种基于核采样的摘要自动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。