专利 一种基于Transformer的多轮对话生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210850193.4 (22)申请日 2022.07.20 (71)申请人山东新一代信息产业技术研究院有限公司地址 250013 山东省济南市高新区港兴三路北段未来创业广场3号楼1 1-12层 (72)发明人李晓瑜　冯落落　冯卫森　李沛　 (74)专利代理机构济南泉城专利商标事务所 37218 专利代理师李桂存 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于Transformer的多轮对话生成方法 (57)摘要本发明提供了一种基于Tran sformer的多轮对话生成方法。本方法首先输入一句话，本句上文对话历史，以及涉及到本句的领域文本文档内容；利用Transformer编码器，将上文对话历史与整合的文本文件作为模型的输入；使用 Transformer解码器，对上一步编码器的输出进行解码，生成多轮对话所需的对话回复；将回复输出到系统。本方法发明将涉及到的某一或某些领域整合成一个文本文件，作为模型输入的一部分，与上文对话历史一并进行输入。提高了模型训练的准确性，丰富了对话语义。权利要求书1页说明书2页 CN 115186081 A 2022.10.14 CN 115186081 A 1.一种基于Transformer的多轮对话生成方法，其特征在于，包括以下步骤：步骤1：系统的输入需要回复的对话、对话历史和涉及到本句对话的领域文本文档内容；步骤2：利用Transformer编码器进行编码，将上文对话历史与整合的文本文件作为模型的输入，利用注意力机制，通过训练得到加权，找到词与词之间的关系，得到该句子的向量表示；步骤3：利用Transformer解码器把隐藏层再映射为自然语言序列，解码器将上一步编码器的输出作为输入，生成多轮对话的对话回复；步骤4：进行模型训练，系统输出多轮对话生成的对话。 2.根据权利要求1所述的基于Transformer的多轮对话生成方法，其特征在于，所述 Transformer编码器由N个编码器组成，编码器负责把自然语言序列映射成为隐藏层，使用注意力机制和全连接层计算，每一个编码器有两个子层连接，分别是多头自注意力和前馈层，分别规范化层及残差单元继而层级残差单元。 3.根据权利要求1所述的基于Transformer的多轮对话生成方法，其特征在于，所述 Transformer的训练是并行的，对输入的字同时进行训练。权　利　要　求　书 1/1 页 2 CN 115186081 A 2一种基于 Transformer的多轮对话生成方法技术领域 [0001]本发明涉及一种基于Transformer的多轮对话生成方法，属于自然语言处理技术领域。背景技术 [0002]在自然语言处理领域中，智能对话系统主要分为语音识别、语言理解、对话状态维护、动作候选排序、语言生成、语音合成等几大重要模块。机器生成对话技术还处于初级阶段，整个交互流程大多是用户进行主导，机器被动，即机器的回复无法像人一样进行自我主导的对话交互。为了使得由机器主导对话交互，设置了基于知识图谱的主动聊天任务，机器根据构建的知识图谱进行主动聊天，使得机器具备模拟人类用语言进行信息传递的能力。当前技术存在以下问题： )编码层在进行编码时相互独立，忽略了历史对话序列可以融入以使得对话序列的语义更丰富的可能性；解码层在确定相应对话回复时的过程缺乏深度交互，同时显得过于单薄，可能导致推理不足或信息损失。发明内容 [0003]本发明目的是提供了一种基于Transformer的多轮对话生成方法，提高了模型准确率，丰富了对话的语义。 [0004]本发明为实现上述目的，通过以下技术方案实现：一种基于Transformer的多轮对话生成方法，其特征在于，包括以下步骤：步骤1：系统的输入需要回复的对话、对话历史和涉及到本句对话的领域文本文档内容；步骤2：利用Transformer编码器进行编码，将上文对话历史与整合的文本文件作为模型的输入，利用注意力机制，通过训练得到加权，找到词与词之间的关系，得到该句子的向量表示；步骤3：利用Transformer解码器把隐藏层再映射为自然语言序列，解码器将上一步编码器的输出作为输入，生成多轮对话的对话回复；步骤4：进行模型训练，系统输出多轮对话生成的对话。 [0005]优选的，所述Transformer编码器由N个编码器组成，编码器负责把自然语言序列映射成为隐藏层，使用注意力机制和全连接层计算，每一个编码器有两个子层连接，分别是多头自注意力和前馈层，分别规范化层及残差单元继而层级残差单元。 [0006]优选的，所述 Transformer的训练是并行的，对输入的字同时进行训练。 [0007]本发明的优点在于：本方法发明将涉及到的某一或某些领域整合成一个文本文件，作为模型输入的一部分，与上文对话历史一并进行输入。提高了模型训练的准确性，丰富了对话语义。说　明　书 1/2 页 3 CN 115186081 A 3

专利 一种基于Transformer的多轮对话生成方法

专利一种基于Transformer的多轮对话生成方法