(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210761983.5
(22)申请日 2022.06.29
(71)申请人 中译语通科技股份有限公司
地址 100000 北京市石景山区石景山路20
号中铁建 设大厦
(72)发明人 李欣杰 宗浩 施艳蕊
(74)专利代理 机构 北京绘聚高科知识产权代理
事务所(普通 合伙) 11832
专利代理师 罗硕
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/45(2020.01)
G06F 40/284(2020.01)
G06F 40/253(2020.01)
G06F 40/237(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于课程化预训练的机器翻译风格的
迁移方法和系统
(57)摘要
本发明公开一种基于课程化预训练的机器
翻译风格的迁移方法和系统, 其中, 基于课程化
预训练的机器翻译风格的迁移方法, 包括: 对平
行语料和单语语料分别进行分词处理, 得到训练
语料; 使用训练语料以及训练语料对应的模型任
务, 对机器翻译模型进行课程化预训练; 使用风
格词汇对齐算法构建伪平行数据, 使用伪平行数
据对课程化训练后的机器翻译模 型进行预训练,
得到最终预训练模型; 对最终预训练模 型进行翻
译风格的微调, 得到翻译风格迁移模型。 本发明
的技术方案能解决现有技术不关注句子的风格
特征, 难以实现文本风格转换的问题。
权利要求书2页 说明书10页 附图5页
CN 115114940 A
2022.09.27
CN 115114940 A
1.一种基于 课程化预训练的机器翻译风格的迁移方法, 其特 征在于, 包括:
对平行语料和单语 语料分别进行分词处 理, 得到训练语料;
使用所述训练语料以及所述训练语料对应的模型任务, 对机器翻译模型进行课程化预
训练;
使用风格词汇对齐算法构建伪平行数据, 使用所述伪平行数据对课程化训练后的所述
机器翻译模型进行 预训练, 得到最终预训练模型;
对所述最终预训练模型进行翻译风格的微调, 得到翻译风格迁移模型。
2.根据权利要求1所述的机器翻译风格的迁移方法, 其特征在于, 所述对平行语料和单
语语料分别进行分词处 理的步骤, 包括:
使用分词工具分别对所述平行语料和单语 语料进行分词处 理;
使用字节对编码BPE工具对分词后的所述平行语料和单语语料进行子词切分处理, 得
到切分后的所述训练语料;
使用词频对所述训练语料进行解析, 分别得到源端和目标端的词表。
3.根据权利要求1所述的机器翻译风格的迁移方法, 其特征在于, 所述使用训练语料以
及所述训练语料对应的模型任务, 对机器翻译模型进行课程 化预训练的步骤, 包括:
以重构噪音文本为训练目标, 使用目标风格单语数据和掩码语言模型任务对所述机器
翻译模型进行 预训练, 得到第一预训练模型;
使用文本风格迁移数据和风格迁移语言模型任务对所述第 一预训练模型进行预训练,
得到第二预训练模型;
以预测完整目标句为训练目标, 使用翻译平行数据和句级别掩码语言模型任务对所述
第二预训练模型进行 预训练, 得到第三预训练模型;
使用翻译平行数据和风格词汇掩码语言模型任务对所述第 三预训练模型进行预训练,
得到第四预训练模型。
4.根据权利要求3所述的机器翻译风格的迁移方法, 其特征在于, 所述以重构噪音文本
为训练目标, 使用目标风格单语数据和掩码 语言模型任务对所述机器翻译模型进 行预训练
的步骤, 包括:
在包含目标风格单语数据的目标风格文本中加入噪音, 得到目标噪音 文本;
将所述目标噪音 文本输入所述机器翻译模型的编码器, 得到语义表示向量;
按照重构损 失函数, 使用所述机器翻译模型的解码器对所述语义表示向量进行解码,
得到原始的目标风格文本 。
5.根据权利要求3所述的机器翻译风格的迁移方法, 其特征在于, 所述使用翻译平行数
据和句级别掩码语言模型任务对所述第二预训练模型进行 预训练的步骤, 包括:
在所述翻译平行 数据中加入噪音, 得到翻译噪音 文本;
将所述翻译噪音 文本输入至所述第二预训练模型的编码器;
按照预设损失函数, 使用所述第二预训练模型的解码器预测得到 完整目标句。
6.根据权利要求3所述的机器翻译风格的迁移方法, 其特征在于, 所述使用风格词汇对
齐算法构建伪平行 数据的步骤, 包括:
使用所述文本风格迁移数据训练风格分类模型, 使用所述风格分类模型选取得到风格
词汇;权 利 要 求 书 1/2 页
2
CN 115114940 A
2使用源端 ‑目标端对齐字典对所述风格词汇进行筛选, 得到源风格词 ‑目标风格词对齐
字典;
使用所述源风格词 ‑目标风格词对齐字典匹配和替换所述翻译平行数据的目标句中的
词汇, 得到所述伪平行 数据。
7.根据权利要求6所述的机器翻译风格的迁移方法, 其特征在于, 所述使用伪平行数据
对课程化训练后的所述机器翻译模型进行 预训练的步骤, 包括:
使用所述伪平行数据和所述风格词汇掩码语言模型任务训练所述第四预训练模型, 得
到所述最终预训练模型。
8.根据权利要求1所述的机器翻译风格的迁移方法, 其特征在于, 所述对最终预训练模
型进行翻译风格的微调的步骤, 包括:
获取翻译风格迁移 平行数据;
使用所述翻译风格迁移平行数据输入至所述最终预训练模型, 微调所述最终预训练模
型的翻译风格, 得到所述翻译风格迁移模型。
9.一种基于 课程化预训练的机器翻译风格的迁移系统, 其特 征在于, 包括:
分词处理模块, 用于对平行语料和单语 语料分别进行分词处 理, 得到训练语料;
课程预训练模块, 用于使用所述训练语料以及所述训练语料对应的模型任务, 对机器
翻译模型进行课程 化预训练;
伪平行数据训练模块, 用于使用风格词汇对齐算法构建伪平行数据, 使用所述伪平行
数据对课程 化训练后的所述机器翻译模型进行 预训练, 得到最终预训练模型;
风格微调模块, 用于对所述最终预训练模型进行翻译风格的微调, 得到翻译风格迁移
模型。
10.根据权利要求9所述的机器翻译风格的迁移系统, 其特征在于, 所述课程预训练模
块包括:
目标风格预训练模块, 用于以重构噪音文本为训练目标, 使用目标风格单语数据和掩
码语言模型任务对所述机器翻译模型进行 预训练, 得到第一预训练模型;
文本风格预训练模块, 用于使用文本风格迁移数据和风格迁移语言模型任务对所述第
一预训练模型进行 预训练, 得到第二预训练模型;
翻译数据预训练模块, 用于以预测完整目标句为训练目标, 使用翻译平行数据和句级
别掩码语言模型任务对所述第二预训练模型进行 预训练, 得到第三预训练模型;
翻译风格预训练模块, 用于使用翻译平行数据和风格词汇掩码语言模型任务对所述第
三预训练模型进行 预训练, 得到第四预训练模型。权 利 要 求 书 2/2 页
3
CN 115114940 A
3
专利 一种基于课程化预训练的机器翻译风格的迁移方法和系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:08:39上传分享