国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210694688.2 (22)申请日 2022.06.20 (71)申请人 中央民族大 学 地址 100089 北京市海淀区中关村南大街 27号 (72)发明人 超木日力格 董书敏 翁彧 刘征 李乙萌 许瑞洋 张瑜 (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 刘芳 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 16/953(2019.01) (54)发明名称 一种基于相似度的多语可比语料库构建方 法及系统 (57)摘要 本发明公开了一种基于相似度的多语可比 语料库构建方法及系统, 涉及语料库构建领域, 所述方法, 包括: 获取汉语语料文档、 维语语料文 档和藏语语料文档; 将维语语料文档、 藏语语料 文档翻译成汉语语料, 得到维语翻译汉语语料文 档和藏语翻译汉语语料文档; 对汉语语料文档、 维语翻译汉语语料文档和藏语翻译汉语语料文 档中的各则语料进行语义 嵌入处理, 得到三个对 应的语义 嵌入词向量组; 根据三个语义嵌入词向 量组计算第一相似度、 第二相似度和第三相似 度; 根据第一相似度、 第二相似度、 第三相似度和 设定相似度阈值确定多语可比语料库。 本发明能 实现汉‑维‑藏可比语料库的构建。 权利要求书3页 说明书14页 附图3页 CN 115130482 A 2022.09.30 CN 115130482 A 1.一种基于相似度的多语可比语料库构建方法, 其特 征在于, 包括: 获取汉语 语料文档、 维语 语料文档和藏语 语料文档; 将所述维语语料文档中各则维语语料翻译成汉语语料文本, 得到维语翻译汉语语料文 档, 将所述藏语语料文档中各则藏语语料翻译成汉语语料文本, 得到藏语翻译汉语语料文 档; 对所述汉语语料文档、 所述维语翻译汉语语料文档和所述藏语翻译汉语语料文档中的 各则语料进行语义嵌入处理, 得到汉语语料语义嵌入词向量组、 维语翻译汉语语料语义嵌 入词向量组和藏语翻译 汉语语料语义嵌入词向量组; 根据所述汉语语料语义嵌入词向量组、 所述维语翻译汉语语料语义嵌入词向量组和所 述藏语翻译汉语语料语义嵌入词向量组, 计算第一相似度、 第二相似度和 第三相似度; 所述 第一相似度为所述汉语语料文档中各则汉语语料与所述维语语料文档中各则维语语料的 相似度; 所述第二相似度为所述汉语语料文档中各则汉语语料与所述藏语语料文档中各则 藏语语料的相似度; 所述第三相似度为所述 维语语料文档中各则维语语料与所述藏语语料 文档中各则藏语 语料的相似度; 根据所述第一相似度、 所述第二相似度、 所述第三相似度和设定相似度阈值确定多语 可比语料库。 2.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法, 其特征在于, 所 述获取汉语 语料文档、 维语 语料文档和藏语 语料文档, 具体包括: 采用数据抓取爬虫 软件对设定新闻网站进行搜索, 得到网页信息; 对所述网页信息进行HTML 解析, 抽取新闻标题、 新闻 内容和新闻时间, 生成初始语料; 对所述初始语料进行 预处理, 得到汉语 语料文档、 维语 语料文档和藏语 语料文档。 3.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法, 其特征在于, 所 述将所述维语语料文档中各则维语语料翻译成汉语语料文本, 得到维语翻译汉语语料文 档, 将所述藏语语料文档中各则藏语语料翻译成汉语语料文本, 得到藏语翻译汉语语料文 档, 具体包括: 采用机器翻译软件将所述维语语料文档中各则维语语料翻译成汉语语料文本, 得到维 语翻译汉语语料文档; 采用机器翻译软件将所述藏语语料文档中各则藏语语料翻译成汉语语料文本, 得到藏 语翻译汉语语料文档。 4.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法, 其特征在于, 所 述根据所述汉语语料语义嵌入词向量组、 所述维语翻译汉语语料语义嵌入词向量组和所述 藏语翻译汉语语料语义嵌入词向量组, 计算第一相似度、 第二相似度和第三相似度, 具体包 括: 根据所述汉语语料语义嵌入词向量组、 所述维语翻译汉语语料语义嵌入词向量组和所 述藏语翻译 汉语语料语义嵌入词向量组, 计算每两个 语义嵌入词向量组的词频向量; 根据所述词频向量计算所述第一相似度、 所述第二相似度和所述第三相似度。 5.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法, 其特征在于, 所 述根据所述第一相似度、 所述第二相似度、 所述第三相似度和设定相似度阈值确定多语可 比语料库, 具体包括:权 利 要 求 书 1/3 页 2 CN 115130482 A 2对应任意一则汉语语料、 维语语料和藏语语料, 判断对应的第一相似度、 对应的第二相 似度和对应的第三相似度的交集是否大于设定相似度阈值; 若是, 则将对应的汉语 语料、 对应的维语 语料和对应的藏语 语料存入多语可比语料库; 若否, 则将对应的汉语语料从所述汉语语料文档 中删除, 将对应的维语语料从所述维 语语料文档中删除, 将对应的藏语 语料从所述 藏语语料文档中删除。 6.一种基于相似度的多语可比语料库构建系统, 其特 征在于, 包括: 语料获取模块, 用于获取汉语 语料文档、 维语 语料文档和藏语 语料文档; 语料翻译模块, 用于将所述维语语料文档 中各则维语语料翻译成汉语语料文本, 得到 维语翻译汉语语料文档, 将所述藏语语料文档中各则藏语语料翻译成汉语语料文本, 得到 藏语翻译 汉语语料文档; 语义嵌入模块, 用于对所述汉语语料文档、 所述维语翻译汉语语料文档和所述藏语翻 译汉语语料文档中的各则语料进行语义嵌入处理, 得到汉语语料语义嵌入词向量组、 维语 翻译汉语语料语义嵌入词向量组和藏语翻译 汉语语料语义嵌入词向量组; 相似度计算模块, 用于根据所述汉语语料语义嵌入词向量组、 所述维语翻译汉语语料 语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组, 计算第一相似度、 第二相 似度和第三相似度; 所述第一相似度为所述汉语语料文档中各则汉语语料与所述 维语语料 文档中各则维语语料的相似度; 所述第二相似度为所述汉语语料文档中各则汉语语料与所 述藏语语料文档中各则藏语语料的相似度; 所述第三相似度为所述 维语语料文档中各则维 语语料与所述 藏语语料文档中各则藏语 语料的相似度; 语料库构建模块, 用于根据 所述第一相似度、 所述第 二相似度、 所述第 三相似度和设定 相似度阈值确定多语可比语料库。 7.根据权利要求6所述的一种基于相似度的多语可比语料库构建系统, 其特征在于, 所 述语料获取模块, 具体包括: 网页信息搜索单元, 用于采用数据抓取爬虫软件对设定新闻网站进行搜索, 得到网页 信息; 解析单元, 用于对所述网页信息进行HTML解析, 抽取新闻标题、 新闻内容和新闻时间, 生成初始语料; 预处理单元, 用于对所述初始语料进行预处理, 得到汉语语料文档、 维语语料文档和藏 语语料文档。 8.根据权利要求6所述的一种基于相似度的多语可比语料库构建系统, 其特征在于, 所 述语料翻译模块, 具体包括: 第一翻译单元, 用于采用机器翻译软件将所述维语语料文档中各则维语语料翻译成汉 语语料文本, 得到维语翻译 汉语语料文档; 第二翻译单元, 用于采用机器翻译软件将所述藏语语料文档中各则藏语语料翻译成汉 语语料文本, 得到藏语翻译 汉语语料文档。 9.根据权利要求6所述的一种基于相似度的多语可比语料库构建系统, 其特征在于, 所 述相似度计算模块, 具体包括: 词频向量确定单元, 用于根据所述汉语语料语义嵌入词向量组、 所述维语翻译汉语语 料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组, 计算每两个语义嵌入词权 利 要 求 书 2/3 页 3 CN 115130482 A 3
专利 一种基于相似度的多语可比语料库构建方法及系统
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:22
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
GB-T 29240-2012 信息安全技术 终端计算机通用安全技术要求与测试评价方法.pdf
CSA 云应用安全技术标准(征求意见表).pdf
DB 31DSJ∕Z 005-2020 公共数据安全分级指南.pdf
GB-T 4209-2022 工业硅酸钠.pdf
T-QGCML 1699—2023 经营数据中台可视化运维监管云平台.pdf
GB-T 21369-2008 火力发电企业能源计量器具配备和管理要求.pdf
GM-T 0093-2020 证书与密钥交换格式规范.pdf
GB-T 19667.1-2005 基于XML的电子公文格式规范 第1部分总则.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
GB-T 33482-2016 党政机关电子公文系统建设规范.pdf
GM-T 0112-2021 PDF格式文档的密码应用技术要求.pdf
GB-T 34943-2017 C-C++语言源代码漏洞测试规范.pdf
DB43-T 1835-2020 智能轨道快运系统设计规范 湖南省.pdf
DB3703-T 4.2—2020 公共资源交易平台服务规范 第2部分:工程建设项目招标投标 淄博市.pdf
GB-T 30998-2014信息技术软件安全保障规范.pdf
GB-T 23536-2022 超硬磨料 人造金刚石品种.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
T-CHIA 17.1—2020 健康医疗大数据资源目录体系 第 1 部分:总体框架.pdf
证券公司网络和信息安全三年提升计划(2023-2025).pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。