国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210561797.7 (22)申请日 2022.05.23 (71)申请人 中国科学院计算 技术研究所 地址 100190 北京市海淀区中关村科 学院 南路6号 (72)发明人 程学旗 郭嘉丰 范意兴 郭建涛 (74)专利代理 机构 北京泛华伟业知识产权代理 有限公司 1 1280 专利代理师 王勇 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多标签序列标注的指代消解方法 (57)摘要 本发明提供一种基于多标签序列标注的指 代消解方法, 包括: S1、 将待处理文本分割成预设 长度且不重合的多个文本片段; S2、 采用预训练 模型对每个文本片段进行编码得到每个字符的 语义表达; S3、 基于每个字符的语义表达分别判 断每个字符是否属于B I E标签; S4、 基于每个字 符对应的标签, 在连续I标签序列中, 基于 预设的 组合策略组合任意的BE标签对应的字符构成短 语, 其中, 连续I标签序列表示一个连续的字符序 列中的每个字符均具有I标签; S5、 计算任意两个 短语之间的相似性得分, 为每个短语 保留与其相 似性得分排名靠前的预设个数的短语作为其前 置候选短语; S6、 采用排序模型将每个短语的前 置候选短语进行排序并将得分第一的前置候选 短语作为 其互指对象。 权利要求书2页 说明书8页 附图1页 CN 114997177 A 2022.09.02 CN 114997177 A 1.一种基于多标签序列标注的指代消解方法, 用于获得待处理文本中每个短语的互指 对象, 其特 征在于, 所述方法包括: S1、 将待处 理文本分割成预设长度且不重合的多个文本片段; S2、 采用预训练模型对每个文本片段进行编码, 以得到每个文本片段中每个字符的语 义表达; S3、 基于步骤S2中获得的每 个字符的语义表达分别判断每 个字符是否属于BIE标签; S4、 基于步骤S3中获得的每个字符对应的标签, 在连续I标签序列中, 基于预设的组合 策略组合任意的BE标签对应的字 符构成短语, 其中, 连续I标签序列表示一个连续的字符序 列中的每 个字符均具有I标签; S5、 计算任意两个短语之间的相似性得分, 为每个短语保留与其相似性得分排名靠前 的预设个数的短语作为 其前置候选短语; S6、 采用排序模型将每个短语的前置候选短语进行排序并将得分第 一的前置候选短语 作为其互指对象。 2.根据权利要求1所述的方法, 其特征在于, 所述预设长度被设置为所述预训练模型支 持的最大长度。 3.根据权利要求2所述的方法, 其特 征在于, 所述预训练模型为SpanBERT模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述预设长度为512。 5.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S3包括: 采用三个二分类器分别判断每个字符是否属于BIE标签, 其中, 三个二分类器分别为B 标签二分类器、 I标签二分类器、 E标签二分类器, 所述B标签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否属于B标签为输出预先训练获得的二分类器, 所述I标 签二分类器是以预训练模型输出 的字符的语义表达为输入、 字符是否为I标签为输出预先 训练获得的二分类器, 所述E标签二分类器是以预训练模型输出的字符的语义表达为输入、 字符是否为E标签为输出 预先训练获得的二分类 器。 6.根据权利要求5所述的方法, 其特征在于, 所述步骤S4包括针对步骤S3中获得的文本 片段中每 个字符的标签获得多个连续 I标签序列, 并对每 个连续I标签序列执 行如下步骤: S41、 构建 短语集合和短语起始位置集 合, 并初始化短语起始位置集 合为空集; S42、 遍历当前连续I标签序列中每个字符的B标签和E标签, 将有B标签的字符位置加入 短语起始位置集合, 每遍历到一个E标签时以当前短语起始位置集合中的每一个字符位置 为短语起始位置、 当前E标签对应的字符位置为结束位置生成多个短语并放入短语集 合。 7.根据权利要求1所述的方法, 其特征在于, 所述步骤S5包括采用双线性注意力 机制计 算任意两个短语之 间的相似性得分, 并为每个短语保留与其相似性得分排名靠前的预设个 数的短语作为 其前置候选短语。 8.根据权利要求7 所述的方法, 其特 征在于, 所述预设个数为15 。 9.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 可 被处理器执行以实现权利要求1至8任一所述方法的步骤。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理权 利 要 求 书 1/2 页 2 CN 114997177 A 2器执行时, 使得 所述电子设备实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114997177 A 3
专利 一种基于多标签序列标注的指代消解方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:41
上传分享
举报
下载
原文档
(472.9 KB)
分享
友情链接
GB-T 39044-2020 政务服务平台接入规范.pdf
GB-T 35273-2017 信息安全技术 个人信息安全规范.pdf
GB-T 30520-2014 会议分类和术语.pdf
NB-T 33004—2020 电动汽车充换电设施工程施工和竣工验收规范.pdf
GB-T 27977-2022 水泥生产电能能效测试及计算方法.pdf
GB-T 39520-2020 弹簧残余应力的X射线衍射测试方法.pdf
GB-T 29849-2013 光伏电池用硅材料表面金属杂质含量的电感耦合等离子体质谱测量方法.pdf
GB-T 17713-2022 吸油烟机及其他烹饪烟气吸排装置.pdf
T-CEC 5074—2022 抽水蓄能电站工程施工总进度编制导则.pdf
T-ACEF 108—2023 公民绿色低碳行为温室气体减排量化指南 行:不停车缴费.pdf
GB-T 36964-2018 软件工程 软件开发成本度量规范.pdf
T-CI 072—2023 绿色低碳乡村建设及评价技术指南.pdf
DB11-T 1211-2023 中央空调系统运行节能监测 北京市.pdf
奇安信 2022网络安全人才市场状况研究报告.pdf
DB63-T 1408-2015 甜椒设施育苗技术规范 青海省.pdf
YD-T 2699-2014 电信网和互联网安全防护基线配置要求及检测要求-安全设备.pdf
GB-T 40856-2021 车载信息交互系统信息安全技术要求及试验方法.pdf
GB-T 37401-2019 电子商务平台服务保障技术要求.pdf
2022-2023 年中国信创生态及信创PC市场发展研究报告.pdf
TB-T 1495-2020 弹条Ⅰ型扣件.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(472.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。