国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210639099.4 (22)申请日 2022.06.07 (71)申请人 北京合立春天科技发展 有限公司 地址 100000 北京市石景山区实兴东 街11 号二层56室 (72)发明人 王剑 双锴 周冀 安镇宙 于勇涛 杨健 (74)专利代理 机构 洛阳公信知识产权事务所 (普通合伙) 41120 专利代理师 宋晨炜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文档级别的中文 事件抽取方法 (57)摘要 一种文档级别的中文事件抽取方法, 包括: 步骤1、 从文档中粗筛中文事件数据, 对获取到的 中文事件数据进行预处理后获取事件 数据集; 步 骤2、 对事件数据集制定不同领域下的典型事件 进行标注, 得到每一类事件类别的标注数据集; 步骤3、 构建中文通用领域事件抽取模型: 基于卷 积神经网络和图卷积神经网络, 对 标注数据集进 行特征提取后, 进行事件类别分类和论元角色抽 取。 本方法将原始文档重构为 “图像”结构和图结 构, 完成事件分类和相应论元分类任务, 提高事 件抽取精度和模型的泛化能力。 权利要求书2页 说明书4页 附图1页 CN 114880437 A 2022.08.09 CN 114880437 A 1.一种文档级别的中文事 件抽取方法, 其特 征在于, 所述方法包括: 步骤1、 从文档中粗筛中文事件数据, 对获取到的中文事件数据进行预处理后获取事件 数据集; 步骤2、 对事件数据集制定不同领域下的典型事件进行标注, 得到每一类事件类别的标 注数据集; 步骤3、 构建中文通用领域事件抽取模型: 基于卷积神经网络和图卷积神经网络, 对标 注数据集进行 特征提取后, 进行事 件类别分类和论元角色抽取。 2.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 从文档中粗筛 中文事件数据的方法为, 设置通用领域事 件关键词典, 并设置正则表达式过 滤不相关事 件。 3.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 对中文事件数 据进行预处理的方法包括对原 始数据中不相关事 件的筛选、 网站中特殊标签的删除。 4.如权利要求1所述的一种 文档级别的中文事件抽取方法, 其特征在于: 构建中文通用 领域事件抽取模型, 具体包括: 步骤3.1: 将标注数据集以句子为粒度进行分割, 然后将分割后的所有句子依次输入预 训练模型中, 获得对应的句子向量es; 步骤3.2: 将句子以实体为粒度进行分割, 然后将分割后的所有实体依次输入预训练模 型中, 获得对应的实体向量, 然后将实体向量再输入至卷积神经网络的Maxpool层 对特征进 行压缩, 得到 压缩后实体向量et。 步骤3.3: 对于步骤3.2的压缩后实体向量, 按照从上到下的顺序依次进行排列成文档 向量, 使排列后的文档向量行向量和竖向量维度相等, 将得到的行向量和竖向量维度相等 的文档向量复制2次, 得到最终的文档向量Di; 步骤3.4: 对于步骤3.1中的句子 向量es和步骤3.2中的压缩后实体向量et, 根据不同句 子中实体间和同一句子中实体间的依赖关系构建文档图结构向量Dg; 步骤3.5: 对于步骤3.3中的文档向量Di和步骤3.4中的文档图结构向量Dg, 分别使用卷 积神经网络和图卷积神经网络进行 特征提取; 步骤3.6: 根据标注过程中事件类别和典型事件的论元, 综合步骤3.5中提取的文档向 量Di和步骤4中的文档图结构向量Dg的特征, 对每个句子进行事件类别分类和论元角色抽 取。 5.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 对每个句子进 行事件类型判断和论元角色抽取的具体方法为: 步骤3.6.1: 将文档图结构向量Dg的特征与文档向量Di的特征经过拼接, 然后进行特征 筛选, 最终将进行筛选后的特征向量输入到卷积神经网络的全连接层后, 得到对应的典型 事件类别概 率, 取最大概 率为对应的事 件类别, 完成事 件类别分类; 步骤3.6.2、 将文档图结构向量Dg经过图卷积神经网络提取的特征, 再输入卷积神经网 络的Maxpool层, 得到候选论元向量, 最终将候选论元向量输入到卷积神经网络的全连接 层, 得到对应的事 件类别的论元概 率, 取最大概 率为对应的论元角色, 完成论元角色抽取。 6.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 预训练模型可 采用BERT模型、 W ord2Vec模型或ELMO模型。 7.如权利要求4所述的一种 文档级别的中文事件抽取方法, 其特征在于: 使排列后的文权 利 要 求 书 1/2 页 2 CN 114880437 A 2档向量行向量和竖向量维度相等的具体方法为: 如果压缩后实体向量个数小于压缩后实体 向量的行维数, 则 补充相同维度的0向量, 如果压缩的实体向量个数大于压缩后实体向量的 行维数, 则截断压缩后的实体向量。 8.如权利要求5所述的一种文档级别的中文事件抽取方法, 其特征在于: 步骤3.6.1中 进行特征筛选的方法为, 利用Transformer模型、 长短期记 忆网络和循环神经网络实现。权 利 要 求 书 2/2 页 3 CN 114880437 A 3
专利 一种文档级别的中文事件抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:09:23
上传分享
举报
下载
原文档
(498.9 KB)
分享
友情链接
T-SDJSXH 02—2021 建筑施工安全生产责任保险事故预防服务导则.pdf
GB-T 43437-2023 信息技术 信息产品研发能力评估模型.pdf
GB-Z 41290-2022 信息安全技术 移动互联网安全审计指南.pdf
GB-T 3409.2-2016 大坝监测仪器 钢筋计 第2部分:振弦式钢筋计.pdf
ISO17799-2005 信息安全管理实施指南 中文.pdf
GB-T 32747-2016 岩土工程仪器安全要求.pdf
思度安全-DSMM-012 数据接口安全管理规范V1.0.pdf
GB-T 16838-2021 消防电子产品环境试验方法及严酷等级.pdf
DB42-T 953-2014 “鄂引3号”狗牙根栽培技术规程 湖北省.pdf
GB-T 42467.1-2023 中医临床名词术语 第1部分:内科学.pdf
T-GHDQ 87.1—2022 车辆控制器信息安全技术要求 第1部分:通用技术要求.pdf
ISO27002-2022中文版.pdf
GB-T 37973-2019 信息安全技术 大数据安全管理指南 .pdf
SAE_2012-01-1037_Integrating In-Wheel Motors into Vehicles - Real-World Experiences.pdf
GA-T 1735.1-2020 网络安全等级保护检查工具技术规范 第1部分:安全通用检查工具.pdf
GB-T 32955-2016 集装箱用不锈钢钢板和钢带.pdf
DB31-T 1311-2021 上海市 数据去标识化共享指南 .pdf
Apache服务器安全配置基线.doc
GB-T 42453-2023 信息安全技术 网络安全态势感知通用技术要求.pdf
GB-T 31499-2015 信息安全技术 统一威胁管理产品技术要求和测试评价方法.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(498.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。