国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210835785.9 (22)申请日 2022.07.15 (71)申请人 南京云问网络技 术有限公司 地址 210000 江苏省南京市 鼓楼区建宁路 65号2楼203室 (72)发明人 侯洁 (74)专利代理 机构 南京瑞华腾知识产权代理事 务所(普通 合伙) 32368 专利代理师 胡海 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06N 3/04(2006.01) (54)发明名称 一种基于非结构化文本的考题自动生成设 计方法 (57)摘要 本发明公开了一种基于非结构化文本的考 题自动生 成设计方法, 将本地文档和内部数据进 行数据处理; 段落数据抽取并只保留文本数据; 以内部数据为基础抽取考题时查询获取具有相 同关联数据作为抽取干扰项的待处理数据; 调用 干扰项抽取模 型抽取干扰项数据; 基于段落数据 调用考题抽取模 型执行抽取动作生成考题; 将相 似干扰项、 干扰项数据和考题抽取模 型抽取的考 题进行考题的组装; 人工审核校验编辑后存储入 库。 该基于非结构化文本的考题自动生成设计方 法, 可实现上传非结构化文本, 自动化抽取文本 段落, 并生成单选题、 多选题、 填空题、 判断题、 简 答题等不同类型的考题, 极大程度上提高了考题 创建效率, 节省了大量的人力物力, 节约成本 。 权利要求书2页 说明书4页 附图1页 CN 115168543 A 2022.10.11 CN 115168543 A 1.一种基于非结构化文本的考题自动生成设计方法, 其特 征在于, 包括如下步骤: 1)数据处 理, 将本地文档和内部数据加载到内存中; 2)API抽取段落数据, 通过API解析本地文档的样式进行段落数据抽取并只保留文本数 据; 3)模型抽取段落数据, 调用段落抽取模型进行内部数据的段落数据抽取并只保留文本 数据; 4)存储段落数据, 保存步骤2)和3)抽取的段落数据; 5)获取关联数据, 以内部数据为基础抽取考题时查询获取具有相同关联数据作为抽取 干扰项的待处 理数据; 6)模型抽取干扰项, 调用干扰项抽取模型从步骤5)的关联 数据中抽取干扰项数据; 7)保存干扰项数据, 保存步骤6)抽取的干扰项数据; 8)模型抽取考题数据, 基于段落数据调用考题抽取模型执行抽取动作生成考题, 生成 的考题内容包括题目、 正确答案和考题来源; 9)考题组装, 根据考题的正确答案以及步骤7)中保存的干扰项数据调用相似干扰项抽 取模型抽取正确答案的相似干扰项, 相似干扰项抽取后整合干扰项数据和考题抽取模型抽 取的考题进行考题的组装; 10)考题审核, 通过页面审核组装的考题, 进行人工审核校验, 编辑组装的考题信息, 可 进行修改、 保存、 删除操作; 11)存储考题数据, 校验、 编辑完毕后, 执 行入库操作, 将考题数据存 储入库。 2.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤1)中本地文档是指本地 word文档, 内部数据是指待抽取考题的数据。 3.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤2)API抽取段落数据, 具体方法为采用java语 言编写的封装方法根据文档格式 进行抽取。 4.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤3)模型抽取段落数据的步骤为, 首先采用正则加约束的方式抽取对应的标题 段落, 其次采用CNN ‑BILSTM‑CRF模型进行段落抽取, 分别采用B、 I、 E、 S表示段落的开头、 中 间、 结尾以及单个段落。 5.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤8)模型抽取考题数据根据题型采用不同的方法: (1)填空题采用的是关键词抽取和实体识别: ①关键词抽取: 首先对待抽取问题进行分词, 获取问题词语和词性信 息, 同时通过背景 语料库获取词语的数量、 词频、 TF ‑IDF、 长度的统计信息; 对于分词信息, 将其送入 Transformer Encoder模型, 所述Tran sformer Encoder模型通过自注意力机制将词语映射 为高维空间的语义表征; 对于词性信息, 通过POS Embedding网络将词性映射为高维稠 密向 量; 对于统计信息, 做归一化处理以避免数值两极化, 然后进 行拼接作为每一个词的统计信 息向量; 将分词信息、 词性信息和统计信息进行拼接获取每个词语的最 终向量表示, 将词语 的最终向量 通过SoftMax网络层即可获取分类结果。 ②实体识别: 根据数据集的大小以及硬件资源是否充沛采用不同的模型, 在数据量低权 利 要 求 书 1/2 页 2 CN 115168543 A 2于100条的小数据集上, 使用CRF模型; 而在数据量大于1000条的大数据集上, 使用BILSTM ‑ CRF模型; 在硬件资源充沛的情况 下, 采用BERT ‑CRF模型; (2)判断题是根据预置的同义词典进行抽取问题及答案数据; (3)单选题、 多选题、 简答题: 默认采用的是QA ‑Net模型, 用CNN+attention代替传统的 RNN模型来完成阅读理解任务, 在硬件设备情况允许的情况下采用bert模 型, 将问题和文档 通过BERT模 型, 获取问题和文档对应的token embedding的表示, 再将问题和文档连接两个 全连接层, 获取每 个token embedding对应的起始标签和结束标签的概 率; 最终获取答案 。 6.根据权利要求5所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤6)模型抽取干扰项具体采用关键词抽取和实体识别的方法进行干扰项的抽 取。 7.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法, 其特征在 于: 所述步骤9)中抽取相似干扰项的相似干扰项抽取模型为sentence bert模型。权 利 要 求 书 2/2 页 3 CN 115168543 A 3
专利 一种基于非结构化文本的考题自动生成设计方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:08:43
上传分享
举报
下载
原文档
(315.4 KB)
分享
友情链接
GB-T 29505-2013 硅片平坦表面的表面粗糙度测量方法.pdf
GB-T 8259-2008 卡箍式柔性管接头 技术条件.pdf
法律法规 上海市建筑节能条例2010-09-17.pdf
GB-T 36399-2018 连续热镀铝硅合金镀层钢板及钢带.pdf
GB-T 32293-2015 真空技术 真空设备的检漏方法选择.pdf
重点网络安全:“3保1评”(分保、等保、关保、密评).pdf
GB-T 36478.2-2018 物联网 信息交换和共享 第2部分:通用技术要求.pdf
GB-T 19960.1-2005 风力发电机组 第1部分:通用技术条件.pdf
GB-T 36968-2018 信息安全技术 IPSec VPN技术规范.pdf
GB-T 22264.2-2022 安装式数字显示电测量仪表 第2部分:电流表和电压表的特殊要求.pdf
众城智库 信创产业发展报告 2021.pdf
GB-T 40909-2021 纺织品 甲基环硅氧烷残留量的测定.pdf
T-QGCML 302—2022 能源企业数字化转型1+6管理体系.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
GB-T 43020-2023 调频频段数字音频广播接收机技术规范.pdf
T-ZNZ 189—2023 水产品中生物胺的测定 液相色谱-串联质谱法.pdf
GB-T 37400.1-2019 重型机械通用技术条件 第1部分:产品检验.pdf
GM-T 0008-2012 安全芯片密码检测准则.pdf
SN-T 2770-2011 国境口岸军团菌荧光PCR检测方法.pdf
信通院 联邦学习应用安全研究报告 2023年.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(315.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。