专利 一种基于非结构化文本的考题自动生成设计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210835785.9 (22)申请日 2022.07.15 (71)申请人南京云问网络技术有限公司地址 210000 江苏省南京市鼓楼区建宁路 65号2楼203室 (72)发明人侯洁　 (74)专利代理机构南京瑞华腾知识产权代理事务所(普通合伙) 32368 专利代理师胡海 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06N 3/04(2006.01) (54)发明名称一种基于非结构化文本的考题自动生成设计方法 (57)摘要本发明公开了一种基于非结构化文本的考题自动生成设计方法，将本地文档和内部数据进行数据处理；段落数据抽取并只保留文本数据；以内部数据为基础抽取考题时查询获取具有相同关联数据作为抽取干扰项的待处理数据；调用干扰项抽取模型抽取干扰项数据；基于段落数据调用考题抽取模型执行抽取动作生成考题；将相似干扰项、干扰项数据和考题抽取模型抽取的考题进行考题的组装；人工审核校验编辑后存储入库。该基于非结构化文本的考题自动生成设计方法，可实现上传非结构化文本，自动化抽取文本段落，并生成单选题、多选题、填空题、判断题、简答题等不同类型的考题，极大程度上提高了考题创建效率，节省了大量的人力物力，节约成本。权利要求书2页说明书4页附图1页 CN 115168543 A 2022.10.11 CN 115168543 A 1.一种基于非结构化文本的考题自动生成设计方法，其特征在于，包括如下步骤： 1)数据处理，将本地文档和内部数据加载到内存中； 2)API抽取段落数据，通过API解析本地文档的样式进行段落数据抽取并只保留文本数据； 3)模型抽取段落数据，调用段落抽取模型进行内部数据的段落数据抽取并只保留文本数据； 4)存储段落数据，保存步骤2)和3)抽取的段落数据； 5)获取关联数据，以内部数据为基础抽取考题时查询获取具有相同关联数据作为抽取干扰项的待处理数据； 6)模型抽取干扰项，调用干扰项抽取模型从步骤5)的关联数据中抽取干扰项数据； 7)保存干扰项数据，保存步骤6)抽取的干扰项数据； 8)模型抽取考题数据，基于段落数据调用考题抽取模型执行抽取动作生成考题，生成的考题内容包括题目、正确答案和考题来源； 9)考题组装，根据考题的正确答案以及步骤7)中保存的干扰项数据调用相似干扰项抽取模型抽取正确答案的相似干扰项，相似干扰项抽取后整合干扰项数据和考题抽取模型抽取的考题进行考题的组装； 10)考题审核，通过页面审核组装的考题，进行人工审核校验，编辑组装的考题信息，可进行修改、保存、删除操作； 11)存储考题数据，校验、编辑完毕后，执行入库操作，将考题数据存储入库。 2.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤1)中本地文档是指本地 word文档，内部数据是指待抽取考题的数据。 3.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤2)API抽取段落数据，具体方法为采用java语言编写的封装方法根据文档格式进行抽取。 4.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤3)模型抽取段落数据的步骤为，首先采用正则加约束的方式抽取对应的标题段落，其次采用CNN ‑BILSTM‑CRF模型进行段落抽取，分别采用B、 I、 E、 S表示段落的开头、中间、结尾以及单个段落。 5.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤8)模型抽取考题数据根据题型采用不同的方法： (1)填空题采用的是关键词抽取和实体识别： ①关键词抽取：首先对待抽取问题进行分词，获取问题词语和词性信息，同时通过背景语料库获取词语的数量、词频、 TF ‑IDF、长度的统计信息；对于分词信息，将其送入 Transformer Encoder模型，所述Tran sformer Encoder模型通过自注意力机制将词语映射为高维空间的语义表征；对于词性信息，通过POS Embedding网络将词性映射为高维稠密向量；对于统计信息，做归一化处理以避免数值两极化，然后进行拼接作为每一个词的统计信息向量；将分词信息、词性信息和统计信息进行拼接获取每个词语的最终向量表示，将词语的最终向量通过SoftMax网络层即可获取分类结果。 ②实体识别：根据数据集的大小以及硬件资源是否充沛采用不同的模型，在数据量低权　利　要　求　书 1/2 页 2 CN 115168543 A 2于100条的小数据集上，使用CRF模型；而在数据量大于1000条的大数据集上，使用BILSTM ‑ CRF模型；在硬件资源充沛的情况下，采用BERT ‑CRF模型； (2)判断题是根据预置的同义词典进行抽取问题及答案数据； (3)单选题、多选题、简答题：默认采用的是QA ‑Net模型，用CNN+attention代替传统的 RNN模型来完成阅读理解任务，在硬件设备情况允许的情况下采用bert模型，将问题和文档通过BERT模型，获取问题和文档对应的token embedding的表示，再将问题和文档连接两个全连接层，获取每个token embedding对应的起始标签和结束标签的概率；最终获取答案。 6.根据权利要求5所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤6)模型抽取干扰项具体采用关键词抽取和实体识别的方法进行干扰项的抽取。 7.根据权利要求1所述的一种基于非结构化文本的考题自动生成设计方法，其特征在于：所述步骤9)中抽取相似干扰项的相似干扰项抽取模型为sentence bert模型。权　利　要　求　书 2/2 页 3 CN 115168543 A 3

专利 一种基于非结构化文本的考题自动生成设计方法

专利一种基于非结构化文本的考题自动生成设计方法