首页> 中国专利> 一种教育文本知识归纳方法、系统、设备及可读存储介质

一种教育文本知识归纳方法、系统、设备及可读存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种教育文本知识归纳方法、系统、设备及可读存储介质，通过从教育文本中拾取领域术语，然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识，并分别对教育文本和外部知识进行编码，生成语境向量辅助摘要生成过程，弥补了机器自动生成摘要时对背景知识的缺失，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，并将二者融合参与解码过程。使用了双拷贝机制计算复制概率，从而实现从教育文本或外部知识中复制相关内容到摘要中，提高了模型捕捉细节的能力，同时缓解了未登录词或低频词带来的问题。

著录项

公开/公告号CN113221577A

专利类型发明专利
公开/公告日2021-08-06

原文格式PDF
申请/专利权人西安交通大学;
展开▼

申请/专利号CN202110464651.6
发明设计人魏笔凡;卜德蕊;刘均;郑庆华;张玲玲;关海山;郑玉龙;赵瑞;
展开▼

申请日2021-04-28
分类号G06F40/30(20200101);G06F40/216(20200101);G06F40/284(20200101);G06N3/04(20060101);
代理机构61200 西安通大专利代理有限责任公司;
代理人朱海临
地址 710049 陕西省西安市咸宁西路28号
入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明属于教语文本归纳领域，具体涉及一种教育文本知识归纳方法、系统、设备及可读存储介质。

背景技术

提问可以促发学习者思考、是一种强有力的教学手段。学习者通过寻找问题答案学习重点内容，缩短自身理解与学习材料之间的知识鸿沟；另一方面，学习者通过回答针对性的问题来巩固所学内容、评测学习效果。随着MOOC、SPOC(small private onlinecourse)等新在线学习模式的兴起，越来越多的学习者在网上学习，为海量的在线教育文本自动生成测验题是一项急需解决的任务。然而从教育文本到生成测验题，需要解决两个问题，首先是问什么，这一步需要从学习材料中识别出知识并抽象归纳形成提问对象，它的目的主要是为了确保提出的问题能够针对教育文本中有针对性的知识，从而实现帮助学生巩固重点内容的目的。第二个问题是怎么问，这一步主要是通过对学习材料重要内容的理解，生成有意义的深度问题。确定问什么是生成测验题的前提，所以教育文本中重点知识的抽取与归纳是提升测验题自动生成效果的关键。教育文本知识归纳旨在通过对教育文本的深度理解，自动生成关于知识的抽象摘要。

文本摘要技术是一项用于从海量数据中获取关键信息的技术，这些关键信息在数据量上相比原文更少，且表达方式较原文更精简。文本摘要技术可以按照生成方式分为抽取式文本摘要和生成式文本摘要。抽取式文本摘要通过句子打分策略为每个句子计算一个得分，选取得分较高的句子作为摘要，并且通过去除相似度较高的句子来降低冗余度。抽取式摘要虽然能够在一定程度上保留原文的显著信息，但由于抽取式摘要全部来源于对原文的抽取和重组，在精确性和语言组织上具有一定的缺陷。生成式摘要旨在理解原文的基础上用新的表达方式生成包含原文关键信息的摘要，摘要中的句子或短语可能是原文中未出现的。生成式摘要通过高级自然语言技术，生成与原文不同的表达，但通常会缺少一些关键信息的细节描述，降低了摘要的信息量。文本摘要技术能帮助人们快速捕捉关键信息，在很多领域都发挥着不可估量的作用。但通过调研发现，目前在教育领域还未见到关于文本摘要技术的研究工作，这极大的限制了海量在线教育文本发挥作用，无法满足在线学习者的学习需求。

CN201910400306.9-该发明公开了一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法，该发明在基于注意力机制的编码器-解码器模型基础上，提出基于信息增益的选择机制和基于拷贝的LSTM变体。一方面，在编码器和解码器之间增加改进的选择机制，判断原文本中的关键信息，并将概要信息提炼出来，提高了自动文本摘要的概括能力；另一方面，以LSTM变体作为解码器端循环神经网络的循环单元，可以优化解码过程，提高解码效率，减少生成摘要中的重复问题从而提高生成摘要的可读性。该发明提供的文本摘要方法是一种通用的技术，并未针对教育文本的特征提出相对应的解决方案。而教育文本中通常包含较多的领域术语，这些术语需要相应的领域知识才能理解，在人工生成摘要的过程中，通常需要利用这些先验知识来辅助，才能更好的对原文进行总结和归纳，所以该发明并不能很好地实现对教育文本中重点知识归纳。

发明内容

本发明的目的在于提供一种教育文本知识归纳方法、系统、设备及可读存储介质，以克服现有技术的不足，本发明能够通过对教育文本的理解、归纳和抽象，自动生成关于重点知识的抽象摘要，可用于生成包含重点知识的提问对象，辅助测验题生成过程。

为达到上述目的，本发明采用如下技术方案：

一种教育文本知识归纳方法，包括以下步骤：

S1，从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表；

S2，爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

S3，将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

S4，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中，生成知识摘要序列，即可完成教语文本的知识归纳。

进一步的，通过开源实体链接工具Dexter拾取教育文本中的领域术语，并将拾取的领域术语与维基百科中的实体对齐，Dexter用于实体链接任务的开源框架。

进一步的，使用TF-IDF方法对拾取的领域术语进行重要性评估，重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算，根据重要性评估的得分对拾取的领域术语列表进行排序，取重要性评估得分高的前m个领域术语构成最终的术语列表。

进一步的，通过词嵌入将教育文本序列表示为

进一步的，通过词嵌入将外部知识库序列表示为

进一步的，利用双注意力机制计算当前t时刻解码状态s

进一步的，计算解码状态s

复制概率分布P

最终，生成下一个单词的概率分布如下：

P(y

得到对应的知识摘要序列Y＝[y

一种教育文本知识归纳系统，包括外部知识获取模块、编码模块和解码模块；

外部知识获取模块用于从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表；爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

解码模块利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中，生成知识摘要序列，实现教育文本的知识归纳。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述教育文本知识归纳方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述教育文本知识归纳方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种教育文本知识归纳方法，通过从教育文本中拾取领域术语，然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识，并分别对教育文本和外部知识进行编码，生成语境向量辅助摘要生成过程，弥补了机器自动生成摘要时对背景知识的缺失，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，使用了双拷贝机制，根据教育文本语境向量和外部知识库语境向量计算复制概率，从而能够从教育文本或外部知识中复制相关内容到摘要中，提高了模型捕捉细节的能力，同时缓解了未登录词或低频词带来的问题。

进一步的，本发明通过融入外部知识的方法，爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分，补充了先验知识，提升了模型的理解能力。

进一步的，采用双注意力机制同时捕获来自教育文本和外部知识的重要信息，并通过门网络选择二者的重要性权值，在模型解码器部分，提出双拷贝机制，从教育文本及外部资源中复制相关内容到摘要中，提高模型捕捉细节的能力，同时解决了未登录或低频词的问题。

一种教育文本知识归纳系统，通过对教育文本的理解、归纳和抽象，自动生成关于知识的抽象摘要，提供有针对性且更精准的教育文本，从而实现更高效的知识教授与学习。

附图说明

图1为本发明实施例中教育文本知识归纳方法工作流程图。

图2为本发明实施例中教育文本知识归纳模型结构图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1、图2所示，一种教育文本知识归纳方法，包括以下步骤：

S1，从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表，本申请m取10；

具体的，通过开源实体链接工具Dexter拾取教育文本中的领域术语，并将拾取的领域术语与维基百科中的实体对齐；Dexter用于实体链接任务的开源框架，Dexter集成了实体链接任务的方法，并提供了API用于构建实体链接工具。

使用TF-IDF方法对拾取的领域术语进行重要性评估，重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算，根据重要性评估的得分对拾取的领域术语进行排序，取重要性评估得分高的前m个领域术语构成最终的术语列表。领域术语为特定专业领域中一般概念的词语指称；领域术语集中体现了该学科中最基础，也是最重要的知识；如生命科学课程中，细胞膜、细胞质、亲水性、疏水性为领域术语。

S2，爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

S3，将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

具体的，通过词嵌入分别将教育文本序列与外部知识库序列表示为

使用BiGRU编码器对教育文本序列

使用BiGRU编码器对外部知识库序列

具体的，利用双注意力机制计算当前t时刻解码状态s

为了捕捉更多关于知识的细节描述，使用拷贝机制从外部知识库或教育文本中选择与当前解码状态相关的词直接拷贝入摘要中；

拷贝机制考虑当前解码状态s

具体的，利用当前解码状态s

本发明一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(CPU)，或者采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于教育文本知识归纳方法的操作。

一种教育文本知识归纳系统，能够用于实现上述实施例中的教育文本知识归纳方法，具体外部知识获取模块、编码模块和解码模块；

外部知识获取模块用于从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域属于中提取按重要度排序的前m个领域术语构成术语列表；爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

本发明再一个实施例中，本发明还提供了一种存储介质，具体采用计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质，提供存储空间，存储了终端的操作系统，也可包括终端设备所支持的扩展存储介质。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关教育文本知识归纳方法的相应步骤。

教育文本压缩过程：首先将输入的教育文本序列X＝[x

外部知识压缩编码过程：首先将输入的外部知识序列Z＝[z

基于双拷贝机制的解码过程：

使用双注意力机制，对于教育文本采用如下注意力机制计算当前解码状态关于教育文本的语境向量

其中

对于外部知识库采用如下的注意力机制，计算当前解码状态关于外部知识的语境向量

为了融合

其中第t步状态s

在第t步解码状态时单词y

为了捕捉更多的细节描述，提高摘要的精准性，同时为了解决未登录词问题，使用双拷贝机制从外部知识及教育文本中选择相关的词语。双拷贝机制考虑当前解码状态s

复制概率分布P

最终，生成下一个单词的概率分布如下：

P(y

最终得到对应的重点知识摘要序列Y＝[y

本发明采用深度学习技术，将自然语言处理领域的文本摘要方法应用于教育领域，用于生成针对教育文本的知识抽象摘要。该摘要可作为包含重点知识的提问对象，辅助测验题生成过程。也可为中小学老师或学生提供有针对性且更精准的教育文本，从而实现更高效的知识教授与学习。针对教育文本中领域术语分布频繁的特征，提出融入外部知识的方法。爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分，弥补了先验知识，提升了模型的理解能力。采用双注意力机制同时捕获来自教育文本和外部知识的重要信息，并通过门网络选择二者的重要性权值；在模型解码器部分，提出双拷贝机制，从教育文本及外部资源中复制相关内容到摘要中，提高模型捕捉细节的能力，同时解决了未登录或低频词的问题。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种教育文本知识归纳方法、系统、设备及可读存储介质 [P] . 中国专利： CN113221577A . 2021-08-06
2. 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质 [P] . 中国专利： CN109643315A . 2019-04-16
3. Pricing support system, pricing support programs for computer-aided-readable recording medium, and the price is set to record how, intellectual property evaluation support system, intellectual property assessment-readable storage medium storing a computer program support and intellectual property evaluation support method [P] . 韩国专利： KR20180008499A . 2018-01-24

机译：定价支持系统，用于计算机辅助记录介质的定价支持程序以及记录价格的方式，知识产权评估支持系统，存储计算机程序支持的知识产权评估可读存储介质以及知识产权评估支持方法
4. FORMAT AND DISPLAY METHOD FOR TEXT EXECUTABLE ON COMPUTER PROCESSOR, COMPUTER DEVICE CAPABLE OF FORMATTING AND DISPLAYING TEXT AND COMPUTER READABLE STORAGE MEDIUM STORING PROGRAM CAPABLE OF FORMATTING AND DISPLAYING TEXT, AND METHOD FOR ADDING NEW STYLE TO TEXT EDITOR CAPABLE OF FORMATTING AND DISPLAYING TEXT [P] . 日本专利： JP2000048016A . 2000-02-18

机译：用于在计算机处理器上执行的文本的格式和显示方法，具有格式并显示文本的计算机设备以及具有格式和显示文本的计算机可读存储介质存储程序，以及将具有文本格式的新样式添加到具有编辑和显示功能的文本编辑器中的方法
5. ANNOTATED TEXT DATA EXPANDING METHOD, ANNOTATED TEXT DATA EXPANDING COMPUTER-READABLE STORAGE MEDIUM, ANNOTATED TEXT DATA EXPANDING DEVICE, AND TEXT CLASSIFICATION MODEL TRAINING METHOD [P] . 美国专利： US2019317986A1 . 2019-10-17

机译：带注释的文本数据扩展方法，带注释的文本数据扩展计算机可读存储介质，带注释的文本数据扩展设备以及文本分类模型训练方法