首页> 中国专利> 一种基于教材的数学类课程知识图谱自动构建方法及系统

一种基于教材的数学类课程知识图谱自动构建方法及系统

摘要

本发明公开了一种基于教材的数学类课程知识图谱自动构建方法及系统,涉及人工智能及知识工程技术领域。包括:预处理模块用于对教材进行预处理;课程术语集构建模块用于根据预处理后的教材构建课程术语集;共现关系抽取模块用于抽取教材中术语间的共现关系;训练数据生成模块用于根据教材中的术语间共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据;关系集构建模块用于构建关系集;课程知识图谱构建模块用于构建课程知识图谱。本发明能够借助现有的开源知识库,实现低资源场景下基于教材的数学类课程知识图谱的高效自动构建。

著录项

  • 公开/公告号CN114969365A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 北京科技大学;

    申请/专利号CN202210574577.8

  • 发明设计人 谢永红;何昕宇;

    申请日2022-05-25

  • 分类号G06F16/36(2019.01);G06F16/35(2019.01);G06F40/289(2020.01);G06F40/211(2020.01);G06K9/62(2022.01);G06F16/951(2019.01);G06F16/332(2019.01);

  • 代理机构北京市广友专利事务所有限责任公司 11237;

  • 代理人张仲波

  • 地址 100083 北京市海淀区学院路30号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022105745778 申请日:20220525

    实质审查的生效

说明书

技术领域

本发明涉及人工智能及知识工程技术领域,特别是指一种基于教材的数学类课程知识图谱自动构建方法及系统。

背景技术

知识图谱作为一种能够揭示知识与知识之间关系的数据结构,近年来被广泛应用于各个领域。在教育领域,知识图谱可以清晰地展现知识的内在逻辑结构,摒弃传统教学中知识按照课本进行单一线性排列的缺点,从而可以帮助教师更好地授课,也可以辅助学生把握知识脉络。

但是,构建一个质量较高、规模较大的知识图谱往往需要花费巨大的人力和时间成本。如何平衡准确率和效率,在低资源的场景下快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战。

发明内容

本发明针对如何实现低资源场景下基于教材的数学类课程知识图谱的高效自动构建的问题,提出了本发明。

为解决上述技术问题,本发明提供如下技术方案:

一方面,本发明提供了一种基于教材的数学类课程知识图谱自动构建系统,该系统应用于实现基于教材的数学类课程知识图谱自动构建方法。该系统包括预处理模块、课程术语集构建模块、共现关系抽取模块、训练数据生成模块、关系集构建模块以及课程知识图谱构建模块:

其中,预处理模块,用于对教材进行预处理。

课程术语集构建模块,用于根据预处理后的教材构建课程术语集。

共现关系抽取模块,用于基于所述课程术语集抽取教材中术语间的共现关系。

训练数据生成模块,用于根据术语间的共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据。

关系集构建模块,用于根据基础关系类别训练数据以及剩余未标注基础关系类别的共现关系构建关系集;其中,剩余未标注基础关系类别的共现关系为术语间的共现关系中除去基础关系类别训练数据的共现关系。

课程知识图谱构建模块,用于根据关系集构建课程知识图谱。

可选地,预处理模块包括冗余信息删除模块、目录层级结构获取模块以及分段分句模块。

可选地,冗余信息删除模块,用于根据正则表达式删除教材文本中的例题、习题、图片以及表格。

目录层级结构获取模块,用于根据正则表达式获取教材中目录的层级结构。

分段分句模块,用于对冗余信息删除模块输出的教材文本进行分句;根据目录层级结构获取模块输出的目录结构进行自动标注分句结果,并自动标注分句结果的所属章节。

可选地,课程术语集构建模块包括爬虫程序设计模块、分词模块以及课程术语集输出模块。

可选地,爬虫程序设计模块,用于爬取开源知识库上与待构建知识图谱的课程有关的术语,并将术语与教材附录中的术语表进行求取并集,得到术语参考集合。

分词模块,用于对爬虫程序设计模块输出的术语参考集合进行预处理,根据中文分词方法对预处理后的教材文本进行分词。

课程术语集输出模块,用于根据训练好的深度学习模型判断分词模块输出的分词结果是否为与待构建知识图谱的课程有关的术语,对与待构建知识图谱的课程有关的术语进行统计,根据统计结果以及与待构建知识图谱的课程有关的术语得到课程术语集。

可选地,训练数据生成模块包括关系类型预定义模块、聚类模块以及基础关系类别训练数据生成模块。

可选地,关系类型预定义模块用于对数学类课程术语间多种基础关系类型进行预定义,并对每种基础关系类型定义种子数据。

聚类模块,用于将种子数据作为高维空间的聚类中心,将共现关系映射到聚类中心的维数的空间中,选择与聚类中心距离最近的k个共现关系,并对k个共现关系标注关系类别标签,得到标注数据。

基础关系类别训练数据生成模块,用于根据远程监督的思想以及标注数据进行自动化生成术语间关系类型标注数据,得到基础关系类别训练数据。

可选地,关系集构建模块包括数据预处理模块、向量化表示模块、句子向量化表示模块、关系向量拼接模块、训练模块以及关系集模块。

可选地,课程知识图谱构建模块,进一步用于根据课程术语集、关系集以及统计结果构建课程知识图谱。

另一方面,本发明提供了一种基于教材的数学类课程知识图谱自动构建方法,该方法由基于教材的数学类课程知识图谱自动构建系统实现,该系统包括预处理模块、课程术语集构建模块、共现关系抽取模块、训练数据生成模块、关系集构建模块以及课程知识图谱构建模块:该方法包括:

S1、基于预处理模块对教材进行预处理。

S2、基于课程术语集构建模块以及预处理后的教材构建课程术语集。

S3、基于共现关系抽取模块以及课程术语集抽取教材中术语间的共现关系。

S4、基于训练数据生成模块、术语间的共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据。

S5、基于关系集构建模块、基础关系类别训练数据以及剩余未标注基础关系类别的共现关系构建关系集;其中,剩余未标注基础关系类别的共现关系为术语间的共现关系中除去基础关系类别训练数据的共现关系。

S6、基于课程知识图谱构建模块以及关系集构建课程知识图谱。

可选地,预处理模块包括冗余信息删除模块、目录层级结构获取模块以及分段分句模块。

可选地,冗余信息删除模块,用于根据正则表达式删除教材文本中的例题、习题、图片以及表格。

目录层级结构获取模块,用于根据正则表达式获取教材中目录的层级结构。

分段分句模块,用于对冗余信息删除模块输出的教材文本进行分句;根据目录层级结构获取模块输出的目录结构进行自动标注分句结果,并自动标注分句结果的所属章节。

可选地,课程术语集构建模块包括爬虫程序设计模块、分词模块以及课程术语集输出模块。

可选地,爬虫程序设计模块,用于爬取开源知识库上与待构建知识图谱的课程有关的术语,并将术语与教材附录中的术语表进行求取并集,得到术语参考集合。

分词模块,用于对爬虫程序设计模块输出的术语参考集合进行预处理,根据中文分词方法对预处理后的教材文本进行分词。

课程术语集输出模块,用于根据训练好的深度学习模型判断分词模块输出的分词结果是否为与待构建知识图谱的课程有关的术语,对与待构建知识图谱的课程有关的术语进行统计,根据统计结果以及与待构建知识图谱的课程有关的术语得到课程术语集。

可选地,训练数据生成模块包括关系类型预定义模块、聚类模块以及基础关系类别训练数据生成模块。

可选地,关系类型预定义模块用于对数学类课程术语间多种基础关系类型进行预定义,并对每种基础关系类型定义种子数据。

聚类模块,用于将种子数据作为高维空间的聚类中心,将共现关系映射到聚类中心的维数的空间中,选择与聚类中心距离最近的k个共现关系,并对k个共现关系标注关系类别标签,得到标注数据。

基础关系类别训练数据生成模块,用于根据远程监督的思想以及标注数据进行自动化生成术语间关系类型标注数据,得到基础关系类别训练数据。

可选地,关系集构建模块包括数据预处理模块、向量化表示模块、句子向量化表示模块、关系向量拼接模块、训练模块以及关系集模块。

可选地,课程知识图谱构建模块,进一步用于根据课程术语集、关系集以及统计结果构建课程知识图谱。

一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于教材的数学类课程知识图谱自动构建方法。

一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于教材的数学类课程知识图谱自动构建方法。

本发明实施例提供的技术方案带来的有益效果至少包括:

上述方案中,充分利用了开源知识库,以有效的方式自动构建数学类课程知识图谱,在保证图谱质量的同时减轻了人工工作量。该方法的输入为教材原始文本和教材附录的术语表,输出是由术语和术语之间关系构成的课程知识图谱。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于教材的数学类课程知识图谱自动构建系统框图;

图2是本发明实施例提供的术语抽取流程示意图;

图3是本发明实施例提供的知识图谱构建结果示意图;

图4是本发明实施例提供的基于教材的数学类课程知识图谱自动构建方法流程示意图;

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

如图1所示,本发明型实施例提供了一种基于教材的数学类课程知识图谱自动构建系统,该系统包括预处理模块、课程术语集构建模块、共现关系抽取模块、训练数据生成模块、关系集构建模块以及课程知识图谱构建模块:

其中,预处理模块,用于对教材进行预处理。

可选地,预处理模块包括冗余信息删除模块、目录层级结构获取模块以及分段分句模块。

可选地,冗余信息删除模块,用于根据正则表达式删除教材文本中的例题、习题、图片以及表格。

目录层级结构获取模块,用于根据正则表达式获取教材中目录的层级结构。

分段分句模块,用于对冗余信息删除模块输出的教材文本进行分句;根据目录层级结构获取模块输出的目录结构进行自动标注分句结果,并自动标注分句结果的所属章节。

一种可行的实施方式中,预处理模块对教材进行预处理的步骤可以包括:

S101、采用冗余信息删除模块删除冗余信息,由于数学类课程中有很多例题、习题及表格图片,这些信息中包含的关键信息较少,首先使用正则表达式删去教材文本中的例题习题、图片表格等。

S102、目录层级结构获取模块使用正则表达式从教材中获取目录的层级结构,根据目录对教材进行切分,将结果单独输出到多个文件中。

S103、分段分句模块对S101处理后的教材文本进行分句:首先根据中文的标点如句号、问号等进行分句,设置句子的最大长度L

课程术语集构建模块,用于根据预处理后的教材构建课程术语集。

可选地,课程术语集构建模块包括爬虫程序设计模块、分词模块以及课程术语集输出模块。

可选地,爬虫程序设计模块,用于爬取开源知识库上与待构建知识图谱的课程有关的术语,并将术语与教材附录中的术语表进行求取并集,得到术语参考集合。

分词模块,用于对爬虫程序设计模块输出的术语参考集合进行预处理,根据中文分词方法对预处理后的教材文本进行分词。

课程术语集输出模块,用于根据训练好的深度学习模型判断分词模块输出的分词结果是否为与待构建知识图谱的课程有关的术语,对与待构建知识图谱的课程有关的术语进行统计,根据统计结果以及与待构建知识图谱的课程有关的术语得到课程术语集。

一种可行的实施方式中,如图2所示,课程术语集构建模块从教材出发,利用网络爬虫技术、中文分词技术和深度学习模型构建课程术语集;该部分的步骤可以包括:

S201、通过爬虫程序设计模块设计爬虫程序,爬取开源知识库上可能与本课程有关的术语,与教材附录中的术语表求并集,得到本课程领域术语参考集合。

S202、分词模块基于S201构建的本课程领域术语参考集合,使用中文分词方法对预处理后的教材文本进行分词,使用课程领域术语参考集合作为分词词典可以解决一部分的歧义问题和长尾问题,输出分词结果到文件。

S203、课程术语集输出模块使用S201构建的本课程领域术语参考集合训练深度学习模型判断某个词是否是本课程的术语。

具体地,可以使用word2vec将输入词向量化,平均池化后使用全连接层和softmax分类器进行分类,将预测结果与真实结果使用交叉熵损失函数进行训练,将模型持久化到硬盘。遍历步骤S202得到的每一个分词结果,通过模型判断是否是本课程的术语,同时统计该术语的全文词频、首次出现章节、最多出现章节,将统计结果和术语输出到文件得到课程术语集。

共现关系抽取模块,用于基于所述课程术语集抽取教材中术语间的共现关系。

一种可行的实施方式中,基于处理后的课程术语集,抽取教材中的术语间共现关系;即任意两个术语如果出现在教材中的同一个分句中,就认定这两个术语有共现关系,输出所有共现关系到文件。

训练数据生成模块,用于根据术语间的共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据。

可选地,训练数据生成模块包括数学类课程术语间基础关系类型预定义模块、聚类模块以及基础关系类别训练数据生成模块。

可选地,关系类型预定义模块用于对多种数学类课程术语间基础关系类型进行预定义,并对每种基础关系类型定义种子数据。

聚类模块,用于将种子数据作为高维空间的聚类中心,将共现关系映射到聚类中心的维数的空间中,选择与聚类中心距离最近的k个共现关系,并对k个共现关系标注关系类别标签,得到标注数据。

基础关系类别训练数据生成模块,用于根据远程监督的思想以及标注数据进行自动化生成术语间关系类型标注数据,得到基础关系类别训练数据。

一种可行的实施方式中,训练数据生成模块基于预定义的数学类课程术语间基础关系类别和种子样本,结合聚类和远程监督的方法,在术语间共现关系中,自动标注并生成基础关系类别训练数据;该部分的步骤可以包括:

S401、关系类型预定义模块:由于数学类课程教材描述严谨规范、逻辑性强的特点,我们预定义了数学类课程术语间七种逻辑上的基础关系类型,并为每种关系类型提前定义了一些种子数据。以下是每种关系类型和对应的一个例子:

(i)同义:

若A在它的所有赋值下取值均为真,则称A是重言式永真式

(ii)并列:

在任意有向图中,所有结点入度之和等于所有结点出度之和。

(iii)派生正:

真值为真的命题称为真命题

(iv)派生负:

无向图和有向图统称为

(v)因果:

因为有成真(假)赋值,所以该公式为可满足式

(vi)无关:

命题总是具有一个确定真假的“值”,称为真值

(vii)other:

一般,在全总个体域中,对全称量词,特性谓词常作蕴涵的前件

S402、聚类模块选择聚类的方法,如:K-Means(K-Means clustering algorithm,K均值聚类算法),将S401的种子数据记为各个关系类别在高维空间的聚类中心C,其中高维空间是指所有中文经过向量化得到的n维向量的集合所在的空间。将共现关系抽取模块得到的共现关系映射到同样维数的高维空间中,选择与C距离最近的k个共现关系打上关系类别标签。在本实施例中,k取值为10。

S403、基础关系类别训练数据生成模块根据远程监督的思想,假定如果两个术语在已经标注好的数据中存在某种关系,则包含该两个数据的分句均能表示出这种关系,以S402中标注的数据为基础,自动化地生成一定量的术语间关系类型标注数据作为训练数据。

在本实施例中,通过上述方法共得到2388个训练数据。

关系集构建模块,用于根据基础关系类别训练数据以及剩余未标注基础关系类别的共现关系构建关系集。

其中,剩余未标注基础关系类别的共现关系为术语间的共现关系中除去基础关系类别训练数据的共现关系。

可选地,关系集构建模块包括数据预处理模块、向量化表示模块、句子向量化表示模块、关系向量拼接模块、训练模块以及关系集模块。

一种可行的实施方式中,关系集构建模块训练深度学习模型,对剩余未标注的共现关系进行预测;该部分的步骤可以包括:

S501、数据预处理模块进行数据预处理,将开始标志[CLS]和结束标志[SEP]添于句首句尾并使用#和$标记头实体(Entity1)和尾实体(Entity2)。

S502、向量化表示模块使用Bert(Bidirectional Encoder Representationsfrom Transformer,双向Transformer编码器)模型提取文本的向量化表示。

S503、句子向量化表示模块对Entity1和Entity2对应的向量平均池化并使用全连接层得到实体的向量化表示,对句首的特殊标记[CLS]使用全连接层得到句子的向量化表示。

S504、关系向量拼接模块将实体向量和句向量拼接得到关系向量。

S505、训练模块使用softmax分类器进行分类,将预测结果与真实结果使用交叉熵损失函数进行训练。

S506、关系集模块将训练好的关系分类模型持久化到硬盘中,使用保存好的模型预测未标注数据的关系类别,得到关系集。

课程知识图谱构建模块,用于根据关系集构建课程知识图谱。

可选地,课程知识图谱构建模块,进一步用于根据课程术语集、关系集以及统计结果构建课程知识图谱。

一种可行的实施方式中,课程知识图谱构建模块构建课程知识图谱,将术语集作为图谱的节点,关系集作为图谱的边;并将S203中统计的全文词频、首次出现章节、最多出现章节作为术语的属性;将各个关系所属的章节和具体分句作为边的属性,构建课程知识图谱。

具体地,如图3所示,通过使用网络爬虫技术、中文分词技术和基于深度学习的关系抽取技术进行数学类课程知识图谱的自动构建。具体地,对教材进行预处理,包括删除冗余信息、获得目录层级结构和分句;从教材出发,利用网络爬虫技术、中文分词技术和深度学习模型构建课程术语集;基于处理后的课程术语集,抽取教材中的术语间共现关系;基于预定义的数学类课程术语间基础关系类别和种子样本,结合聚类和远程监督的方法,在术语间共现关系中,自动标注并生成基础关系类别训练数据;训练深度学习模型,对剩余未标注的共现关系进行预测;构建课程知识图谱,将术语集作为图谱的节点,关系集作为图谱的边,并添加对应的属性。

本发明实施例中,充分利用了开源知识库,以有效的方式自动构建数学类课程知识图谱,在保证图谱质量的同时减轻了人工工作量。该方法的输入为教材原始文本和教材附录的术语表,输出是由术语和术语之间关系构成的课程知识图谱。

如图4所示,本发明实施例提供了一种基于教材的数学类课程知识图谱自动构建方法,该方法可以由电子设备实现。如图1所示的基于教材的数学类课程知识图谱自动构建方法流程图,该方法的处理流程可以包括如下的步骤:

S1、基于预处理模块对教材进行预处理。

S2、基于课程术语集构建模块以及预处理后的教材构建课程术语集。

S3、基于共现关系抽取模块以及课程术语集抽取教材中术语间的共现关系。

S4、基于训练数据生成模块、术语间的共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据。

S5、基于关系集构建模块、基础关系类别训练数据以及剩余未标注基础关系类别的共现关系构建关系集;其中,剩余未标注基础关系类别的共现关系为术语间的共现关系中除去基础关系类别训练数据的共现关系。

S6、基于课程知识图谱构建模块以及关系集构建课程知识图谱。

可选地,预处理模块包括冗余信息删除模块、目录层级结构获取模块以及分段分句模块。

可选地,冗余信息删除模块,用于根据正则表达式删除教材文本中的例题、习题、图片以及表格。

目录层级结构获取模块,用于根据正则表达式获取教材中目录的层级结构。

分段分句模块,用于对冗余信息删除模块输出的教材文本进行分句;根据目录层级结构获取模块输出的目录结构进行自动标注分句结果,并自动标注分句结果的所属章节。

可选地,课程术语集构建模块包括爬虫程序设计模块、分词模块以及课程术语集输出模块。

可选地,爬虫程序设计模块,用于爬取开源知识库上与待构建知识图谱的课程有关的术语,并将术语与教材附录中的术语表进行求取并集,得到术语参考集合。

分词模块,用于对爬虫程序设计模块输出的术语参考集合进行预处理,根据中文分词方法对预处理后的教材文本进行分词。

课程术语集输出模块,用于根据训练好的深度学习模型判断分词模块输出的分词结果是否为与待构建知识图谱的课程有关的术语,对与待构建知识图谱的课程有关的术语进行统计,根据统计结果以及与待构建知识图谱的课程有关的术语得到课程术语集。

可选地,训练数据生成模块包括关系类型预定义模块、聚类模块以及基础关系类别训练数据生成模块。

可选地,关系类型预定义模块用于对数学类课程术语间多种基础关系类型进行预定义,并对每种基础关系类型定义种子数据。

聚类模块,用于将种子数据作为高维空间的聚类中心,将共现关系映射到聚类中心的维数的空间中,选择与聚类中心距离最近的k个共现关系,并对k个共现关系标注关系类别标签,得到标注数据。

基础关系类别训练数据生成模块,用于根据远程监督的思想以及标注数据进行自动化生成术语间关系类型标注数据,得到基础关系类别训练数据。

可选地,关系集构建模块包括数据预处理模块、向量化表示模块、句子向量化表示模块、关系向量拼接模块、训练模块以及关系集模块。

可选地,课程知识图谱构建模块,进一步用于根据课程术语集、关系集以及统计结果构建课程知识图谱。

本发明实施例中,充分利用了开源知识库,以有效的方式自动构建数学类课程知识图谱,在保证图谱质量的同时减轻了人工工作量。该方法的输入为教材原始文本和教材附录的术语表,输出是由术语和术语之间关系构成的课程知识图谱。

图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现下述基于教材的数学类课程知识图谱自动构建方法:

S1、基于预处理模块对教材进行预处理。

S2、基于课程术语集构建模块以及预处理后的教材构建课程术语集。

S3、基于共现关系抽取模块以及课程术语集抽取教材中术语间的共现关系。

S4、基于训练数据生成模块、术语间的共现关系及预定义的数学类课程术语间基础关系类别生成基础关系类别训练数据。

S5、基于关系集构建模块、基础关系类别训练数据以及剩余未标注基础关系类别的共现关系构建关系集;其中,剩余未标注基础关系类别的共现关系为术语间的共现关系中除去基础关系类别训练数据的共现关系。

S6、基于课程知识图谱构建模块以及关系集构建课程知识图谱。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于教材的数学类课程知识图谱自动构建方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号