首页> 中国专利> 一种基于知识图谱构建计算机教育知识图谱的方法

一种基于知识图谱构建计算机教育知识图谱的方法

摘要

本发明公开了一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:步骤一:构建教育知识图谱,S1:进行数据获取,S2:进行知识抽取,S3:进行知识标识,S4:进行知识存储,S5:进行知识融合,S6:进行质量控制,步骤二:教育知识图谱的平台建设,A:搭建网页,所述搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块。本发明基于互联网获取到的教育大数据构建面向教育大数据的知识图谱,以可视化的形式对网络安全知识进行直观展示,并对其中所存在的不完整知识利用知识图谱补全技术进行补全,解决了教学分析面临的信息采集不全和信息采集难度高的难度。

著录项

  • 公开/公告号CN114896417A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 郑州轻工业大学;

    申请/专利号CN202210555029.0

  • 申请日2022-05-20

  • 分类号G06F16/36(2019.01);G06F16/26(2019.01);G06F16/24(2019.01);

  • 代理机构郑州晟佳专利代理事务所(普通合伙) 41205;

  • 代理人张心龙

  • 地址 450000 河南省郑州市高新技术产业开发区科学大道136号

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022105550290 申请日:20220520

    实质审查的生效

说明书

技术领域

本发明涉及知识图谱技术领域,特别涉及一种基于知识图谱构建计算机教育知识图谱的方法。

背景技术

将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论称为知识图谱。

大数据时代为当代教育模式的创新发展提供了新的发展环境,教学过程中产生的大量异构数据能为教学质量的精准分析与评估提供依据,目前教学分析由于没有完整的教育知识图谱,故面临着信息采集不全和信息采集难度高的难题。

发明内容

本发明的目的在于提供一种基于知识图谱构建计算机教育知识图谱的方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:

步骤一:构建教育知识图谱;

S1:进行数据获取,运用爬虫技术获取网络上的数据;

S2:进行知识抽取,从结构化、半结构化和非结构化的资源中进行实体提取、关系提取和属性提取;

S3:进行知识标识,采用三元组进行标识;

S4:进行知识存储,将爬取到的知识存储到Neo4j图数据库中;

S5:进行知识融合,对初步构建成的知识图谱中缺失实体的三元组进行补全,然后添加到知识图谱当中;

S6:进行质量控制,采用知识消歧、知识补全和知识更新进行教育知识图谱质量控制;

步骤二:教育知识图谱的平台建设:

搭建网页,所述搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块。

优选的,所述S1中数据来自于书籍、文献和技术网站,所述S1中爬虫技术是通过浏览器向服务器发送请求,获取到需要的数据,所述S1中使用Scrapy框架来实现数据爬取,Scrapy框架包含request、下载器、解析器和twisted。

优选的,所述S2中实体抽取是从文本中识别人名、地名和机构名并对其分类,所述S2中关系抽取是从一个文本数据中抽取两个实体的关系,所述S2中属性抽取是对时间和常量进行抽取。

优选的,所述S3中三元组表示为:

<数据结构、包括、数组>。

优选的,所述S4中采用Py2neo工具包来对数据进行存取操作,Py2neo应用程序与命令行能够与Neo4j建立连接。

优选的,所述S5中补全方式是检测出当前知识图谱中缺失的三元组

优选的,所述步骤二中搭建网页采用B/S架构;

所述步骤二中教育知识图谱展示模块使用Echarts来实现知识图谱的可视化,Echarts可视化开源框架是采用JavaScript技术,底层依靠矢量图形库ZRender,采用Canvas进行绘图,Echarts的关系图采用力引导布局算法,两节点较远时相互吸引,达到阈值又会相互排斥;

所述步骤二中知识点查询模块运用Python语言得到实体识别后的目标数组,并进行判断是实体查询还是关系查询,再执行Neo4j数据库的Cypher查询语句,将返回的数据处理成JSON格式并用ECharts关系图展示到前端;

所述步骤二中智能问答模块使用jieba分词中文分词来解析问题,并从知识图谱当中获取问题的回答然后返回到前端界面给以解答。

优选的,所述步骤二中网页使用步骤:

a:利用Cypher语句查询所有关系的数据;

b:数据处理,将数据转化成JSON格式;

c:点击知识图谱全貌选项卡时调用数据,以关系图的形式展示到前端。

优选的,所述步骤二中页面采用Layui提供的弹出框组件实现了点击图谱知识点弹出知识结构的功能,当点击图谱中的知识点时,界面右侧会弹出一个知识框,以input框的形式显示该知识的词条,同时获得修改权限后还能对其进行自由编辑;

所述步骤二中页面的右端采用css和js技术,在搜索框的下边展示了一个知识点球,点击计算机常见知识就可以展示知识图谱。

本发明的技术效果和优点:

(1)本发明基于表示学习的知识图谱补全技术加以应用,提升知识图谱的质量,并使用ECharts可视化库实现图谱的前端展示,设计了分级知识界面,并通过Flask框架实现系统前后端的交互,系统包括知识点查询、知识全图展示、知识路径查询和知识智能问答等功能,将复杂的计算机知识点可视化,简明清晰地展示知识点之间的关系,能够正确理解的语义进行Cypher查询并获取答案,帮助使用者更好的学习理解计算机课程内容。

附图说明

图1为本发明教育知识图谱构建流程图。

图2为本发明爬虫流程图。

图3为本发明系统流程图。

图4为本发明三元组补全效果展示一示意图。

图5为本发明三元组补全效果展示二示意图。

图6为本发明知识点检索模块流程图。

图7为本发明智能问答模块流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了如图1-7所示的一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:

步骤一:构建教育知识图谱;

S1:进行数据获取,运用爬虫技术获取网络上的数据,S1中数据来自于书籍、文献和技术网站,S1中爬虫技术是通过浏览器向服务器发送请求,获取到需要的数据,爬虫技术又称网络蜘蛛,是数据采集中常用的一种技术程序,爬虫技术模拟浏览器向服务器发送请求,获取到需要的数据,同时它也可以为搜索引擎中数据的获取提供强有力的支持,因此也是搜索引擎的组成部分,使用爬虫技术进行数据获取包括网站抓取、页面分析和数据存储三个流程,S1中使用Scrapy框架来实现数据爬取,Scrapy框架包含request、下载器、解析器和twisted,request是指异步调度和处理,下载器选用多线程的Downloader,解析器选用selector,twisted是指异步处理,Scrapy框架对于网站的内容爬取,其速度非常快捷,Scrapy框架简单、高效,且被广泛应用于数据的挖掘、监测和自动测试;

S2:进行知识抽取,从结构化、半结构化和非结构化的资源中进行实体提取、关系提取和属性提取,S2中实体抽取是从文本中识别人名、地名和机构名并对其分类,S2中关系抽取是从一个文本数据中抽取两个实体的关系,S2中属性抽取是对时间和常量进行抽取;

S3:进行知识标识,采用三元组进行标识,S3中三元组表示为:<数据结构、包括、数组>;

S4:进行知识存储,将爬取到的知识存储到Neo4j图数据库中,S4中采用Py2neo工具包来对数据进行存取操作,Py2neo应用程序与命令行能够与Neo4j建立连接,Py2neo封装了官方驱动程序,添加了对HTTP的支持、高级别的API、OGM、管理工具、交互式控制台和用于Pygaments的Cypher-Lexer功能,Py2neo包提供了Neo4j的解析和存储功能,利用py2neo包,我们可以在计算机内存中建立和存储Neo4j的模型,通过生成节点与关系、过滤重复的数据,最终可生成Neo4j图形数据库;

S5:进行知识融合,对初步构建成的知识图谱中缺失实体的三元组进行补全,然后添加到知识图谱当中,使知识图谱更加的完善,S5中补全方式是检测出当前知识图谱中缺失的三元组

S6:进行质量控制,构建知识图谱过程中,会出现指称项与事实对象之间的歧义和知识缺失的数据质量问题,可采用知识消歧、知识补全和知识更新进行教育知识图谱质量控制;

步骤二:教育知识图谱的平台建设:

搭建网页,搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块,步骤二中教育知识图谱展示模块使用Echarts来实现知识图谱的可视化,Echarts可视化开源框架是采用JavaScript技术,底层依靠矢量图形库ZRender,采用Canvas进行绘图,Echarts的关系图采用力引导布局算法,两节点较远时相互吸引,达到阈值又会相互排斥,Echarts拥有丰富的组件和高度个性化的可视化方案,使用简单,通过简单的配置就能达到想要的形式和视觉效果,基于ECharts的可视化图表可以跨终端显示,兼容性比较强;

步骤二中智能问答模块使用jieba分词中文分词来解析问题,并从知识图谱当中获取问题的回答然后返回到前端界面给以解答,中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词,jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图,再采用了动态规划查找最大概率路径,找出词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法,可以通过简单的处理就能构建出自定义词典,智能问答模块中设计了一个基于LTP技术的语句检索模型,主要实现三个子模块:分词、词性标注和实体抽取,能够理解的语义返回符合条件的结果,分词是对语句处理的基础工作,能否正确分词会直接影响搜索结果,在智能问答模块中,输入问句后首先会根据自定义词典进行语句分词,经过LTP的处理得到目标数组,接着对目标数组进行判断,当结果为空时会直接对输入问句进行查询,当只得到一个值时,就查询该概念实体,当数组中有实体和关系时,会调用知识库的关系查询;

步骤二中知识点查询模块运用Python语言得到实体识别后的目标数组,并进行判断是实体查询还是关系查询,再执行Neo4j数据库的Cypher查询语句,将返回的数据处理成JSON格式并用ECharts关系图展示到前端;

知识点查询模块中具有图谱下载功能,学习者搜索到想要的知识图谱关系图后,可点击导出为图片按钮将图片保存到本地,以便后续的学习和分享;

为了使图谱的层次结构明显,同时提供交互功能,对知识图谱内知识分类进行了标注,包括数据结构、操作系统、计算机网络、计算机组成原理、C语言、Python和Java七门类别的筛选标签,在生成结点时,根据计算机不同的教学科目设置了不同的节点颜色,同时可以进行结点拖拽以及通过鼠标滚轮实现对知识图谱结点的放大与缩小,为了方便看清知识点在全图展示中的关系,当鼠标悬浮到某个概念时,与该知识点的第一层级概念会高亮显示,而其他概念则显示灰暗状态,该界面可以选择限制目前显示数据量的大小,为了使显示较少数据量时能够优先展示每一科最的概念,而不是随机的展示,对所有的数据节点进行了等级标注,并利用cypher语句的limit限制实现了该功能;

步骤二中页面采用Layui提供的弹出框组件实现了点击图谱知识点弹出知识结构的功能,当点击图谱中的知识点时,界面右侧会弹出一个知识框,以input框的形式显示该知识的词条,同时获得修改权限后还能对其进行自由编辑;

步骤二中页面的右端采用css和js技术,在搜索框的下边展示了一个知识点球,点击计算机常见知识就可以展示知识图谱,当进行知识检索时,后台会获取前端输入的文本,连接到Neo4j数据库进行查询,将返回的结果处理生成echarts图所需要的JSON格式;

步骤二中网页使用步骤:

a:利用Cypher语句查询所有关系的数据;

b:数据处理,将数据转化成JSON格式;

c:点击知识图谱全貌选项卡时调用数据,以关系图的形式展示到前端。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号