首页> 中国专利> 基于图书馆的知识图谱构建方法、碎片化知识生成方法

基于图书馆的知识图谱构建方法、碎片化知识生成方法

摘要

本发明涉及大数据和人工智能技术领域,特别涉及一种基于图书馆的知识图谱构建方法、碎片化知识生成方法和电子设备。该方法包括:获取数字文献资源;从该数字文献资源中提取元数据,根据该元数据生成元数据图谱;根据该元数据获取对象数据,并根据该对象数据生成对象数据图谱;融合该元数据图谱和该对象数据图谱,以生成知识图谱;最后可以根据数字文献资源和该知识图谱生成该知识图谱各知识点的碎片化知识,并可以根据用户输入的关键词检索到知识图谱的相关知识点,输出碎片化知识。本发明能够建立一个完整的知识体系,并基于该知识体系实现碎片化知识的输出和输出知识的溯源,能够满足用户的不同需求,提升了图书馆的服务效能。

著录项

  • 公开/公告号CN112434168A

    专利类型发明专利

  • 公开/公告日2021-03-02

    原文格式PDF

  • 申请/专利权人 广西壮族自治区图书馆;

    申请/专利号CN202011240896.2

  • 发明设计人 刘宇航;

    申请日2020-11-09

  • 分类号G06F16/36(20190101);G06F16/31(20190101);G06F16/332(20190101);

  • 代理机构44372 深圳市六加知识产权代理有限公司;

  • 代理人江晓苏

  • 地址 530022 广西壮族自治区南宁市民族大道61号

  • 入库时间 2023-06-19 10:05:17

说明书

技术领域

本发明涉及大数据和人工智能技术领域,特别涉及一种基于图书馆的知识图谱构建方法、碎片化知识生成方法和电子设备。

背景技术

在新时代多行业融合发展,以及移动应用深度融入生活、工作和学习的背景下。图书馆传统的数字资源服务手段以提供文献的检索、下载为主,以扩大服务群体覆盖面和丰富数字资源种类为提升的手段。然而,这些方式已无法满足服务由表层应用转换成深度应用、用户由深度阅读转换成碎片化阅读的需求。

随着国家标准化管理委员会、中央网信办、国家发展改革委、科技部、工业和信息化部等五部门联合印发《国家新一代人工智能标准体系建设指南》,将人工智能的应用推广带到一个新的高度,使得图书馆由传统的数字资源服务方式转变成知识体系输出成为可能。图书馆现存的数字资源将重新进行整合,提供碎片化的输出以适应各行业的需求,同时碎片化的知识支持溯源回归达到系统获取目的,提升图书馆的服务效能。

发明内容

本发明实施方式主要解决的技术问题是提供一种基于图书馆的知识图谱构建方法、碎片化知识生成方法和电子设备,以实现图书馆能够以知识体系的形式输出,并满足碎片化知识的溯源回归。

为解决上述技术问题,本发明实施方式采用的一个技术方案是:提供一种基于图书馆的知识图谱构建方法,所述方法包括:

获取数字文献资源;

从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱;

根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱;

融合所述元数据图谱和所述对象数据图谱,以生成知识图谱。

可选地,所述从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱,包括:

提取元数据,并生成所述元数据对应的第一溯源编号;

将所述元数据进行分词处理,识别出实体、关系词和感情词,基于所述实体、所述关系词和所述感情词构建第一SPO三元组,所述第一SPO三元组包括其对应的所述第一溯源编号。

可选地,所述根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱,包括:

根据所述元数据包含的地址元素获取所述元数据对应的对象数据;

获取所述对象数据的类型;

在所述对象数据为文本类型时,对所述对象数据进行分词处理,识别出实体、关系词和感情词;

生成所述实体、所述关系词和所述感情词对应的第二溯源编号;

基于所述实体、所述关系词和所述感情词构建第二SPO三元组,所述第二SPO三元组中的每一所述实体、所述关系词和所述感情词包括其对应的所述第二溯源编号。

可选地,所述方法还包括:

在所述对象数据为视频和/或音频类型时,将所述对象数据转换为文本类型,并基于转换后的所述对象数据执行所述根据所述对象数据生成对象数据图谱的步骤。

可选地,所述融合所述元数据图谱和所述对象数据图谱,以生成知识图谱,包括:

根据所述第一SPO三元组,关联包含相同关系的所述第一SPO三元组,以生成目录集合,所述目录集合由多个所述第一SPO三元组构成;

根据所述第一溯源编号和所述第二溯源编号将所述目录集合中的第一SPO三元组与所述第二SPO三元组关联,以生成知识图谱。

可选地,所述方法还包括:

将采集的图片与所述知识图谱进行关联。

为解决上述技术问题,本发明实施方式采用的另一个技术方案是:提供一种碎片化知识生成方法,所述方法包括:

遍历所有生成的第一溯源编号,其中,所述第一溯源编号是根据上述的基于图书馆的知识图谱构建方法获得的;

根据所述第一溯源编号对应的数字资源文献内容,生成与所述第一溯源编号相对应的碎片化知识。

为解决上述技术问题,本发明实施方式采用的又一个技术方案是:提供一种碎片化知识生成方法,所述方法包括:

获取用户输入的信息,所述信息包括关键词、图片和音频;

在所述信息为关键词时,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为图片时,基于图像识别获得所述图片对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为音频时,基于音频识别获得所述音频对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

其中,所述知识图谱是根据上述的基于图书馆的知识图谱构建方法获得的。

可选地,所述根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识包括:

根据所述第一溯源编号对应的对象数据分别提取一片段,融合全部所述片段,以生成碎片化知识;或者,

根据所述第一溯源编号对应的所述对象数据分别生成多个一级摘要,并基于摘要提取关联元素,将所述多个一级摘要生成二级摘要,其中,所述摘要关联元素包括历史摘要提取篇幅、出版物发行时间、读者行为习惯、总字数、资源丰富度中的一个或多个。

为解决上述技术问题,本发明实施方式采用的还一个技术方案是:提供一种电子设备,包括:至少一个处理器;与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于图书馆的知识图谱构建方法和碎片化知识的生成方法。

区别于相关技术的情况,本发明实施例提供了一种基于图书馆的知识图谱构建方法、碎片化知识生成方法和电子设备,通过获取数字文献资源;从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱;根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱;最后融合所述元数据图谱和所述对象数据图谱,生成知识图谱。另外,还可根据生成的知识图谱自动生成碎片化知识,也可基于所述知识图谱和用户输入的信息生成碎片化知识。其中,所述元数据图谱可以看作是目录信息,所述对象数据图谱构成具体的内容信息,最后生成的知识图谱可以具体到对象数据。由此,所述基于图书馆的知识图谱构建方法、碎片化知识的生成方法和电子设备能够建立一个完整的知识体系,并基于该知识体系输出碎片化知识,能够满足用户的不同需求,提升了图书馆的服务效能。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是本发明实施例提供的一种基于图书馆的知识图谱构建方法的流程图;

图2是本发明另一实施例提供的一种基于图书馆的知识图谱构建方法的流程图;

图3是本发明实施例提供的一种碎片化知识生成方法的流程图;

图4是本发明另一实施例提供的一种碎片化知识生成方法的流程图;

图5是本发明实施例提供的一种知识图谱的示意图;

图6是本发明实施例提供的一种基于图书馆的知识图谱构建装置的结构示意图;

图7是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外,下面所描述的本发明不同实施例中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供的基于图书馆的知识图谱构建方法和碎片化知识生成方法,主要包括两个部分,一个是知识体系构建系统,另一个是知识体系输出溯源系统,两套系统共同完成可输出可溯源知识系统的构建。所述知识体系构建系统对数字文献(包括文本、图片、音频、视频等)资源进行加工、分析、关联、构建知识体系。其中,该知识体系构建系统主要对所述数字文献进行元数据提取操作和对象数据结构化操作,通过这两种操作构建知识图谱,这两种操作分别用于构建知识的广度索引和知识的深度索引。所述知识体系构建系统可以基于文本(包括涉及的知识点和文段等)生成摘要,即碎片化知识。此外,所述知识体系输出溯源系统还可以采集图片,对图片进行分析识别,通过对比图片特征库,识别所属知识点,以实现将识别出的图片与构建的知识图片关联。上述生成的摘要还可以包括关联的图片。

所述知识体系输出溯源系统是依托于所述知识体系构建系统的,提供对外开放能力,其可以提供标准的输出数据接口,供上层应用使用,供跨行业知识图谱融合。所述知识体系输出溯源系统的应用方式包括但不限于Web页面、小程序、公众号、APP等。用户通过这些应用方式中的任意方式输入关键词,可以获得所述关键词对应的碎片化知识,所述碎片化知识包括文本、图片、音频和视频中的至少一种。

本发明实施例提供的基于图书馆的知识图谱构建方法和碎片化知识生成方法,能够建立一全面系统的知识体系,能够基于所述知识体系输出碎片化知识,同时所述碎片化知识支持溯源回归,总体上提升了图书馆的服务效能。

具体地,请参阅图1,图1是本发明实施例提供的一种基于图书馆的知识图谱构建方法的流程图。所述方法包括:

S101、获取数字文献资源;

其中,所述数字文献资源包括文本、图片、音频、视频等其他类资源。所述数字文献资源可以从图书馆的数字文献资源库获得,所述数字文献资源库包括海量的数字化文献、自建特色资源和合法使用的商业数据库等。

获得的所述数字文献资源具体包括数字资源载体,所述数字资源载体可以是网页、PDF文件、图片文件,还可以是数据库文件等二进制文件。

S102、从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱;

其中,从所述数字文献资源中提取元数据具体可以是从所述数字资源载体中提取元数据,所述元数据包括:提名、作者、出版社、年份、数据类型、对象数据地址等。

具体地,所述从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱,包括:提取元数据,并生成所述元数据对应的第一溯源编号;将所述元数据进行分词处理,识别出实体、关系词和感情词,基于所述实体、所述关系词和所述感情词构建第一SPO三元组,所述第一SPO三元组包括其对应的所述第一溯源编号。

其中,可以通过爬虫技术、Web Service技术等提取元数据,比如,通过爬虫技术抓取页面的元数据,通过调用数据接口获取元数据。可以通过关系数据库和非关系数据库对提取的结构化数据和非结构化数据分别进行存储,所述关系数据库用于记录数据为结构化数据,通过读取基本表获取元数据。所述非关系数据库用于将记录的半结构化数据通过分析记录形式转换成结构化数据,还用于将记录的非结构化数据通过通用技术处理后,转换为结构化数据。所述通用技术包括自然语言处理技术,自动语音识别技术,图像识别技术,等等。

在获得所述元数据后,生成所述元数据的唯一溯源编号,即所述第一溯源编号。所述第一溯源编号用于指向提取所述元数据的数字资源载体。所述第一溯源编号具体可以是大小写字母、数字或者特殊符号等,每一元数据对应唯一的所述第一溯源编号。

S103、根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱;

根据所述对象数据生成对象数据图谱的过程可以是根据对象数据建立SPO三元组的过程。在本实施例中,主要通过SPO三元组建立最终的知识图谱,需要说明的是,在其他一些实施例中,除了SPO三元组之外,还可以采用其他数据结构。

其中,所述根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱,包括:根据所述元数据包含的地址元素获取所述元数据对应的对象数据;获取所述对象数据的类型;在所述对象数据为文本类型时,对所述对象数据进行分词处理,识别出实体、关系词和感情词;生成所述实体、所述关系词和所述感情词对应的第二溯源编号;基于所述实体、所述关系词和所述感情词构建第二SPO三元组,所述第二SPO三元组中的每一所述实体、所述关系词和所述感情词包括其对应的所述第二溯源编号。其中,所述元数据包括地址元素,所述地址元素用于指向提取所述元数据对应的对象数据的具体地址,比如,元数据包括文章A,即文章A的出版社信息,出版时间及作者信息,则所述地址元素包括所述出版社信息、出版时间和作者信息,通过所述地址元素可以获得文章A的对象数据,即文章A具体记载的内容,该内容包括文本、图谱、音频、视频等。

在本实施例中,所述对象数据为文本。当获得所述文本后,对该文本进行分词处理,识别出实体、关系词和感情词,以构建SPO三元组,即所述第二SPO三元组。在获得所述对象数据对应的所述第二SPO三元组后,对所述第二SPO三元组中的每一所述实体、所述关系词和所述感情词进行唯一溯源编号,即确定所述第二溯源编号。所述第二溯源编号用于唯一识别所述第二SPO三元组中的元素。其中,所述第二溯源编号可以根据所述第一溯源编号进行确定,同一元数据对应的对象数据的所述第二SPO三元组中元素的所述第二溯源编号与该元数据对应的所述第一溯源编号关联,比如,元数据A的第一溯源编号为a,则元数据A对应的对象数据中确定所述第二溯源编号可以是a1,a2,a3,……an,等。

在一些实施例中,所述方法还包括:在所述对象数据为视频和/或音频类型时,将所述对象数据转换为文本类型,并基于转换后的所述对象数据执行所述根据所述对象数据生成对象数据图谱的步骤。

S104、融合所述元数据图谱和所述对象数据图谱,以生成知识图谱。

所述知识图谱是将大量元数据和对象数据关联起来的一个知识体系。所述知识图谱由元数据图谱和对象数据图谱组成,所述元数据图谱用于相关文献的检索,其形式与所述对象数据图谱相同,只是所述元数据图谱中单个的结点标识出的所述第一溯源编号指向的是所述对象数据的一整个对象;而所述对象数据图谱中单个的结点中标识出的是所述对象数据中相关的知识点(即实体)以及与知识点相关的知识片段。

其中,所述融合所述元数据图谱和所述对象数据图谱,以生成知识图谱,包括:根据所述第一SPO三元组,关联包含相同关系的所述第一SPO三元组,以生成目录集合,所述目录集合由多个所述第一SPO三元组构成;根据所述第一溯源编号和所述第二溯源编号将所述目录集合中的第一SPO三元组与所述第二SPO三元组关联,以生成知识图谱。

其中,相同关系的所述第一SPO三元组指的是不同的第一SPO三元组对应的数字文献资源之间存在某种联系,该某种联系可以是包含关系、并列关系。比如,文章A和文章B都包括其对应的所述第一SPO三元组,文章A和文章B都属于书籍《山居笔记》,由于文章A和文章B属于同一本书,则认为二者存在联系,可以将各自对应的所述第一SPO三元组进行关联。该某种联系还可以是属于相同类别,比如,文章A和文章B都属于记录旅游的散文,则认为二者存在联系,可以将各自对应的所述第一SPO三元组进行关联。该某种联系还可以是其对应的对象数据的主题相同,比如,文章A和文章B都是介绍广西人文地理风情的文章,则认为二者存在联系,可以将各自对应的所述第一SPO三元组进行关联。

需要说明的是,关联不同的所述第一SPO三元组的方式除了考虑上述因素之外,还可以考虑其他因素,比如,从作者,出版时间等其他因素将有相同关系的所述第一SPO三元组关联,生成目录集合。

所述目录集合包括多个所述第一SPO三元组对应的所述第一溯源编号,所述第一溯源编号的排列顺序可以根据所述第一SPO三元组的排列顺序来确定。

在一些实施例中,根据所述第一SPO三元组,关联包含相同关系的所述第一SPO三元组,以生成目录集合包括:通过预设的分类算法将多个所述第一SPO三元组进行分类,将相同类别的第一SPO三元组对应的第一溯源编号放在同一个子目录下。所述预设的分类算法包括支持向量机、决策树、人工神经网络、朴素贝叶斯、逻辑回归算法等。

其中,根据所述第一溯源编号和所述第二溯源编号将所述目录集合中的第一SPO三元组与所述第二SPO三元组关联,包括:获取所述第一SPO三元组对应的对象数据所包含的全部所述第二溯源编号;将获得的所述第二溯源编号与所述第一SPO三元组对应的第一溯源编号关联,从而使一个元数据对应的整个对象数据的片段数据都在该元数据的所述第一溯源编号下,通过查询所述第一溯源编号就可以追溯第二溯源编号,从而追溯片段数据。

在一些实施例中,除了将一个元数据对应的整个对象数据的片段数据关联起来,还可以将多个元数据对应的不同的对象数据中的多个片段数据进行关联。根据上述生成目录集合的过程可知,不同的元数据的所述第一SPO三元组对应的第一溯源编号可以放在同一个子目录下,而一个所述第一溯源编号又可以关联多个第二溯源编号,在本实施例中,可以将属于同一子目录下的所述第二溯源编号关联起来,使属于一个子目录下的全部片段数据都可以关联起来。

本发明实施例提供了一种基于图书馆的知识图谱构建方法,该方法能够将海量的数字文献资源建立一个完整的知识体系,该知识体系具有碎片化知识追溯功能,能够满足用户的不同需求,提升了图书馆的服务效能。

请参阅图2,图2是本发明另一实施例提供的一种基于图书馆的知识图谱构建方法的流程图,图2与图1的主要区别在于,所述方法还包括:

S105、将采集的图片与所述知识图谱进行关联。

在本实施例中,还可以获取与所述元数据相关的图片,比如,图片是作者的图像。还可以获取与所述对象数据相关的图片,比如,图片是对该对象数据描述的物体的展现,等等。所获得的图片最后与建立的知识图谱进行关联,具体包括:将获得的图片进行唯一编号,将所述图片的编号与其对应的元数据的所述第一溯源编号关联一起,或者将所述图片的编号与其对应的对象数据的所述第二溯源编号关联一起。其中,所述图片的编号用于指向存放所述图片的载体。当用户进行碎片化知识溯源时,不仅提供碎片化知识,还提供其对应的图片。

在一些实施例中,除了关联图片之外,还可以关联音频、视频等。

本实施例提供的基于图书馆的知识图谱构建方法将获得的图片与建立的知识图谱关联,丰富了所建立的知识图谱的内容;另外,在碎片化知识溯源时,使用户有更好的体验,提升了图书馆的服务效能。

请参阅图3,图3是本发明实施例提供的一种碎片化知识的生成方法的流程图,图3与图2的主要区别在于,所述方法还包括:

S106、获取用户输入的信息;

S107、根据所述用户输入的信息和所述知识图谱生成碎片化知识。

其中,所述信息包括关键词、音频、视频、图片中的至少一种。

根据所述用户输入的信息和所述知识图谱生成碎片化知识包括:

在所述信息为关键词时,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为图片时,基于图像识别获得所述图片对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为音频时,基于音频识别获得所述音频对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识。

比如,用户通过录音的方式获得一音频,系统获得所述音频后可以将所述音频转换为文本(即关键词),再根据所述知识图谱查找所述音频对应的对象数据,然后生成碎片化知识。又比如,用户手机拍摄一张包含某种物品图片,用户在不了解该物品的名称等其他信息的情况下,可以通过输入所述图片至系统中,经过图像处理和图像识别后,根据所述知识图谱生成所述图片对应的碎片化知识。

其中,用户可以通过APP、小程序、网页等其他方式输入所述关键词、所述音频、所述图谱等。

其中,所述根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识包括:根据所述第一溯源编号对应的对象数据分别提取一片段,融合全部所述片段,以生成碎片化知识。这里是将全部获得的对象数据进行整合,最后生成一个碎片化知识。

可以理解的是,为了满足用户不同的需求,可以将整合后的对象数据进一步提取关键数据,再整合所述关键数据。因此,所述根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识包括:根据所述第一溯源编号对应的所述对象数据分别生成多个一级摘要,并基于摘要提取关联元素,将所述多个一级摘要生成二级摘要,其中,所述摘要关联元素包括历史摘要提取篇幅、出版物发行时间、读者行为习惯、总字数、资源丰富度中的一个或多个。

需要说明的是,除了生成二级摘要之外,还可以进一步生成三级,四级,乃至多级摘要,以使最后获得的碎片化知识满足用户的需求。

上述方法是根据用户输入的信息来生成碎片化知识,在一些实施例中,所述系统还可以基于摘要自动化生成技术自动生成碎片化知识。

请参阅图4,图4是本发明另一实施例提供的一种碎片化知识生成方法的流程图,图4与图2的主要区别在于,所述方法还包括:

S108、遍历所有生成的第一溯源编号;

S109、根据所述第一溯源编号对应的数字资源文献内容,生成与所述第一溯源编号相对应的碎片化知识。

可以知道的是,第一溯源编号是用于标识元数据的,每一元数据可以关联多个对象数据,根据所述第一溯源编号可以获得其对应的全部对象数据,然后基于摘要自动化生成技术生成所述对象数据对应的碎片化知识。所述摘要自动化生成技术可以参考相关技术的记载。

在本实施例中,可以根据建立好的知识图谱自动生成碎片化知识,由此,可以用一段文字描述一本书,该一段文字是根据该书的具体内容获得的。还可以将提供文献资源由读者自己分析转换成提供知识,由读者判断使用,并且也是图书馆文献实现数据化和语义化的基石。

在一些实施例中,所述方法还包括:收集知识满意度、修改意见等用户体验数据,系统对回流数据和用户画像数据进行分析,作为文本、图片、音频、视频资源分析识别、文本摘要提取的学习依据,实现有监督学习的模型训练。其中,所述用户体验数据包括用户数据和用户画像数据。

其中,该回流数据指回流用户通过使用产生的数据。回流用户是超过特定阈值未进行访问或使用的用户,重新访问或使用的用户。如,定义超过7个日历日未访问或使用的用户,重新访问或使用。采集到这类回流用户后,可以根据该用户年龄、职业、性别、工作单位、户籍等等用户画像数据,分析出可能产生回流用户的原因,使用习惯,使用知识专题范围、阅读深度等信息。从而加大满意度、修改意见等数据在训练过程中的权重,达到增大回流用户提升服务效果的目的。

本发明实施例提供的碎片化知识生成方法,能够使用户通过输入关键词的方式即可获得其查询的碎片化知识,对于用户来说,可以利用碎片化的时间获取知识碎片,满足了用户的各类知识需求。此外,也提升了图书馆的服务效能。

基于上述方法实施例,下述给出一个实例用于说明所述基于图书馆的知识图谱构建方法和所述碎片化知识的生成方法。例如,包括文章A和文章B。首先提取文章A的元数据和对象数据,并生成元数据对应的SPO三元组和对象数据对应的SPO三元组,具体包括:

·元数据

文章A(出版社AP出版时间2020年作者张三)

·对象数据

广西地处中国地势第二阶梯中的云贵高原东南边缘,两广丘陵西部,地势西北高、东南低,呈现西北向东南倾斜。地貌总体由山地、丘陵、台地、平原、石山、水面6大类构成。广西属亚热带季风气候和热带季风气候,地跨珠江、长江、红河、滨海四大水系。

·对象分词

广西,地处,中国,地势,势,第二,二阶,二,阶梯,阶,梯,中,云贵高原,云贵,云,贵,高原,东南边,东南,南边,边缘,缘,两广,两,广,丘陵,丘,陵,西部,地势,势,西北,高,东南,低,呈现,呈,现,西北向,西北,向东,东南,倾斜,倾,斜,地貌,貌,总体,体,由,山地,丘陵,丘,陵,台地,台,地,平原,石山,水面,面,6,大类,大,类,构成,广西,属,亚热带,亚热,亚,热带季风气候,热带,季风气候,季风,季,风气,气候,和,热带季风气候,热带,季风气候,季风,季,风气,气候,地跨,跨,珠江,江,长江,江,红河,河,滨海,滨,海,四大,四,大水,大,水系

·元数据SPO

{"object":"文章A","predicate":"出版","subject":"AP"}

{"object":"文章A","predicate":"发行","subject":"2020"}

{"object":"文章A","predicate":"作者","subject":"张三"}

{"object":"张三","predicate":"投稿","subject":"AP"}

·对象数据SPO

{"object":"广西","predicate":"地处","subject":"中国"}

{"object":"广西","predicate":"地处","subject":"云贵高原"}

{"object":"山地","predicate":"构成","subject":"广西"}

{"object":"丘陵","predicate":"构成","subject":"广西"}

{"object":"台地","predicate":"构成","subject":"广西"}

{"object":"平原","predicate":"构成","subject":"广西"}

{"object":"石山","predicate":"构成","subject":"广西"}

{"object":"水面","predicate":"构成","subject":"广西"}

{"object":"广西","predicate":"属","subject":"季风气候"}

{"object":"广西","predicate":"地跨","subject":"珠江"}

{"object":"广西","predicate":"地跨","subject":"长江"}

{"object":"广西","predicate":"地跨","subject":"红河"}

{"object":"广西","predicate":"地跨","subject":"滨海"}

然后,提取文章B的元数据和对象数据,并生成元数据对应的SPO三元组和对象数据对应的SPO三元组,具体包括:

·元数据

文章B(出版设AP出版时间2019年作者张三)

·对象数据

广西历史悠久,早在80万年前广西就有原始人类生息了。在四、五万年前旧石器时代晚期,就有“柳江人”和“麒麟山人”在此劳作生息。距今2-1万年前的“麒麟山人”已学会和使用钻孔与磨尖的石器。

·对象分词

广西,西历,历史悠久,历史,悠久,悠,久,早在,80,万年,万,年前,广西,就有,原始人,原始,人类,生息,四,五万,万年,万,年前,旧石器时代,旧石器,旧,石器时代,石器,时代,晚期,就有,柳江,柳,江,柳江人,和,麒麟山,麒麟,麒,麟,山人,麒麟山人,在此,劳作,劳,作,生息,距今,距,今,2-1,2,1,万年,万,年前,麒麟山,麒麟,麒,麟,山人,已,学会,和,使用,钻孔,孔,磨,尖,石器

·元数据SPO

{"object":"文章B","predicate":"出版","subject":"AP"}

{"object":"文章B","predicate":"发行","subject":"2019"}

{"object":"文章B","predicate":"作者","subject":"张三"}

·对象数据SPO

{"object":"广西","predicate":"有","subject":"原始人"}

{"object":"原始人","predicate":"有","subject":"柳江人"}

{"object":"原始人","predicate":"有","subject":"麒麟山人"}

{"object":"旧石器时代","predicate":"就有","subject":"柳江人"}

{"object":"旧石器时代","predicate":"就有","subject":"麒麟山人"}

{"object":"麒麟山人","predicate":"钻孔","subject":"石器"}

{"object":"麒麟山人","predicate":"磨","subject":"石器"}

接下来,基于上述元数据SPO三元组和对象数据SPO三元组生成知识图谱,所生成的知识图谱如图5所示。

最后,基于所述知识图谱输出碎片化知识。

比如,关键词为“广西”,可以得到的摘要包括:

“广西地处云贵高原边缘,由山地、丘陵、台地、平原、石山、水面构成,属季风气候。地跨四大水系。广西历史悠久,有‘柳江人’和‘麒麟山人’原始人。‘麒麟山人’已学会和使用钻孔与磨尖的石器。”

请参阅图6,图6是本发明实施例提供的一种基于图书馆的知识图谱构建装置的结构示意图,所述装置包括:数据获取模块21、元数据图谱生成模块22、对象数据图谱生成模块23和知识图谱生成模块24。

其中,所述数据获取模块21用于获取数字文献资源;所述元数据图谱生成模块22用于从所述数字文献资源中提取元数据,根据所述元数据生成元数据图谱;所述对象数据图谱生成模块23用于根据所述元数据获取对象数据,并根据所述对象数据生成对象数据图谱;所述知识图谱生成模块24用于融合所述元数据图谱和所述对象数据图谱,以生成知识图谱。

其中,所述元数据图谱生成模块22具体用于:提取元数据,并生成所述元数据对应的第一溯源编号;将所述元数据进行分词处理,识别出实体、关系词和感情词,基于所述实体、所述关系词和所述感情词构建第一SPO三元组,所述第一SPO三元组包括其对应的所述第一溯源编号。

其中,所述对象数据图谱生成模块23具体用于:根据所述元数据包含的地址元素获取所述元数据对应的对象数据;获取所述对象数据的类型;在所述对象数据为文本类型时,对所述对象数据进行分词处理,识别出实体、关系词和感情词;生成所述实体、所述关系词和所述感情词对应的第二溯源编号;基于所述实体、所述关系词和所述感情词构建第二SPO三元组,所述第二SPO三元组中的每一所述实体、所述关系词和所述感情词包括其对应的所述第二溯源编号。

在一些实施例中,所述装置20还包括文件类型转换模块25,所述文件类型转换模块25用于在所述对象数据为视频和/或音频类型时,将所述对象数据转换为文本类型,并将转换后的文本类型是对象数据发送给对象数据图谱生成模块23,以使所述对象数据图谱生成模块23基于转换后的所述对象数据执行所述根据所述对象数据生成对象数据图谱的步骤。

其中,所述知识图谱生成模块24具体用于:根据所述第一SPO三元组,关联包含相同关系的所述第一SPO三元组,以生成目录集合,所述目录集合由多个所述第一SPO三元组构成;根据所述第一溯源编号和所述第二溯源编号将所述目录集合中的第一SPO三元组与所述第二SPO三元组关联,以生成知识图谱。

在一些实施例中,所述装置20还包括图谱关联模块26,所述图谱关联模块26用于将采集的图片与所述知识图谱进行关联。

在一些实施例中,所述装置20还包括碎片化知识生成模块27,所述碎片化知识生成模块27用于根据用户输入的信息和所述知识图谱生成碎片化知识,并输出所述碎片化知识。所述碎片化知识生成模块27具体用于:

获取用户输入的信息,所述信息包括关键词、图片和音频;

在所述信息为关键词时,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为图片时,基于图像识别获得所述图片对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识;

在所述信息为音频时,基于音频识别获得所述音频对应的关键词,根据所述关键词检索知识图谱,以获得所述关键词在所述知识图谱中对应的知识点的第一溯源编号,根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识。

其中,所述根据所述第一溯源编号对应的数字资源文献内容,生成所述第一溯源编号对应的碎片化知识包括:

根据所述第一溯源编号对应的对象数据分别提取一片段,融合全部所述片段,以生成碎片化知识;或者;

根据所述第一溯源编号对应的所述对象数据分别生成多个一级摘要,并基于摘要提取关联元素,将所述多个一级摘要生成二级摘要,其中,所述摘要关联元素包括历史摘要提取篇幅、出版物发行时间、读者行为习惯、总字数、资源丰富度中的一个或多个。

在一些实施例中,所述碎片化知识生成模块27具体还用于:遍历所有生成的第一溯源编号,其中,所述第一溯源编号可以根上述的基于图书馆的知识图谱构建方法实施例来获得;根据所述第一溯源编号对应的数字资源文献内容,生成与所述第一溯源编号相对应的碎片化知识。

需要说明的是,上述基于图书馆的知识图谱构建装置可执行本发明实施例所提供的基于图书馆的知识图谱构建方法和碎片化知识的生成方法,具备执行方法相应的功能模块和有益效果。未在基于图书馆的知识图谱构建装置实施例中详尽描述的技术细节,可参见本发明实施例所提供的基于图书馆的知识图谱构建方法和碎片化知识的生成方法。

请参阅图7,图7是本发明实施例提供的执行所述基于图书馆的知识图谱构建方法和所述碎片化知识生成方法的电子设备的硬件结构示意图,如图7所示,该电子设备30包括:

一个或多个处理器31以及存储器32,图7中以一个处理器31为例。

处理器31和存储器32可以通过总线或者其他方式连接,图6中以通过总线连接为例。

存储器32作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于图书馆的知识图谱构建方法和碎片化知识的生成方法对应的程序指令/模块(例如,附图6所示的各个模块)。处理器31通过运行存储在存储器32中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于图书馆的知识图谱构建方法和碎片化知识的生成方法。

存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于图书馆的知识图谱构建装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至基于图书馆的知识图谱构建装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器32中,当被所述一个或者多个处理器31执行时,执行上述任意方法实施例中的基于图书馆的知识图谱构建方法和碎片化知识的生成方法,例如,执行以上描述的图1、2和3、4中的方法步骤,和实现图6中的模块的功能。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

本发明实施例提供的电子设备以多种形式存在,包括但不限于:

超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性;

服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高;

以及其他具有数据交互功能的电子装置。

本发明实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被一个或多个处理器执行,例如执行上述实施例的基于图书馆的知识图谱构建方法和碎片化知识的生成方法。

本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被所述电子设备执行时,使所述电子设备执行上述实施例中的基于图书馆的知识图谱构建方法和碎片化知识的生成方法。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号