法律状态公告日
法律状态信息
法律状态
2018-08-17
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160427 终止日期:20170729 申请日:20130729
专利权的终止
2016-04-27
授权
授权
2013-12-04
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130729
实质审查的生效
2013-11-13
公开
公开
技术领域
本发明涉及知识浏览的方法,尤其涉及一种基于知识地图的领域知识浏览 方法。
背景技术
信息过载现象指的是由于过多的信息提供给信息使用者,造成信息使用者 无法进行处理(理解内容或找到感兴趣的内容)的现象。这种现象在互联网信 息浏览中广泛存在。为改善信息过载,目前采用较多的方法主要是两种,一种 是采用信息可视化的方法使得信息的呈现更加直观,另一种是采用监测用户浏 览行为并作出预测的方法。
信息可视化方法主要是通过采用文本分类聚类技术将内容自动的分类,并 采用多维标度技术将分类信息映射到二维或者三维空间,利用空间中的点来表 示信息。这种方法以直观的方式展示信息,能够很好减少信息过载现象的发生。 但是同时随着信息量的增加,采用可视化的方法会带来视觉过载(Visual Overload)。视觉过载指的是在一定的空间中呈现过多的信息造成信息浏览困 难的现象。
检测用户浏览行为能够很好的解决大量信息情况下所带来的信息过载问 题,采用后台运行的监测技术不会给信息使用者带来新的工作负载。但应用该 方法需要长时间的监测用户的行为数据,这种行为信息在很多情况下是不能够 获得或者由于安全问题不能进行收集和处理。此外单纯的使用这种方法只能适 用于信息使用者基本了解相关信息,并浏览过有关内容的情况。
现有的辅助浏览技术主要应用于互联网信息浏览辅助,并不能够很好地支 持领域知识浏览。主要是由于如下几个方面的原因:(1)现有的信息可视化方 法主要是支持互联网信息的可视化,可视化技术实现过程中可以利用网页的内 容、相互之间的链接关系以及网页元语等信息。而领域知识中除了内容之外, 没有其他的可用信息,因此往往不能够实现有效的信息可视化效果;(2)领域 知识往往没有进行统一的管理,而是以文件的形式存在,因此对于用户行为的 收集比较困难。本发明所针对的是不了解某一领域的信息使用者,因此该用户 的行为信息很少或者不存在;(3)特定领域中的知识存在一些先验已知的信息 (例如领域关键词集、关键词分布以及关系等),现有的方法并没有利用这些 信息提供更好的浏览辅助方法。综上所述,目前现有的方法并不能适用于特定 领域的知识浏览。
发明内容
本发明提出了一种基于知识地图的领域知识浏览方法,该方法能够对不熟 悉领域知识的用户进行导航。
一种基于知识地图的领域知识浏览方法,分为两个阶段,即:知识地图构 建与重要知识识别;其中共有三个数据对象,即:领域知识库、领域知识地图 以及重要知识,重要知识用于给知识使用者浏览知识库的起点,领域知识地图 用于在知识浏览过程中为知识使用者导航,领域知识库提供知识的具体流程;
知识地图构建具体包括以下步骤:
步骤一、领域知识表示,将领域知识库中的知识以可计算的方式进行表达;
步骤一中采用了向量空间模型VSM的方法来表示领域知识,知识库中的每 一条知识被表示为如公式(1)所示的形式:
k={(t1,w1),(t2,w2),......,(tM,wM)} (1)
其中ti表示的是存在于领域知识中的词汇,wi表示的是该词汇对知识的重要程 度,知识库中的每一条知识都可以表示为向量的形式,最终形成领域知识的共 现矩阵,并采用D表示共现矩阵。
步骤二、语义相似度计算,将共现矩阵D作为输入并输出相似度矩阵S;
步骤二中采用潜在语义分析技术LSA来计算领域知识之间的相似度,通过 线性代数中的奇异值分解方法将稀疏的共现矩阵映射到一个较低维度的空间 上,该压缩空间中各个维度之间相互正交,去除原矩阵中存在的噪音数据;最 后通过在低维正交空间中计算向量之间的夹角余弦值,并将该值作为知识之间 的相似度,两两计算所有知识之间的相似度,最终形成相似矩阵S作为该步骤 的输出。
步骤三、知识地图构建,将相似矩阵S作为输入并输出知识地图,相似矩 阵S中包含了所有知识之间的相似度,从这些相似度中识别出哪些被保留在最 终的知识地图中,哪些被删除。
步骤三中的相似度分析采用下述方法:
首先,将所有相似度由小到大分为四个类别并采用S、M、L2和L1表示, S表示最小的一部分相似度,指的是不存在关联的领域知识之间的相似度,即 需要删除的相似度;M表示中等大小的一组相似度,指的是普遍存在于某一领 域知识知识之间的关联,这种普遍相似度的存在会掩盖领域知识的关联特征, 因此被定义为噪音,需要被删除;L1表示最大的一组相似度,用于描述语义关 联紧密的领域知识,描述子领域内部知识的语义关系,需要被保留;L2表示较 大的一组相似度,子领域之间的关联关系存在于该组相似度中,因此该组相似 度需要被保留。
其次,按照相似度从到小的顺序不断地将相似度加入到知识地图中,直到 知识地图完全关联为止。
领域知识地图构建完成后,进入重要知识识别阶段,将构建完成的知识地 图作为输入并输出计算得到的重要知识,具体包括以下步骤:
步骤一、定义重要知识:将重要知识定义为包含领域信息较多的一组知识; 即相对应的顶点的度较大,因此将知识地图中度较大的一组顶点所对应的知识 作为重要知识;
步骤二、知识地图结构分析,确定所构建的知识地图中是否存在重要知识, 如果存在则进行下一步的重要知识计算,如果不存在则证明第一阶段中构建的 知识地图不合理,返回第一阶段重新分析领域知识,修改知识地图构建策略;
步骤二中采用图论中的算法确定知识地图的内部结构,包括小世界网络 的判别准则和无尺度网络的判别准则;
小世界网络的特征是较小的平均路径长度以及较大的聚集系数,平均路径 长度指的是从任意节点到其他节点的路径长度的平均值,利用公式(2)来计 算:
其中N指的是节点的数量,li,j指的是节点i到节点j的路径长度;聚集系数反映 了知识地图中的聚集程度,通过公式(3)进行计算:
其中di表示的是节点i的度,ei表示的是节点i的相邻节点间的关联数量;
无尺度网络的特征是所有节点的度符合幂分布,具体的方式是获取幂分 布之后通过幂函数拟合的方式来判断是否符合幂分布,拟合过程中获得判别标 准R,该值描述数据分布符合幂分布的程度,越接近于1则吻合程度越高,否则 相反;
如果知识地图同时符合小世界网络和无尺度网络的特征,则认为知识地图 聚集到不同的类别,类别中链接较紧密,类别之间存在链接,说明知识地图中 存在重要知识。
步骤三、重要知识计算,即识别重要知识的数量;
通过计算网络效率来计算重要知识的数量,即通过网络中的任意节点到达 另外一个节点的消耗,在知识地图中则表示从任意一条领域知识导航到另外一 条领域知识的容易程度;网络效率的公式(4)如下:
其中,di,j描述的是节点i与节点j之间的最短距离;不断地从知识地图中删除 度较高的节点,同时计算网络的效率,当网络效率降低到初始效率的10%时停 止,并确定重要知识的数量。
本发明的有益效果:
本发明中的方法不需要除领域知识库之外的其他信息,能够从领域知识库 中生成知识地图以及重要知识;采用潜在语义分析技术构建领域知识地图能够 较大幅度上去除领域中存在的噪音数据,突出领域知识地图的语义连接特征。
附图说明
图1本发明实施例中知识地图示意图;
图2本发明基于知识地图的领域知识浏览方法流程图;
图3本发明基于知识地图的领域知识浏览方法所有相似度的基本分析图;
图4本发明知识地图结构分析图;
具体实施方式
下面结合附图对本发明作进一步的介绍。
本发明提出了一种基于知识地图的领域知识浏览方法,该方法能够对不熟 悉领域知识的用户进行导航。本发明中的方法所需要的唯一输入是收集整理的 领域知识(这里的领域主要指的是文本类型的,其他类型的可以通过附加文本 信息或者标记方法转化为本文描述),输出为用于导航的领域知识地图以及一 组计算得到的重要知识。这里的知识地图指的是一组领域知识以及这些知识之 间的关联,在本发明中采用数学中的无向图来表达,附图1中给出了一个知识 地图的示例。该实例中包括了10条领域知识,部分领域知识之间存在着语义 关系,如图中的连线所示。重要知识指的是包含该领域信息较多的知识,这类 知识能够使用户更快的了解领域的相关内容。
附图2给出了方法的具体流程。该方法总体分为两个阶段,即:知识地图 构建与重要知识识别。方法中共有三个数据对象,即:领域知识库、领域知识 地图以及重要知识。重要知识用于给知识使用者浏览知识库的起点,领域知识 地图用于在知识浏览过程中为知识使用者导航,而领域这是库则能够提供知识 的具体流程。方法中主要的两个阶段又各包括三个步骤,下面按步骤阐述实现 方法。
知识地图构建阶段接收领域知识库作为输入并输出构建完成的知识地图, 其中包括三个子步骤,即:领域知识表示,语义相似度计算以及知识地图构建。
(1)领域知识表示
领域知识表示的目的是将领域知识库中的知识以可计算的方式进行表达, 本发明采用了向量空间模型(VSM)的方法来表示领域知识。知识库中的每一 条知识被表示为如公式1所示的形式。
k={(t1,w1),(t2,w2),.....,(tM,wM)} 公式1
公式1中的ti表示的是存在于领域知识中的词汇,wi表示的是该词汇对知识的 重要程度,起计算方法采用广泛使用的TF-IDF方法(TF-IDF是一种广泛采用 的权重计算方法,为减少篇幅,不再详述)。知识库中的每一条知识都可以表 示为向量的形式,最终形成领域知识的共现矩阵,本发明中采用D表示共现矩 阵。
(2)语义相似度计算
语义相似度计算将共现矩阵D作为输入并输出相似度矩阵S。本发明中采 用潜在语义分析技术(LSA)来计算领域知识之间的相似度,原因在于共现矩 阵D一般都是大型的稀疏矩阵,直接阶段会比较消耗资源,此外共现矩阵计算 过程中所采用的关键词并不是相互独立的。LSA技术通过线性代数中的奇异值 分解方法将稀疏的共现矩阵映射到一个较低维度的空间上。该压缩空间中各个 维度之间相互独立(正交),去除了原矩阵中存在的噪音数据。最后通过在低 维正交空间中计算向量之间的夹角余弦值,并将该值作为知识之间的相似度。 两两计算所有知识之间的相似度,最终形成相似矩阵S作为该步骤的输出。
(3)知识地图构建
知识地图构建将相似矩阵S作为输入并输出知识地图。如前所述本发明中 的知识地图指的是一组领域知识以及这些知识之间的关联。相似矩阵S中包含 了所有知识之间的相似度,该步骤的主要工作就是从这些相似度中识别出哪些 被保留在最终的知识地图中,哪些被删除。为此附图3给出了对所有相似度的 基本分析。
如附图3所示,本发明将所有相似度由小到大分为四个类别并采用S、M、 L2和L1表示。图中的+表示对应的相似度需要保留,-标示对应的相似度需要 删除。S表示最小的一部分相似度,指的是不存在关联的领域知识之间的相似 度(例如附图2中K6和K2之间不存在关联),因此需要删除这一组相似度。M 表示中等大小的一组相似度,指的是普遍存在于某一领域知识知识之间的关 联。同一个领域内的知识必然共用部分词汇,因此一个领域内知识的普遍相似 度。这种普遍相似度的存在会掩盖领域知识的关联特征,因此在本发明中被定 义为噪音,这一组噪音同样需要被删除。L1表示最大的一组相似度,用于描述 语义关联紧密的领域知识。一个领域内的知识一般可以划分为不同的子领域, 子领域内部语义关系更加紧密。该组相似度主要描述子领域内部知识的语义关 系,因此该组相似度需要被保留。L2表示较大的一组相似度,子领域之间的关 联关系存在于该组相似度中,因此该组相似度同样需要被保留。
基于以上的分析,本发明采用一种简单的方法来决定哪些相似度保留在最 终的知识地图中,即:按照相似度从到小的顺序不断地将相似度加入到知识地 图中,直到知识地图完全关联为止。这里的完全关联指的是图论中图的关联, 判别方法有成熟的方法,不再赘述。特别说明的是最终的知识地图中已经去除 了相似度的大小,采用布尔值进行表示(0表示无关联,1表示有关联)。
按照附图2所示的流程,领域知识地图构建完成后,进入重要知识识别阶 段。该阶段将构建完成的知识地图作为输入并输出计算得到的重要知识。该阶 段分为三个步骤,即:定义重要知识、知识地图结构分析以及重要知识计算。
(4)定义重要知识
根据不同的需求可以从不同角度定义重要知识。本发明将重要知识定义为 包含领域信息较多的一组知识。包含领域信息较多的一组知识与其他知识的关 联比较多,从数学图论的角度来说就是相对应的顶点的度较大。因此本发明将 知识地图中度较大的一组顶点所对应的知识作为重要知识。
(5)知识地图结构分析
知识地图结构分析的目的是要确定所构建的知识地图中是否存在重要知 识。在某些情况下知识地图中并不包含重要知识,例如知识地图中所有的顶点 的度数相似的情况下,认为所有的领域知识具有相似的重要程度,因此不存在 重要知识。附图4展示的是存在重要知识的知识地图示例。该知识地图中的知 识聚集成三个子领域,可知K1,K13和K8的度较大,因此其所对应的领域知识可 以被确定为重要知识。本发明中认为如果领域知识地图的内部结构与附图4所 示的结构相似,则知识地图中存在重要知识。
本发明通过采用图论中的算法确定知识地图的内部结构。小世界网络是一 种数学图的类型,在这种图中大部分的结点不与彼此邻接,但大部分结点可以 从其他结点经少数几步就可到达。若将一个小世界网络中的点代表一个人,而 连结线代表人与人认识,则这小世界网络可以反映陌生人由彼此共同认识的人 而连结的小世界现象。小世界网络的特征是较小的平均路径长度以及较大的聚 集系数。平均路径长度指的是从任意节点到其他节点的路径长度的平均值,可 用公式2来计算。
其中N指的是节点的数量,li,j指的是节点i到节点j的路径长度。聚集系数反 映了知识地图中的聚集程度,可以通过公式3进行计算。在社会网络分析中该 系数用于描述某人的朋友之间相识的程度。如果知识地图符合小世界网络的特 征则说明知识地图中的知识聚集到不同的子领域中,子领域内部关键较多。
其中di表示的是节点i的度,ei表示的是节点i的相邻节点间的关联数量。
无尺度网络是带有一类特性的复杂网络,其典型特征是在网络中的大部分 节点只和很少节点连接(节点的度很小),而有极少的节点与非常多的节点连 接(节点的度非常高),也就网络中所有节点度的分布符合幂律分布。如果知 识地图符合无尺度网络的特征,则认为网络中有很少一部分节点具有较高的 度,被视为知识地图的聚集中心。
本发明中如果知识地图同时符合小世界网络和无尺度网络的特征,则认为 知识地图与附图3所示的知识地图具有相似的内部结构,也说明知识地图中存 在重要知识。
(6)重要知识计算
重要知识计算的目的是识别重要知识的数量。由于重要知识本发明中重要 知识被定义为度较大的节点所对应的领域知识,因此识别总共有多少重要知识 就成了主要问题。为确定重要知识的数量,引入了网络效率的概念可以通过公 式4进行计算。网络效率描述的是通过网络中的任意节点到达另外一个节点的 消耗,在知识地图中则表示从任意一条领域知识导航到另外一条领域知识的容 易程度。
确定重要知识的思路是不断地从知识地图中删除度较高的节点,同时计算 网络的效率,当网络效率降低到初始效率的10%时停止,并确定重要知识的数 量。
机译: 基于人工智能的学术关系知识地图生成方法和机器人系统
机译: 基于知识地图上的经验路径提供游戏的设备和方法
机译: 基于知识地图的多用户游戏服务提供装置及方法