首页> 中文学位 >面向海量专业文献的知识脉络图构建与挖掘
【6h】

面向海量专业文献的知识脉络图构建与挖掘

代理获取

目录

第一章 绪 论

1.1研究背景及意义

1.2国内外研究现状

1.3本文主要工作

1.4论文组织架构

第二章 相关工作

2.1知识图谱

2.2命名实体识别

2.3实体类型标注

2.4条件随机场模型

2.5标签传播算法

2.6本章小结

第三章 知识实体识别及特性分析

3.1问题描述

3.2知识实体边界识别

3.3知识实体特性分析

3.4知识实体边界与类型歧义的问题探讨

3.5本章小结

第四章 知识实体类型抽取及标注方法

4.1方法基本思想

4.2结合摘要信息的启发式类型抽取方法

4.3基于多标签加权的标签传播算法

4.4本章小结

第五章 实验结果与分析

5.1实验数据与任务说明

5.2实验结果及分析

5.3本章小结

第六章 知识脉络图可视化系统构建方案

6.1知识关系构建

6.2系统架构

6.3系统原型

6.4本章小结

总结与展望

参考文献

攻读学位期间发表论文

声明

致谢

展开▼

摘要

随着互联网的快速普及和硬件存储技术的发展,人们可以轻松的在不同的设备上浏览、获取到各类的数字资源,也可以通过 Google Scholar、CNKI、万方、百度学术等众多的学术数据库或学术搜索引擎获取到所需的专业文献。从互联网上获取海量的电子资源已经成为一件轻松简单的事情,但是随之出现的问题是,现有的知识服务已经无法满足人们对信息“快速、简单、准确”的需求。因此,如何从海量文献中挖掘并构建出知识脉络图,以帮助用户解决知识精准获取等问题,具有实际的应用价值和研究意义。
  知识脉络图构建过程中的核心环节是针对这类专业文献文本进行知识实体识别并抽取出知识实体的类型信息,建立结构化的专业知识体系。相对于一般的实体而言,知识实体是一类具有专业领域特性、能概括表达文献中核心知识点的术语。专业文献的知识实体抽取是个特殊的实体抽取问题,有助于实现专业文献信息的结构化描述。而知识实体的类型标注则是实体抽取的一个重要组成部分,更是后续抽取知识实体关系、构建知识脉络图的重要依据。
  然而,在构建知识脉络图的过程中存在两个困难问题:1.知识实体的类型多而繁杂,难以通过人工的方式定义其类别;2.类型标签多、分类细,导致人工标注难度较高,同时标注后训练集的标签维度也过高,所以常用的有监督标注方法并不适用。
  为了解决这两个难题,本文通过分析实验从真实文献数据中发现并总结出知识实体类型的独有特性,根据这些特性首先提出一种结合摘要信息的启发式类型抽取方法(HRA++Abstract)来实现类型标签的抽取及部分知识实体的类型标注,进而再提出一种基于多标签加权的标签传播方法(MLW-LPA)实现对其余知识实体的类型标注。通过大量真实的专业文献数据上的实验证明,本文提出的HRA+Abstract+MLW-LPA类型抽取及标注方法比传统的CRF标注方法更适用于专业文献中知识实体类型的标注任务。
  最后,本文以得到的知识实体及其对应类型标签为基础,构建知识关系,提出一个知识脉络图可视化系统的构建方案,并给出该系统基本框架和系统原型。该系统有助于科研工作者在科研方向上获得有价值的参考和启发,可以进一步推广应用到现实生活的其他领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号