面向海量专业文献的知识脉络图构建与挖掘

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速普及和硬件存储技术的发展，人们可以轻松的在不同的设备上浏览、获取到各类的数字资源，也可以通过 Google Scholar、CNKI、万方、百度学术等众多的学术数据库或学术搜索引擎获取到所需的专业文献。从互联网上获取海量的电子资源已经成为一件轻松简单的事情，但是随之出现的问题是，现有的知识服务已经无法满足人们对信息“快速、简单、准确”的需求。因此，如何从海量文献中挖掘并构建出知识脉络图，以帮助用户解决知识精准获取等问题，具有实际的应用价值和研究意义。
　　知识脉络图构建过程中的核心环节是针对这类专业文献文本进行知识实体识别并抽取出知识实体的类型信息，建立结构化的专业知识体系。相对于一般的实体而言，知识实体是一类具有专业领域特性、能概括表达文献中核心知识点的术语。专业文献的知识实体抽取是个特殊的实体抽取问题，有助于实现专业文献信息的结构化描述。而知识实体的类型标注则是实体抽取的一个重要组成部分，更是后续抽取知识实体关系、构建知识脉络图的重要依据。
　　然而，在构建知识脉络图的过程中存在两个困难问题：1.知识实体的类型多而繁杂，难以通过人工的方式定义其类别；2.类型标签多、分类细，导致人工标注难度较高，同时标注后训练集的标签维度也过高，所以常用的有监督标注方法并不适用。
　　为了解决这两个难题，本文通过分析实验从真实文献数据中发现并总结出知识实体类型的独有特性，根据这些特性首先提出一种结合摘要信息的启发式类型抽取方法（HRA++Abstract）来实现类型标签的抽取及部分知识实体的类型标注，进而再提出一种基于多标签加权的标签传播方法（MLW-LPA）实现对其余知识实体的类型标注。通过大量真实的专业文献数据上的实验证明，本文提出的HRA+Abstract+MLW-LPA类型抽取及标注方法比传统的CRF标注方法更适用于专业文献中知识实体类型的标注任务。
　　最后，本文以得到的知识实体及其对应类型标签为基础，构建知识关系，提出一个知识脉络图可视化系统的构建方案，并给出该系统基本框架和系统原型。该系统有助于科研工作者在科研方向上获得有价值的参考和启发，可以进一步推广应用到现实生活的其他领域。

著录项

作者
伍思杰;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科计算机技术
授予学位硕士
导师姓名温雯,姚晓波;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
海量专业文献; 知识脉络图; 类型标注; 标签传播; 数据可视化;

相似文献

中文文献
外文文献
专利

1. 一种面向海量网络审计日志的敏感用户挖掘分析架构 [J] . 李栋科 . 信息安全与技术 . 2018,第004期
2. 一种面向海量网络审计日志的敏感用户挖掘分析架构 [J] . 李栋科12 . 网络空间安全 . 2018,第004期
3. 面向林业物联网的海量时空数据流挖掘关键问题研究 [J] . 周颖 ,徐达宇 . 物联网技术 . 2016,第007期
4. 一种基于改进的DBSCAN的面向海量船舶位置数据码头挖掘算法 [J] . 丁兆颖 ,姚迪 ,吴琳 . 计算机工程与科学 . 2015,第011期
5. 面向海量数据的空间co-location模式挖掘新算法 [J] . 姚华传 ,王丽珍 ,陈红梅 . 计算机科学与探索 . 2015,第001期
6. 文献检索服务中的知识脉络图分析 [C] . Yang Jianlin ,杨建林 ,Zheng Changxing . 第一届两岸三地科学计量学与信息计量学研讨会 . 2013
7. 面向RFID海量数据的图挖掘技术研究 [A] . 孙艳 . 2011

面向海量专业文献的知识脉络图构建与挖掘

目录

摘要

著录项

相似文献

相关主题

期刊订阅