首页> 中文学位 >基于信息抽取的实体知识库系统研究
【6h】

基于信息抽取的实体知识库系统研究

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 国外信息抽取研究现状

1.2.2 中文信息抽取研究现状

1.3 论文主要内容

1.4 论文组织结构

2 实体知识库系统及相关技术

2.1 系统整体结构

2.2 数据抓取部分

2.2.1 维基百科数据抓取

2.2.2 新闻数据抓取

2.3 信息抽取相关技术

2.3.1 命名实体抽取

2.3.2 实体关系抽取

2.4 本章小结

3 基于CRF的命名实体识别

3.1 命名实体特征

3.2 命名实体识别模型

3.2.1 命名实体识别流程

3.2.2 地名实体识别校准

3.2.3 组织机构实体识别校准

3.3 CRF模型训练算法

3.3.1 CRF模型参数估计

3.3.2 CRF模型训练

3.4 特征集的构建

3.4.1 训练语料的转换

3.4.2 特征模板

3.5 特征选择

3.6 实验及结果

3.6.1 评价标准

3.6.2 实验及结果分析

3.7 本章小结

4 无监督实体关系抽取

4.1 实体关系抽取模型

4.2 实体关系对筛选

4.3 关系特征词提取

4.4 关系特征词聚类

4.4.1 聚类技术

4.4.2 无监督关系抽取聚类方法

4.4.3 基于词向量的AP聚类

4.5 实验及结果

4.5.1 评价标准

4.5.2 实验及结果分析

4.6 本章小结

5 总结及展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:
  论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题,依据相同类别的中文命名实体往往具有结构或规则的相似性的特点,分实体类别采用不同的识别过程,实现命名实体的有效识别。提出通过设置不同的特征模板,使用条件随机场算法训练得到实体识别模板,并且针对识别难度较高的地名实体、组织机构实体采用校准规则,提升整体识别效果,完成命名实体识别模型的构建。
  此外,论文提出了一种面向网络新闻语料,从大规模数据中抽取实体关系的无监督实体关系抽取模型,该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数,对有关系的实体对进行识别;使用句法分析构建规则,提取关系特征词,并结合“上下文窗口”的特征词提取方法的结果,建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法,实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类,得到实体关系。
  为了验证方法的有效性,论文使用网络获取的语料,分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析,可以看出,论文提出的方法能够有效地识别命名实体及其关系,提升实体知识库系统的数据采集性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号