基于信息抽取的实体知识库系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，互联网发展迅速，网络数据量飞速增长，这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:
　　论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题，依据相同类别的中文命名实体往往具有结构或规则的相似性的特点，分实体类别采用不同的识别过程，实现命名实体的有效识别。提出通过设置不同的特征模板，使用条件随机场算法训练得到实体识别模板，并且针对识别难度较高的地名实体、组织机构实体采用校准规则，提升整体识别效果，完成命名实体识别模型的构建。
　　此外，论文提出了一种面向网络新闻语料，从大规模数据中抽取实体关系的无监督实体关系抽取模型，该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数，对有关系的实体对进行识别;使用句法分析构建规则，提取关系特征词，并结合“上下文窗口”的特征词提取方法的结果，建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法，实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类，得到实体关系。
　　为了验证方法的有效性，论文使用网络获取的语料，分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析，可以看出，论文提出的方法能够有效地识别命名实体及其关系，提升实体知识库系统的数据采集性能。

著录项

作者
李明鑫;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科电子与通信工程
授予学位硕士
导师姓名刘云;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
实体知识库; 命名实体识别; 关系抽取; 特征词提取;

相似文献

中文文献
外文文献
专利

1. 基于规则和本体的实体关系抽取系统研究 [J] . 朱姗 . 情报杂志 . 2010,第B12期
2. 基于主体知识库的WEB主体信息抽取系统 [J] . 陈磊 . 科技信息 . 2011,第032期
3. 基于主体知识库的Web主体信息抽取系统 [J] . 陈金鑫 ,罗立群 . 软件导刊 . 2007,第010期
4. 基于多维信息融合的知识库问答实体链接 [J] . 曾宇涛 ,林谢雄 ,靳小龙 . 模式识别与人工智能 . 2019,第007期
5. 基于信息融合标注的实体及关系联合抽取方法 [J] . 马建红 ,魏字默 ,陈亚萌 . 计算机应用与软件 . 2021,第007期
6. 基于Web信息的实体关系抽取 [C] . . 全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会 . 2008
7. 融合知识库和文本信息的实体关系抽取研究 [A] . 刘壮 . 2019

基于信息抽取的实体知识库系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅