首页> 中文学位 >基于浅层分析的量化关系抽取方法研究
【6h】

基于浅层分析的量化关系抽取方法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的内容及成果

1.4 论文组织结构

第2章 相关概念和技术

2.1 引言

2.2 浅层文本知识体系

2.3 N元模式组

2.4 量化关系

2.4 关系库相关概念

2.4.1 类库定义

2.4.2 基础关系模式库

2.4.3 扩展关系模式库

2.4.4 可定量的关键词词库

2.4.5 样本模式和实例模式

2.5 评测标准

2.6 本章小结

第3章 可定量实体关系抽取方法

3.1 引言

3.2 常见的抽取方法

3.2.1 基于规则的模式匹配方法

3.2.2 基于词典统计的方法

3.2.3 基于机器学习的方法

3.3 可定量实体关系抽取方法设计

3.3.1 量词处理

3.3.2 文本预处理

3.3.3 实体关系抽取

3.3.4 一对多关系实例

3.4 实验结果与分析

3.5 本章小结

第4章 面向领域的实体关系抽取系统的构建

4.1 引言

4.2 GATE信息系统

4.2.1 GATE文档管理器(GDM)

4.2.2 语言工程可重用组件CREOLE的管理

4.2.3 GATE系统的整体架构

4.3 基于GATE的中文信息抽取系统的解决思路

4.3.1 扩展中文分词的插件

4.3.2 运用GATE实现可量化实体关系系统的总体思路

4.3.3 中文分词和词性标注的实现

4.3.4 关系库和规则的构建

4.4 实体关系抽取效果

4.5 本章小结

总结及展望

参考文献

致谢

附录A 攻读学位期间主要成果

附录B 攻读学位期间所参与的项目

展开▼

摘要

面对数字化、网络化、大数据时代的海量信息资源,现有的信息抽取工具还不能有效地获取和发现信息之间内在的知识价值。国内外信息抽取技术的出现,将大批量的未分类的文本信息自动转化成结构化的信息成为可能。作者在经过大量的语料分析和技术方法研究的基础上,针对现阶段国内外实体关系信息系统的发展现状,提出了一种中文实体关系抽取的解决方案:定义可量化的实体关系,开发一整套抽取可量化实体关系的框架,并利用和改进成熟的英文信息抽取系统GATE,结合国内成熟的分词和词性标注工具ICTCLAS,实现了高准确率和召回率的可量化的实体关系抽取。
  本文重点提出解决中文信息抽取的3个重点环节,分别是中文分词和词性标注问题、可量化实体关系库的定义以及构建方法和量化实体关系库的系统化实现方案。除了运用ICTCLAS解决中文分词难的问题外,作者提出实体关系进行领域分类和量化属性的分类方法,并针对中文实体的特点编制了3类常见的实体关系模式的规则来获取海量的可量化实体关系集。
  系统实现后,作者还利用现有的领域新闻集对中文实体关系系统的实现进行逐步分析和叙述,并对系统的扩展性进行了多层次的探讨,验证了本系统的实用性和高效性。
  采用基于改进的信息系统GATE结合ICTCLAS分析工具,提取可量化的中文实体关系是一次十分有意义的尝试,基本解决了中文实体关系难定位的问题,挖掘了中文实体关系的量化属性,并且为后续的中文信息抽取研究构建了良好的框架。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号