首页> 中文学位 >基于条件随机域模型的文本信息提取
【6h】

基于条件随机域模型的文本信息提取

代理获取

摘要

信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术,是自然语言处理领域中非常重要的子领域,是近十几年发展起来的新领域。它的前身是文本理解,是一种浅层的文本理解技术。文本信息抽取主要研究命名实体识别、实体关系抽取、指代消解和事件探测四个方面。本文介绍了信息抽取技术的发展历史和研究现状,分析了几种常用的统计语言模型的优缺点,给出基于条件随机域CRFs模型以解决组块标注、命名实体识别和实体关系抽取的问题。
   论文首先归纳了信息抽取中常用的四种统计语言模型,对这四种统计语言模型的数学原理进行了分析和阐述,比较了它们的拓扑结构图。在此基础上,给出基于条件随机域CRFs模型解决文本信息抽取问题的方案。条件随机域CRFs模型是一个无向图模型,该模型不需要马尔可夫假设即可求出整个标记序列出现的概率,能更好地拟合真实世界的数据,被广泛用于自然语言处理的研究领域。同时讨论了适合CRFs统计模型的参数估计L-BFGS算法和序列标注Viterbi算法。
   其次论文根据该课题要求给出了组块分析和组块标注的概念,阐述了组块的定义分类以及组块标注问题的研究现状。在分析了五种组块标注方法后,决定采用IOB2形式标注实验语料中的组块,选用条件随机域CRFs模型解决组块标注问题。
   论文的第三个方面聚焦于实体识别和实体关系抽取工作,主要关注中文实体关系抽取问题,同时把关系任务领域细化到某一种关系抽取,即ACE2006定义中的第一大类型Physical下的两种子类型关系的抽取。
   基于以上相关的理论分析,本文设计和实现了三个实验,即基于CRFs统计模型的组块标注实验、实体信息抽取实验和实体关系抽取实验,三个实验的数据结果充分说明采用的CRFs模型较为适合解决文本信息抽取中的一些实际问题。
   论文最后根据实验结果分析,实现了一个文本信息抽取的原型系统CTIEC,该原型系统包括文本预处理模块、命名实体识别模块、句法分析模块、组块标注模块和实体关系抽取模块。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号