基于条件随机域模型的文本信息提取

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术，是自然语言处理领域中非常重要的子领域，是近十几年发展起来的新领域。它的前身是文本理解，是一种浅层的文本理解技术。文本信息抽取主要研究命名实体识别、实体关系抽取、指代消解和事件探测四个方面。本文介绍了信息抽取技术的发展历史和研究现状，分析了几种常用的统计语言模型的优缺点，给出基于条件随机域CRFs模型以解决组块标注、命名实体识别和实体关系抽取的问题。
　　论文首先归纳了信息抽取中常用的四种统计语言模型，对这四种统计语言模型的数学原理进行了分析和阐述，比较了它们的拓扑结构图。在此基础上，给出基于条件随机域CRFs模型解决文本信息抽取问题的方案。条件随机域CRFs模型是一个无向图模型，该模型不需要马尔可夫假设即可求出整个标记序列出现的概率，能更好地拟合真实世界的数据，被广泛用于自然语言处理的研究领域。同时讨论了适合CRFs统计模型的参数估计L-BFGS算法和序列标注Viterbi算法。
　　其次论文根据该课题要求给出了组块分析和组块标注的概念，阐述了组块的定义分类以及组块标注问题的研究现状。在分析了五种组块标注方法后，决定采用IOB2形式标注实验语料中的组块，选用条件随机域CRFs模型解决组块标注问题。
　　论文的第三个方面聚焦于实体识别和实体关系抽取工作，主要关注中文实体关系抽取问题，同时把关系任务领域细化到某一种关系抽取，即ACE2006定义中的第一大类型Physical下的两种子类型关系的抽取。
　　基于以上相关的理论分析，本文设计和实现了三个实验，即基于CRFs统计模型的组块标注实验、实体信息抽取实验和实体关系抽取实验，三个实验的数据结果充分说明采用的CRFs模型较为适合解决文本信息抽取中的一些实际问题。
　　论文最后根据实验结果分析，实现了一个文本信息抽取的原型系统CTIEC，该原型系统包括文本预处理模块、命名实体识别模块、句法分析模块、组块标注模块和实体关系抽取模块。

著录项

作者
周晶;
展开▼
作者单位

南京工业大学;

展开▼
授予单位南京工业大学;
学科计算机应用技术
授予学位硕士
导师姓名吴军华;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类随机微分方程;
关键词
条件随机域模型; 文本信息提取; 统计语言模型; 参数估计; 序列标注; 组块标注;

相似文献

中文文献
外文文献
专利

1. 基于条件随机域CRF模型的文本信息抽取 [J] . 周晶 ,吴军华 ,陈佳 . 计算机工程与设计 . 2008,第023期
2. 基于条件随机域的临床文本去识别研究 [J] . 都丽婷 ,夏晨曦 ,赵冬 . 中国卫生信息管理杂志 . 2017,第002期
3. 基于长距离依赖条件随机域的文本信息抽取 [J] . 朱道辉 ,肖基毅 ,程阳 . 计算机应用与软件 . 2011,第005期
4. 基于条件随机域模型的比较要素抽取研究 [J] . 王巍 ,赵铁军 ,辛国栋 . 自动化学报 . 2015,第008期
5. 基于树条件随机域模型的网络论坛帖子观点判别(英文) [J] . 吴越 ,胡勇 ,何小海 . 中国通信：英文版 . 2013,第8期
6. 条件随机域模型和实验分析 [C] . 欧阳佑 ,李素建 . 第三届学术计算语言学研讨会 . 2006
7. 基于条件随机域模型的中文地名识别的研究 [A] . 马龙 . 2009

基于条件随机域模型的文本信息提取

摘要

著录项

相似文献

相关主题

期刊订阅