首页> 中文学位 >统计方法信息抽取中的若干关键技术研究
【6h】

统计方法信息抽取中的若干关键技术研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1课题背景

1.2研究意义

1.3研究历史与现状

1.3.1基本研究方法

1.3.2研究历程和主要发展

1.3.3产业化应用

1.4研究目标

1.5本文工作和论文组织

第2章基于字符层语言模型的多语种识别

2.1引言

2.2字符层语言模型

2.2.1马尔科夫模型

2.2.2解码和语种选择

2.2.3基于EM算法的参数估计

2.3多语种识别实验

2.4相关研究

2.5小结

第3章结合主动学习的无督导分词

3.1引言

3.2四种无督导分词算法的对比研究

3.2.1基于统计的无督导分词方法

3.2.2基于机器学习的无督导分词方法

3.2.3两类算法的对比分析

3.3 n-multigram语言模型的无督导训练

3.3.1 n-multigram语言模型的形式化描述

3.3.2分词语言模型的EM训练

3.3.3基于互信息的词典修剪

3.4具有主动学习能力的分词算法

3.4.1主动学习(Active Learning)

3.4.2 Active-Viterbi分词算法

3.5实验

3.5.1实验系统结构

3.5.2实验环境

3.5.3数据与分析

3.6小结

第4章基于最大熵框架的人名地名识别

4.1引言

4.1.1命名实体识别的基本概念

4.1.2命名实体识别的主要问题和主要方法

4.1.3中文人名和地名的识别

4.2最大熵框架

4.3作为语言学资源的语义偏旁

4.3.1作为表意系统的汉字及其部首体系

4.3.2语义偏旁

4.3.3语义偏旁对中文信息处理的价值

4.3.4语义偏旁与人名的内在联系

4.3.5基于语料库的语义偏旁与人名的相关性分析

4.4集成语义偏旁信息的人名地名识别算法

4.4.1基于最大熵框架的人名地名识别算法

4.4.2在最大熵框架内集成语义偏旁信息

4.5实验

4.5.1实验系统

4.5.2实验环境

4.5.3实验结果及数据分析

4.6相关研究

4.7小结

第5章采用主动学习策略的组织机构名识别

5.1引言

5.2机构名在中文命名实体识别中的位置

5.3基于最大熵框架的组织机构名识别

5.4采用主动学习策略的组织机构名识别

5.4.1基于置信度的最大熵模型主动学习算法

5.4.2加权置信度的计算

5.4.3样本选择

5.5树-栅格最优N解码算法

5.5.1最大熵模型的解码问题

5.5.2树-栅格最优N解码算法

5.5.3算法分析

5.6实验

5.6.1实验环境

5.6.2实验数据与分析

5.7相关工作

5.8小结

第6章基于条件随机域的复杂最长名词短语识别

6.1引言

6.2复杂最长名词短语的识别

6.3条件随机域

6.4基于条件随机域的xMNP识别

6.4.1基于CRF的xMNP识别模型

6.4.2特征函数

6.4.3 CRF的正则化

6.4.4受限的前向-后向解码过程

6.5实验

6.6相关研究

6.7小结

第7章信息抽取体系结构MuLIE

7.1引言

7.1.1软件体系结构概述

7.1.2 DSSA(特定领域的软件体系结构)

7.2 MuLIE的设计目标

7.3 MuLIE体系结构

7.3.1分层的管道过滤器风格

7.3.2任务层构件间拓扑关系

7.3.3任务层构件

7.3.4算法层构件的重用与泛化

7.4 MuLIE体系结构的特点

7.5相关研究

7.6 小结

第8章结论

8.1全文总结

8.2后继工作

参考文献

致谢

附录A:语义偏旁与人名用字的相关性部分统计数据

附录B:组织机构名识别中的部分特征函数

攻读博士期间(待)发表论文与参加项目

展开▼

摘要

本文采用统计和机器学习的方法研究信息抽取领域的一些重要问题,提出了一种使用EM算法完成模型参数估计的语种识别方法。该方法基于字符层马尔科夫模型,不需要对语言特点和编码规范的分析,而且与以往的统计语种识别方法相比,能够建立混杂度更小的语言模型。    采用条件随机域模型识别复杂最长名词短语,能够回避最大熵隐马尔科夫模型等模型存在的标注偏置问题和传统方法处理长程关联的不足,同时,引入了一种受限的前向-后向解码算法以提高该方法的可实用性。  设计并初步实现了一个信息抽取体系结构MuLIE,并提出了一种与之相适应的分层管道过滤器体系结构风格。它提供信息抽取领域的典型的可重用元素,以支持特定应用的开发,不仅是本文研究成果的有机集成,还将为后继研究提供一个良定义的基础框架。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号