文摘
英文文摘
第1章绪论
1.1课题背景
1.2研究意义
1.3研究历史与现状
1.3.1基本研究方法
1.3.2研究历程和主要发展
1.3.3产业化应用
1.4研究目标
1.5本文工作和论文组织
第2章基于字符层语言模型的多语种识别
2.1引言
2.2字符层语言模型
2.2.1马尔科夫模型
2.2.2解码和语种选择
2.2.3基于EM算法的参数估计
2.3多语种识别实验
2.4相关研究
2.5小结
第3章结合主动学习的无督导分词
3.1引言
3.2四种无督导分词算法的对比研究
3.2.1基于统计的无督导分词方法
3.2.2基于机器学习的无督导分词方法
3.2.3两类算法的对比分析
3.3 n-multigram语言模型的无督导训练
3.3.1 n-multigram语言模型的形式化描述
3.3.2分词语言模型的EM训练
3.3.3基于互信息的词典修剪
3.4具有主动学习能力的分词算法
3.4.1主动学习(Active Learning)
3.4.2 Active-Viterbi分词算法
3.5实验
3.5.1实验系统结构
3.5.2实验环境
3.5.3数据与分析
3.6小结
第4章基于最大熵框架的人名地名识别
4.1引言
4.1.1命名实体识别的基本概念
4.1.2命名实体识别的主要问题和主要方法
4.1.3中文人名和地名的识别
4.2最大熵框架
4.3作为语言学资源的语义偏旁
4.3.1作为表意系统的汉字及其部首体系
4.3.2语义偏旁
4.3.3语义偏旁对中文信息处理的价值
4.3.4语义偏旁与人名的内在联系
4.3.5基于语料库的语义偏旁与人名的相关性分析
4.4集成语义偏旁信息的人名地名识别算法
4.4.1基于最大熵框架的人名地名识别算法
4.4.2在最大熵框架内集成语义偏旁信息
4.5实验
4.5.1实验系统
4.5.2实验环境
4.5.3实验结果及数据分析
4.6相关研究
4.7小结
第5章采用主动学习策略的组织机构名识别
5.1引言
5.2机构名在中文命名实体识别中的位置
5.3基于最大熵框架的组织机构名识别
5.4采用主动学习策略的组织机构名识别
5.4.1基于置信度的最大熵模型主动学习算法
5.4.2加权置信度的计算
5.4.3样本选择
5.5树-栅格最优N解码算法
5.5.1最大熵模型的解码问题
5.5.2树-栅格最优N解码算法
5.5.3算法分析
5.6实验
5.6.1实验环境
5.6.2实验数据与分析
5.7相关工作
5.8小结
第6章基于条件随机域的复杂最长名词短语识别
6.1引言
6.2复杂最长名词短语的识别
6.3条件随机域
6.4基于条件随机域的xMNP识别
6.4.1基于CRF的xMNP识别模型
6.4.2特征函数
6.4.3 CRF的正则化
6.4.4受限的前向-后向解码过程
6.5实验
6.6相关研究
6.7小结
第7章信息抽取体系结构MuLIE
7.1引言
7.1.1软件体系结构概述
7.1.2 DSSA(特定领域的软件体系结构)
7.2 MuLIE的设计目标
7.3 MuLIE体系结构
7.3.1分层的管道过滤器风格
7.3.2任务层构件间拓扑关系
7.3.3任务层构件
7.3.4算法层构件的重用与泛化
7.4 MuLIE体系结构的特点
7.5相关研究
7.6 小结
第8章结论
8.1全文总结
8.2后继工作
参考文献
致谢
附录A:语义偏旁与人名用字的相关性部分统计数据
附录B:组织机构名识别中的部分特征函数
攻读博士期间(待)发表论文与参加项目