首页> 中文学位 >基于统计语言模型的汉语浅层分析研究
【6h】

基于统计语言模型的汉语浅层分析研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景和意义

1.1.1研究背景

1.1.2研究意义

1.2自然语言处理的基本方法

1.3国内外研究概况

1.3.1新词识别研究概况

1.3.2命名实体识别研究概况

1.3.3组块分析研究概况

1.4本文主要工作和内容组织

1.4.1本文主要工作

1.4.2本文内容组织

2统计语言模型

2.1 N-gram模型

2.1.1 N-gram模型介绍

2.1.2数据平滑方法

2.2隐马尔科夫模型

2.3最大熵模型

2.3.1最大熵模型介绍

2.3.2最大熵原理的数学表示

2.4支持向量机

2.4.1最优分类超平面

2.4.2核函数

2.4.3多分类问题

2.5 Boosting算法

2.6条件随机域

2.6.1无向图模型

2.6.2条件随机域的图结构

2.6.3条件随机域的势函数表示

3基于互信息与串频统计的新词识别

3.1新词的定义和特征

3.1.1新词的定义

3.1.2新词的特征

3.2互信息基本理论

3.2.1随机变量及其特征

3.2.2熵、联合熵和条件熵

3.2.3互信息

3.3基于互信息和串频统计的新词识别

3.3.1潜在新词串

3.3.2新词识别

3.3.3实验结果

4基于有向图模型与分词一体化的命名实体识别

4.1基于有向图的语言模型

4.1.1分词有向图的建立

4.1.2有向图中边的权值

4.1.3正确切分路径的选择

4.2与分词一体化的中国人名识别

4.2.1中国人名的构成特点

4.2.2候选中国人名的生成

4.2.3中国人名的识别

4.3与分词一体化的中国地名识别

4.3.1词语级中国地名的特征

4.3.2候选地名的生成

4.3.3中国地名的识别

4.4与分词一体化的外国译名识别

4.4.1外国译名的构成

4.4.2候选外国译名的生成

4.4.3外国译名识别

5基于DR-AdaBoost算法的汉语组块分析

5.1汉语组块的定义

5.1.1组块的定义

5.1.2组块的类型

5.2组块的标注形式和评测方法

5.2.1组块的标注形式

5.2.2组块分析结果的评测方法

5.3基于有向图模型的汉语组块分析

5.3.1组块分析有向图

5.3.2有向边权值计算和路径选择

5.3.3实验结果

5.4基于DR-AdaBoost的汉语组块分析

5.4.1 Boosting与AdaBoost算法简介

5.4.2改进的AdaBoost算法:DR-AdaBoost

5.4.3 DR-AdaBoost在UCI数据集上的测试

5.4.4 DR-AdaBoost在CoNLL-2000共享数据集上的测试

5.4.5基于DR-AdaBoost的汉语组块分析

6总结与展望

参考文献

创新点摘要

攻读博士学位期间发表学术论文情况

致谢

展开▼

摘要

本文在统计方法的基础上对汉语浅层分析进行了研究,主要包括:新词识别,命名实体识别和组块分析. 提出了互信息与串频统计相结合的新词识别方法.识别的新词主要指未登录词中的非命名实体.将单字、单字词及其相邻的多字词列入新词的候选成分,计算候选成分之间的互信息时,融合了成词可信度信息和词长信息,并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中.该方法可以识别由多字词与单字或多字词与单字词组成的新词,取得了较好的新词识别结果. 命名实体是一种很重要的未登录词.未登录词的存在会造成自动分词的错误,分词错误又会反过来影响未登录词的识别.针对自动分词与命名实体识别之间存在互相影响的矛盾问题,提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法.将普通候选词和命名实体候选词映射为有向图节点,将候选词之间的接续关系映射为有向边.利用N-gram模型为有向边赋以合适的权值,使句子最好的分词方式尽可能对应有向图的最短路径.该一体化方法提高了命名实体识别的精度. 给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析.DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准.在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明,该算法与AdaBoost算法相比,收敛速度快且分类精度高.在汉语组块分析任务中,DR-AdaBoost算法提高了组块分析的精度.DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号