首页> 中文学位 >基于统计语言模型的汉语词法分析研究
【6h】

基于统计语言模型的汉语词法分析研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1研究的目的和意义

1.2主要统计语言模型

1.2.1 N-gram模型

1.2.2最大熵模型

1.2.3支持向量机模型

1.2.4矢量空间模型

1.3汉语词法分析

1.3.1汉语词法分析的研究内容

1.3.2汉语词法分析的研究现状

1.3.3词法分析后续处理步骤——句法分析的研究

1.4用于词法分析的数据资源建设

1.4.1词法词典的建设

1.4.2语料库的建设

1.5本文主要工作

1.5.1本文研究内容

1.5.2主要创新点

第2章N-gram模型改进方法研究

2.1引言

2.2改进N-gram模型平滑算法

2.2.1已有平滑算法综述

2.2.2已有平滑算法的总结

2.2.3基于词性信息改进Katz平滑算法

2.2.4基于词义相似度的Uni-gram平滑算法

2.3长距离触发对的抽取

2.3.1利用平均互信息抽取词触发对

2.3.2用于词法分析的转换触发对

2.4试验结果

2.4.1改进Katz平滑算法试验结果

2.4.2改进Uni-gram模型平滑算法试验结果

2.5本章小结

第3章基于REA算法的K-best汉语分词模型研究

3.1引言

3.2基于K-best分词模型的歧义词发现

3.2.1词网格的建立

3.2.2递归枚举算法

3.2.3计算K值

3.3基于最大熵模型的分词歧义消解

3.4基于多源知识表的人名识别研究

3.4.1姓(名)用字的统计规律

3.4.2姓(名)用字分类的目标

3.4.3姓(名)用字分类的具体方法

3.5基于有限自动机理论的因子词识别

3.6试验结果

3.6.1分词试验结果

3.6.2人名识别试验结果

3.7本章小结

第4章基于最大熵模型的词性标注研究

4.1引言

4.2传统HMM词性标注模型的问题

4.3复杂兼类词标注

4.4融合转换触发对的最大熵语言词性标注模型

4.4.1特征选择

4.4.2序列分类的Beam Search搜索算法

4.5音字转换的研究

4.6试验结果

4.6.1词性标注试验结果

4.6.2音字转换试验结果

4.7本章小结

第5章基于矢量空间模型的词义相似度计算研究

5.1引言

5.2基于矢量空间模型的词语聚类的研究

5.2.1坐标轴词的选择

5.2.2基于触发对建立词矢量空间模型

5.3试验结果

5.4本章小结

结论

参考文献

附录A INSUN-LEX词法分析软件输出结果

附录B基于ME模型的音宇转换结果

攻读博士学位期间发表的论文

哈尔滨工业大学博士学位论文原创性声明和哈尔滨工业大学博士学位论文使用授权书

致谢

个人简历

展开▼

摘要

词法分析是自然语言处理领域中最基础的处理步骤,尤其对汉语这种没有分割符的语言来说更是如此。本文研究的汉语词法分析主要包括自动分词、词性标注和词义相似度计算三个方面。词法分析是句法分析的先期处理步骤,其错误会沿处理链条扩散,并最终影响信息检索、机器翻译等面向最终用户的应用系统的质量;同时,词法分析所用的技术也可以直接应用到音字转换和语音识别等应用系统中,所以对它的研究具有极其重要的意义。  本文在统计语言模型方面主要探讨了N-gram模型、最大熵模型、支持向量机模型和矢量空间模型。重点研究了三个方面的内容:传统N-gram模型的改进方法;利用触发对提高矢量空间模型的质量;在最大熵模型中加入转换触发对特征。最后利用以上统计语言模型的研究成果对汉语词法分析进行了深入研究。主要内容包括四个方面:  第一、从两个方面改进了传统N-gram模型。  第二、分词是汉语词法分析中最基本的步骤,所有的汉语自然语言处理都要基于分词的结果。  第三、词性标注可以看成是噪声信道的解码问题。传统的HMM模型有两个缺点:首先它用联合概率解决一个条件概率问题,而且它不能包含长距离词法特征。针对以上问题,本文分别利用支持向量机模型和最大熵模型对复杂兼类词标注进行了研究,试验结果证明两种模型都可以有效降低兼类词标注的错误。在此基础上,利用最大熵模型对基于句子的词性标注进行了研究,重点研究了长距离聚类转换触发对“wA→wB/tB”特征的加入以及用于系列分类的BeamSearch搜索算法。最后,利用与词性标注相同的技术对音字转换做了初步的探讨,主要试验了简单和复杂两种特征模板。  第四、词义是词法分析中的核心问题,本文重点利用矢量空间模型对词义相似度计算进行了研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号