首页> 中文学位 >中文词法分析技术的研究与实现
【6h】

中文词法分析技术的研究与实现

代理获取

目录

中文词法分析技术的研究与实现

RESEARCH AND IMPLEMENTATION OF CHINESE LEXICAL ANALYSIS TECHNOLOGY

摘要

Abstract

第1章 绪论

1.1 课题背景

1.1.1 中文分词研究的意义

1.1.2 词性标注和动词细分类研究的意义

1.2 词法分析的主要问题和方法及研究现状概述

1.2.1 中文分词的主要问题和方法概述

1.2.2 词性标注的主要问题和方法概述

1.2.3 动词细分类的研究现状概述

1.3 SIGHAN Segmentation Bakeoff 2005中分词方法评述

1.4 本文的结构

1.5 本章小结

第2章 基于词类的分词概率模型

2.1 语言模型

2.1.1 统计语言模型介绍

2.1.2 信源信道模型与统计语言模型

2.1.3 N-gram模型

2.1.4 数据平滑

2.2 基于词类的分词概率模型

2.2.1 模型的理论推导

2.2.2 词类的定义

2.3 本章小结

第3章 基于角色标注的未登录词识别

3.1 隐马尔科夫模型

3.1.1 隐马尔科夫模型的定义

3.1.2 Viterbi算法

3.2 未登录词识别的主要难点

3.2.1 未登录词与命名实体

3.2.2 未登录词识别的主要难点

3.3 角色的定义及角色语料库

3.3.1 角色的定义

3.3.2 角色语料库

3.4 基于角色标注的未登录词识别

3.4.1 角色标注的隐马尔科夫模型参数的训练

3.4.2 利用Viterbi算法进行角色标注

3.4.3 未登录词概率的计算

3.5 本章小结

第4章 词性标注与动词细分类研究

4.1 词性标注

4.1.1 词性标记集

4.1.2 基于隐马尔科夫模型的词性标注

4.2 动词细分类

4.2.1 动词细分类标注规范

4.2.2 基于改进隐马尔科夫模型的动词细分类

4.2.3 基于最大熵模型的动词细分类

4.2.4 动词细分类对比实验及其对句法分析的影响

4.3 本章小结

第5章 IR词法分析系统(IRLAS)的设计与实现

5.1 IRLAS介绍

5.2 IRLAS的流程与结构设计

5.2.1 切分词图介绍

5.2.2 系统流程及各模块介绍

5.2.3 系统结构设计

5.3 实验与结果分析

5.3.1 分词与词性标注评测方法

5.3.2 在2000年1月人民日报语料上的实验

5.3.3 在SIGHAN Segmentation Bakeoff 2005 PKU语料上的实验

5.4 本章小结

结论

参考文献

附录1 词法分析系统(IRLAS)在线演示及源代码共享情况介绍

附录2 第二届国际SIGHAN分词评测及IRLAS参赛情况介绍

附录3 词法分析系统(IRLAS)技术转让列表

附录4 信息检索研究室动词细分类标注规范

附录5 攻读硕士期间参与的研究与开发项目

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深入的研究并实现了一个实用化的词法分析系统IRLAS。通过权威的评测和实际应用表明,IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。
  众所周知,切分歧义和未登录词识别是中文分词中的两大难点。文本采用了基于词类的分词概率模型,此模型把词归为若干类别并且把这些类别纳入到一个统一的概率模型框架下。通过选择概率最大的切分路径可以消除掉大部分的切分歧义。对于未登录词识别,文本采用了基于角色标注的未登录词识别方法,这种方法能充分利用未登录词的上下文信息并把未登录词识别的问题转化为角色序列的标注问题。通过训练角色的隐马模型参数,再利用Viterbi算法即可标注出最优的角色序列,也即完成了未登录词的识别。
  词性标注和动词细分类可以为上层应用提供更丰富的语法信息,例如句法分析可以利用这些词性信息进行句法关系的识别。词性标注是隐马尔科夫模型的一个典型应用,本文利用隐马尔科夫模型的方法进行词性标注并取得了较高的准确率。动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,本文提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,通过与最大熵的方法进行比较,证明这种方法十分有效。本文还通过把动词细分类嵌入到句法分析系统中,从而有效地提高了句法分析的识别精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号