首页> 中文学位 >基于条件随机场的汉语自动分词技术研究
【6h】

基于条件随机场的汉语自动分词技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章前言

1.1选题背景和意义

1.2汉语分词的研究现状

1.3本文研究工作概述

第二章汉语自动分词算法

2.1主要的分词算法

2.2汉语分词面临的困难

2.3汉语分词的目标的评测指标

2.4本章小结

第三章条件随机场模型

3.1统计机器学习的基本问题

3.2概率图模型

3.3序列化标注问题

3.4随机过程

3.5隐马尔科夫模型

3.6最大熵模型

3.7条件随机场模型

3.8本章小结

第四章条件随机场模型的设计

4.1框架

4.2特征函数

4.3网格结构

4.4训练算法

4.5本章小结

第五章基于条件随机场的汉语分词系统

5.1实验设计

5.2语料库的选取

5.3特征的选取

5.4实验结果与分析

5.5本章小结

第六章总结与展望

6.1本文所做工作总结

6.2研究展望

参考文献

附录

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

随着科学技术的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的信息,而词是最小的能够独立活动的有意义的语言成分。因此将词确定下来是理解自然语言的第一步。然而汉语习惯中词与词之间没有间隔,这就决定了汉语自动分词技术成为自然语言理解中的关键技术。
  从上世纪80年代以来,国内外公开报道的汉语自动分词算法数量不下于几十种。在这些方法中,利用统计机器学习理论的分词方法是近年来研究最多的方法,其基本思想就是将汉语分词和词性标注问题转化为分类问题。条件随机场方法就是这其中的一种。它是在传统方法瓶颈情况下诞生的一种统计学习方法,它同时具有隐马尔科夫模型和最大熵马尔科夫模型的优点。此外,该方法还解决了上述模型中出现的标注偏置等问题,而且所有特征可以进行全局归一化,能够求得全局的最优解。
  本文基于条件随机场模型,研究了该模型在汉语分词方面的应用。论文的主要工作和特色如下:
  首先,深入研究了条件随机场模型的原理,分析了模型的特点及该模型在自然语言处理方面的优势。
  其次,在对条件随机场模型理论理解的基础上,设计了这样一个模型,并给出了特征选取、参数估计和解码等算法的详细推导过程。
  最后,把这个条件随机场模型加入到汉语分词系统中,开发了一个条件随机场模型训练和汉语分词标注系统。在北京大学标注的1998年1月《人民日报》语料库上进行训练和测试,取得了较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号