。分析统计语言模型的性能以及如何将它应用于各种应用系统是当今自然语占处理领域的热点之一。 最早应用'/> 基于n-gram模型的中文分词技术研究-硕士-中文学位【掌桥科研】
首页> 中文学位 >基于n-gram模型的中文分词技术研究
【6h】

基于n-gram模型的中文分词技术研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

第一节课题背景和研究意义

1.1.1课题背景

1.1.2课题研究意义

第二节本文的工作和组织

1.2.1本文的主要工作

1.2.2论文的组织结构

第二章统计语言模型介绍

第一节统计语言模型的概念

2.1.1问题的提出

2.1.2统计语言模型的简单描述

2.1.3基本概念和术语

第二节常用语言模型

2.2.1n-gram语言模型

2.2.2 n-multigram模型

2.2.3隐形马尔科夫(Hidden Markov)模型

2.2.4小结

第三节语言模型参数的估计和评价

2.3.1极大似然估计及其引来的问题

2.3.2数据平滑模型

2.3.3模型复杂度的评价

第四节统计语言模型的应用

第五节小结

第三章基于n-gram模型的分词方法

第一节n-gram分词模型

3.1.1模型的选取

3.1.2模型的形式化描述

第二节n-boundary分词算法

3.2.1基于互信息的边界探测分词算法

3.2.2 n-boundary边界探测分词算法

第三节使用n-boundary算法训练语言模型

3.3.1问题的提出

3.3.2传统训练语料的方法

3.3.3使用n-boundary算法训练语料库

第四节小结

第四章系统的设计与实现

第一节系统的总体设计

4.1.1设计思想

4.1.2系统功能模块

第二节系统的实现

4.2.1预处理模块

4.2.2训练基本语言模型LM*模块

4.2.3训练生语料库模块

4.2.4文件格式

第三节CMU统计语言模型工具包简介

4.3.1 CMU-Toolkit的特点

4.3.2 CMU-Toolkit源码结构分析

第五章系统测试与评价

第一节准备工作

5.1.1语料库来源

5.1.2分词效果评价指标

5.1.3语言模型性能评价指标

5.1.4实验平台及工具

第二节语言模型复杂度对分词效果的影响

5.2.1实验目标

5.2.2实验方法

5.2.3实验结果分析

5.2.4小结

第三节基本语言模型LM*参数的选择

5.3.1实验目标

5.3.2实验方法

5.3.3实验结果分析

5.3.4小结

第四节训练模型中迭代次数对模型复杂度的影响

5.4.1实验目标

5.4.2实验方法

5.4.3实验结果分析

第五节n-boundary算法参数n对分词效果的影响

5.5.1实验目标

5.5.2实验方法

5.5.3实验结果分析

第六章总结与展望

第一节总结

第二节进一步的工作

参考文献

致谢

个人简历

展开▼

摘要

随着互联网的广泛应用,语料库知识的不断扩大,人们希望能从这些语料中进一步挖掘出更多有用的信息,其方法通常是建立一个面向各自应用领域的语言模型。与传统的基于规则的确定性语言模型不同,统计语言模型(SLM)建立在概率统计和信息论的基础上,通过对大量语料进行统计以揭示出语言内部特有的规律<'[2]>。分析统计语言模型的性能以及如何将它应用于各种应用系统是当今自然语占处理领域的热点之一。 最早应用于语音识别系统的n-gram统计语言模型,已经广泛地出现在多种自然语言处理系统中。然而,这些系统处理中文信息时,都会面临一个常见的分词问题。传统的做法是在现有词典的基础上,定义一个确定性语言模型(DLM),依据各种语法规则实现机械分词。这种方法往往受到词典的规模、应用领域的限制以及切分规则过多等问题,而随着人们对开放式系统的要求越来越高,基于规则系统的局限性问题显得十分突出。 基于这种思路,本文旨在将分词问题纳入到统计语言模型的研究领域,分析语言模型的性能和分词效果之间的关系,寻找提高分词效果、优化语言模型的各种策略以及扩展语言模型规模的途径。本文主要讨论了n-gram统计语言模型的相关知识及构建方法;在基于互信息的边界探测算法(Boundary Detection)<'[1]>的基础上,提出了基于n-gram模型的n-boundar),分词算法,并分析了两个算法的特点;然后利用EM的思想,通过这种算法训练更多的生语料以达到扩展模型规模和提高模型性能的目的;最后通过几组实验数据比较,验证了这种分词算法以及使用这种算法训练语料的可行性。得到了语言模型复杂度(Perplexitv)可以从训练前的126.368降低到训练后的56.716,信息熵(Entropy)为5.826比特/字符的时候,分词效果综合评价参数F-Meastlre达到0.780的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号