首页> 中文学位 >基于文本的语言识别方法研究
【6h】

基于文本的语言识别方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1研究背景

1.2研究现状

1.3本文的主要工作

第2章相关概念和技术

2.1语言

2.2字符和字节

2.3字符集和编码

2.4文本和文档

2.5网页页面中的语言特征

2.6电子邮件中的语言特征

2.7分词

2.8语言模型

第3章语言识别的主要方法和评价

3.1基于编码非重叠区的识别方法

3.2基于字频分布的识别方法

3.3基于马尔可夫模型的识别方法

3.3.1 马尔可夫过程

3.3.2 算法介绍

3.3.3 算法评估

3.4基于N-gram模型的识别方法

3.4.1 N-Gram模型

3.4.2 算法介绍

3.4.3 算法评估

3.5基于压缩的部分匹配预测识别方法

3.5.1 熵和交叉熵

3.5.2 算法介绍

3.5.3 算法评估

第4章基于文本的语言识别模块的设计和实现

4.1问题范围

4.2字符编码方案

4.2.1 单字节编码

4.2.2 多字节编码

4.2.3 Unicode编码

4.3相关字符集和编码的概要特性

4.3.1 ASCII

4.3.2 HZ

4.3.3 Shift-JIS

4.3.4 GB2312

4.3.5 GBK

4.3.6 GB18030

4.3.7 BIG5

4.3.8 EUC-JP

4.3.9 EUC-KR

4.3.10 ISO-8859-1

4.3.11 KOI8-R

4.3.12 UCS-2和UTF-16

4.3.13 UTF-8

4.4算法的设计和实现

4.4.1 单字节编码字符集识别

4.4.2 多字节编码字符集识别

4.4.3 方法复合

4.5实验与分析

4.5.1 实验结果

4.5.2 结果分析

第5章总结和展望

致谢

读研期间发表的论文

参考文献

展开▼

摘要

本研究针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了区域编码方案和Unicode并存的现状,指出语言识别在计算机自然语言处理领域中的广泛应用,分析了语言识别方法的研究现状。然后,具体研究了目前主要的基于文本的语言识别方法,包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法,这些技术将被用到文中提出的语言识别模块设计方案中。之后,本文设计了一种语言识别的方法,即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上,设计了语言字符分布律统计模型和可信度计算模型,保证了准确和高效地实现语言识别。 本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别,包括Unicode字符集,多字节和单字节编码方式的字符集,满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要,并且该模块已经在国家某部委的应用工程中得到了应用,获得了很好的评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号