文摘
英文文摘
论文说明:图表目录
声明
第1章绪论
1.1研究背景
1.2研究现状
1.3本文的主要工作
第2章相关概念和技术
2.1语言
2.2字符和字节
2.3字符集和编码
2.4文本和文档
2.5网页页面中的语言特征
2.6电子邮件中的语言特征
2.7分词
2.8语言模型
第3章语言识别的主要方法和评价
3.1基于编码非重叠区的识别方法
3.2基于字频分布的识别方法
3.3基于马尔可夫模型的识别方法
3.3.1 马尔可夫过程
3.3.2 算法介绍
3.3.3 算法评估
3.4基于N-gram模型的识别方法
3.4.1 N-Gram模型
3.4.2 算法介绍
3.4.3 算法评估
3.5基于压缩的部分匹配预测识别方法
3.5.1 熵和交叉熵
3.5.2 算法介绍
3.5.3 算法评估
第4章基于文本的语言识别模块的设计和实现
4.1问题范围
4.2字符编码方案
4.2.1 单字节编码
4.2.2 多字节编码
4.2.3 Unicode编码
4.3相关字符集和编码的概要特性
4.3.1 ASCII
4.3.2 HZ
4.3.3 Shift-JIS
4.3.4 GB2312
4.3.5 GBK
4.3.6 GB18030
4.3.7 BIG5
4.3.8 EUC-JP
4.3.9 EUC-KR
4.3.10 ISO-8859-1
4.3.11 KOI8-R
4.3.12 UCS-2和UTF-16
4.3.13 UTF-8
4.4算法的设计和实现
4.4.1 单字节编码字符集识别
4.4.2 多字节编码字符集识别
4.4.3 方法复合
4.5实验与分析
4.5.1 实验结果
4.5.2 结果分析
第5章总结和展望
致谢
读研期间发表的论文
参考文献