首页> 中文学位 >无编码候选词汉语拼音输入法的实现
【6h】

无编码候选词汉语拼音输入法的实现

代理获取

目录

封面

声明

中文摘要

目录

目录

第一章绪论

1.1研究背景

1.2国内外研究现状

1.3无编码候选词汉语拼音输入法概述

第二章拼音流的预处理

2.1拼音流的概述

2.2拼音流切分的实现

2.3小结

第三章自动分词系统

3.1汉语自动分词介绍

3.2汉语分词面临的问题

3.3自动分词中交集型歧义字段的识别

3.4交集型歧义字段的解决方法

3.5自动分词系统性能评估的指标和方法

3.6自动分词算法总结

第四章无编码候选词语言模型的建立

4.1统计语言模型介绍

4.2 N元统计语言模型构造算法

4.3 N元统计语言模型数据稀疏现象及其解决

4.4总结

第五章候选字词列表模块的生成

5.1候选字词集生成总述

5.2数据结构

5.3候选词生成算法

5.4候选字词生成小结

第六章无编码候选词的生成

6.1无编码候选词的介绍

6.2无编码候选词的生成过程

6.3小结

第七章系统的自学习功能

7.1用户自定义词

7.2词频的智能调整

第八章无编码候选词的实现技术

8.1输入法实现环境IMM-IME

8.2输入法开发工具

8.3 IME设计思想

结论与展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

中文信息处理技术是我国信息产业最重要的技术支柱之一,它是利用计算机对汉语信息进行自动处理。当前对于汉字的输入已经推出了很多种方法,例如:手写笔、语音输入等,但汉字的键盘输入还是汉字录入计算机最普及的手段,它是中文信息处理的一个重要课题。随着智能处理技术在计算机领域的应用,汉字的输入法也得到了新的发展,本文在汉语拼音输入基本框架的基础上,引入中文自动分词技术,建立了二元统计语言模型,提出了无编码候选词汉语拼音输入法的实现方法。所谓的无编码候选词输入是指在候选词列表的生成过程中,根据当前已输入的词组,在不需要输入外码的前提下,智能地将当前可能会出现的候选词生成候选词列表,供用户选择,并且只要用户输入的目标词在无编码候选词列表中,这种候选词的生成方式就会一直持续下去。
  文章主要包括以下内容:
  (1)介绍本文的研究背景以及当前汉语拼音输入法所面临的问题,简单阐述了本文无编码候选词输入法的生成原理。
  (2)针对本文采用的汉语拼音输入,对拼音流进行了预处理,实现了从拼音流到独立音节的切分。对样本语料库采用了自动机械分词的方式,并且对分词过程中出现的交集性歧义进行了消歧。根据分词的结果建立了二元统计语言模型以及对其进行了优化。
  (3)建立了有编码候选词的数据结构,给出了具体生成算法。在上述准备工作的基础上,对无编码候选词输入法的实现从理论和算法上给予了验证。
  (4)输入法系统自学习功能。根据用户的输入情况,对二元统计语言模型进行了二次优化,主要是针对词频的调整以及用户词典的自定义。
  (5)利用Windows操作系统提供的IMM-IME(输入法管理器-输入法编辑器)实现无编码候选词汉语拼音输入法,详细分析了基于IMM-IME的无编码候选词拼音输入法的构成、接口以及一些重要的设计理念,使用当前流行VC++.NET进行编程,尤其是对Windows操作系统提供的关于输入法接口的API函数进行了重写。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号