首页> 中文学位 >基于汉字输入的词频统计方法研究
【6h】

基于汉字输入的词频统计方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1课题背景

1.2课题研究目的

1.3 本文的主要工作简介及结构安排

第二章 词频统计的现状

2.1 词频统计的基本概念

2.2 词频统计研究现状

2.3 词频统计应用

2.4 词频统计准确性分析

第三章 基于汉字输入的词频统计原理

3.1 “标准”词库的选择

3.2 权值的选择

3.3其它词库的选择

3.4 基准词库的生成流程

3.5 “非标准”词库格式化及去重复操作

第四章 词频统计方法的算法分析

4.1 词频统计算法概况

4.2 词频统计算法比较

4.3 本研究的词频统计算法

4.4 分类排序统计算法的实现步骤

第五章 词频统计管理软件的框架设计

5.1词频统计管理系统功能设计概述

5.2词频统计管理系统的总体设计

第六章 性能分析与比较

6.1 权值对性能的影响

6.2 算法性能分析

6.3 结论

第七章 总结与展望

7.1 研究总结

7.2 改进与发展

参考文献

致谢

展开▼

摘要

近年来,利用词频统计分析方法统计文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低,来预测该领域研究热点和发展动向的研究及应用则越来越多。例如,教育技术领域研究热点管窥、基于词频统计的情报学研究分析、统计视角的数据挖掘研究以及本文要详细讨论的适用于汉字输入的词库研究等等。
  目前国内外市场上流行着各种各样的用于汉字输入的拼音输入法和笔画输入法,但都还没有达到理想的输入速度。如果能为汉字输入法提供优秀的词库,并能够按照用户的最常用的习惯来快速输出用户所需要的词语,将必然会提高汉字输入时的效率,达到快速、简便输入的目的。因此,非常有必要继续对汉字输入的词频统计系统进行开发与改进,以此提供一个高效优秀的词库,来提高输入法的输入效率。
  本文的重点将置力于研究一种适用于最广大普通用户习惯的词库,包括词库中字词的排序和输出。从过去用户对词语的使用情况出发,以词频为桥梁,以独创算法为工具,完善了适合广大普通用户的汉字输入法词库。本文首先介绍了词频统计的大背景和发展以及研究现状,引出了此文的研究目的。然后,重点介绍了基于汉字输入的词频统计研究的原理与基本思想,详细分析了“标准”词库的选择问题、权值的确定依据,其它词库的选择问题、其它词库的处理流程(包括去重复、词库分解、词库合并等)以及最终词库的生成原理。接着详细介绍了本研究的算法分析,提出一种具有独创的分类排序统计算法。其新颖之处在于,它不仅能对词库进行快速的统计排序,还能使排序结果符合词语实际的使用规律。之后又介绍了词频统计管理软件的框架设计及其具体实现,还对实验结果进行了性能对比分析。最后指出了该设计存在的一些问题和改进方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号