文摘
英文文摘
声明
1 绪论
1.1研究的内容和意义
1.2研究的方法和步骤
1.3汉语拼音自动转换研究的现状
1.3.1汉语文本自动标注拼音软件
1.3.2汉语拼音标注工具1.92版本
1.3.3微软Word中的拼音指南
1.4汉语文本自动分词研究的现状
1.4.1国际互联网汉语信息处理
1.4.2其他自动分词技术
1.5自动分词算法研究的现状
1.5.1机械匹配算法
1.5.2特征词算法
1.5.3词性、语义分类约束算法
1.5.4语法分析算法
2生成性词库自动分词的原理
2.1罗海清的生成性词库分词技术
2.2生成性词库分词技术的改进
2.3真实语料的选择和采集
2.4扩大生成性词库的规模
2.5生成性构词表的组织和完善
2.6扩大生成性词库的词的容量
2.7为其他语言学研究提供扩展接口
2.8扩大字符集处理能力
2.9分词处理流程
2.9.1自动分词流程设计
2.9.2流程说明
3汉语拼音自动转换设计
3.1多音字的自动识别
3.2语料库设计
3.3贯彻正词法标准
3.4音变的研究
3.4.1“啊”的音变
3.4.2“一”、“七”、“八”、“不”的音变
3.5算法设计
3.5.1 多音字识别流程
3.5.2 流程说明
4 程序说明
4.1算法设计
4.1.1 算法基础
4.1.2 有关语言信息处理的算法
4.2主要函数模块的定义
4.2.1程序的入口
4.2.2分词处理模块
4.2.3标注汉语拼音
4.2.4处理儿化音
4.2.5处理a(啊)的音变
4.2.6截取子字符串
4.2.7多字词后缀的识别
4.2.8多字词的歧义匹配和处理
4.2.93字词的歧义匹配和处理
4.2.10在多字词库中匹配
4.2.11在3字词库中匹配
4.2.12识别基本语素
4.2.13匹配基本语素的前加语素
4.2.14匹配基本语素的后加语素
4.2.15汉字字符串处理函数
4.3自动分词算法的代码分析
4.3.1API接口函数
4.3.2分词模块
4.3.3截取子字符串模块
4.3.4匹配3字词模块
4.3.5匹配多字词模块
4.3.6匹配多字词大于4个汉字的字符
4.3.7基于统计的歧义处理模块
4.3.8 匹配基本语素
4.4汉语拼音转换的代码分析
4.4.1拼音自动转换主模块
4.4.2计算指定汉字字符串的拼音
4.4.3查找多音宇的缺省读音
4.4.4在多音字主表中定位
4.4.5在多音字次表中定位指定的汉字
4.4.6 确定多音字的读音
4.4.7组装拼音字符串
4.4.8 啊(a)的变音处理
4.4.9处理儿化读音
4.4.10查找多字词和特殊2字词的读音
4.4.11取给定字符串在韵母表中偏移位置
4.4.12截取子字符串
4.5汉字字符串处理函数
4.5.1拼接字符串
4.5.2从目标字符串的指定位置开始,连接源字符串
4.5.3连接分词结果字符串
4.5.4比较指定长度的2个无符号字符串
4.5.5比较2个有符号字符串的
4.5.6复制字符串
4.5.7计算字符串的长度
4.5.8复制指定位置字符串
4.5.9比较2个字符串是否相同
5 结论
5.1 论文取得的主要成果和不足
5.2 本研究的理论和应用价值展望
附录
参考文献
攻读硕士期间发表的学术论文
致谢