首页> 中文学位 >基于生成性词库分词技术的汉语拼音自动转换研究
【6h】

基于生成性词库分词技术的汉语拼音自动转换研究

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1研究的内容和意义

1.2研究的方法和步骤

1.3汉语拼音自动转换研究的现状

1.3.1汉语文本自动标注拼音软件

1.3.2汉语拼音标注工具1.92版本

1.3.3微软Word中的拼音指南

1.4汉语文本自动分词研究的现状

1.4.1国际互联网汉语信息处理

1.4.2其他自动分词技术

1.5自动分词算法研究的现状

1.5.1机械匹配算法

1.5.2特征词算法

1.5.3词性、语义分类约束算法

1.5.4语法分析算法

2生成性词库自动分词的原理

2.1罗海清的生成性词库分词技术

2.2生成性词库分词技术的改进

2.3真实语料的选择和采集

2.4扩大生成性词库的规模

2.5生成性构词表的组织和完善

2.6扩大生成性词库的词的容量

2.7为其他语言学研究提供扩展接口

2.8扩大字符集处理能力

2.9分词处理流程

2.9.1自动分词流程设计

2.9.2流程说明

3汉语拼音自动转换设计

3.1多音字的自动识别

3.2语料库设计

3.3贯彻正词法标准

3.4音变的研究

3.4.1“啊”的音变

3.4.2“一”、“七”、“八”、“不”的音变

3.5算法设计

3.5.1 多音字识别流程

3.5.2 流程说明

4 程序说明

4.1算法设计

4.1.1 算法基础

4.1.2 有关语言信息处理的算法

4.2主要函数模块的定义

4.2.1程序的入口

4.2.2分词处理模块

4.2.3标注汉语拼音

4.2.4处理儿化音

4.2.5处理a(啊)的音变

4.2.6截取子字符串

4.2.7多字词后缀的识别

4.2.8多字词的歧义匹配和处理

4.2.93字词的歧义匹配和处理

4.2.10在多字词库中匹配

4.2.11在3字词库中匹配

4.2.12识别基本语素

4.2.13匹配基本语素的前加语素

4.2.14匹配基本语素的后加语素

4.2.15汉字字符串处理函数

4.3自动分词算法的代码分析

4.3.1API接口函数

4.3.2分词模块

4.3.3截取子字符串模块

4.3.4匹配3字词模块

4.3.5匹配多字词模块

4.3.6匹配多字词大于4个汉字的字符

4.3.7基于统计的歧义处理模块

4.3.8 匹配基本语素

4.4汉语拼音转换的代码分析

4.4.1拼音自动转换主模块

4.4.2计算指定汉字字符串的拼音

4.4.3查找多音宇的缺省读音

4.4.4在多音字主表中定位

4.4.5在多音字次表中定位指定的汉字

4.4.6 确定多音字的读音

4.4.7组装拼音字符串

4.4.8 啊(a)的变音处理

4.4.9处理儿化读音

4.4.10查找多字词和特殊2字词的读音

4.4.11取给定字符串在韵母表中偏移位置

4.4.12截取子字符串

4.5汉字字符串处理函数

4.5.1拼接字符串

4.5.2从目标字符串的指定位置开始,连接源字符串

4.5.3连接分词结果字符串

4.5.4比较指定长度的2个无符号字符串

4.5.5比较2个有符号字符串的

4.5.6复制字符串

4.5.7计算字符串的长度

4.5.8复制指定位置字符串

4.5.9比较2个字符串是否相同

5 结论

5.1 论文取得的主要成果和不足

5.2 本研究的理论和应用价值展望

附录

参考文献

攻读硕士期间发表的学术论文

致谢

展开▼

摘要

本文的研究目标是为上层语言应用,比如语音输出、拼音读物排版系统、对外汉语教学等,提供一个高效率、高准确度的把汉字文本自动转换成汉语拼音的算法。算法的核心是识别汉字的多音字。 本文通过研究,发现只有在词处理层面才能较好地识别多音字。因此,第一步的工作是进行自动分词的研究,这个研究是建立在优化和完善湖南大学罗海清的生成性词库分词技术上的。通过扩充基本语素以及对应的前加语素和后加语素、增加专业名称和成语词表等研究,大幅度地提高了分词的准确度。第二步,在自动分词的基础上,采集了GB2312字符集中所有的多音字和它们对应的词,设计算法把汉字词转换成汉语拼音词,同时在程序中还对音变进行了处理。通过不断地试验,最终的汉字文本转汉语拼音程序能达到99%的准确度,基本满足了实际应用的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号