中文分词交集型歧义处理研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

词是最小的能独立表示语义的语言单位，因而是处理各种自然语言文本的基础。汉语书写显得很特别，因为它没有明确的标志将词与词分开，而是一段连续的汉字串。如何把汉字串正确地切分成词串，即对词边界的自动识别，是中文信息处理中迫切需要解决的问题。对中文分词的研究很有意义，本文研究的是中文分词中词典机制和交集型歧义的发现和消除。主要研究工作包括以下几个方面：
　　 (1)系统地阐述了中文分词研究背景、意义以及发展现状，并对一些有特色的分词系统进行简单的介绍。
　　 (2)对中文分词中常用的算法进行详细的介绍并举实例阐述其算法思想及运行过程。对在中文分词过程中所遇到的困难进行了概括并给出了评价中文分词的标准。
　　 (3)分词速度和精度是衡量分词系统的核心指标。通过对几种常见的词典结构的研究，发现各自词典结构的优缺点，在此基础上处于提高分词速度、提高建构词典的空间效率、查找过程的时间效率以及汉语词组的统计规律的考虑，本文选择双字Hash索引的词典机制，将前两字逐个建立Hash索引，并将剩余字串有序排列组成词典的正文。
　　 (4)本文主要对交集型歧义进行处理。首先介绍歧义产生的根源以及歧义的分类。详细介绍了交集型歧义的发现算法和消解算法。本文发现了一种能识别交集型歧义的方法，即在二元切分词图中，如果位于对称轴上的原子与它相连的右边和上面位置上同时不为空，表明这里出现了交集型歧义。本文采用基于统计的方法来对交集型歧义进行消解，先详细的介绍了几种基于统计的常见方法，并分析它们的优缺点，最后采用双字耦合度和t-测试差的线性叠加，再对各个歧义位置进行计算CDT(Couple and Difference ofT-test)并对是否进行切分做出选择。实验结果表明，基于词典和统计相结合的分词算法对应于传统的分词算法在分词速度和分词精度上都有显著的提高。然而该算法不能处理组合型歧义和未登录词，有待进一步研究。

著录项

作者
魏博诚;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机应用技术
授予学位硕士
导师姓名王爱平;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文分词; Hash索引; 分词算法; 中文信息处理;

相似文献

中文文献
外文文献
专利

1. 一种消除中文分词中交集型歧义的方法 [J] . 魏博诚 ,王爱平 ,沙先军 . 计算机技术与发展 . 2011,第005期
2. 中文分词交叉型歧义消解算法 [J] . 甘蓉 . 西华大学学报（自然科学版） . 2018,第006期
3. 基于CFRs模型的交集型歧义消解研究 [J] . 尤慧丽 . 电脑知识与技术 . 2018,第018期
4. 不同水平留学生汉语交集型与组合型切分歧义识别实验研究∗ [J] . 杨万兵 ,杨峥琳 . 语言科学 . 2016,第003期
5. 一种基于无监督学习的交集型歧义处理改进方法 [J] . 黄鹏 ,张姝 ,陈玉华 . 云南师范大学学报（自然科学版） . 2015,第006期
6. 人机共赢中文分词全正确:谈交集型歧义字段的处理 [C] . Zhang Xiaoheng ,张小衡 ,Li Xiaotong . 第十一届中文教学现代化国际研讨会 . 2018
7. 基于避免交集型歧义的最大匹配算法改进的研究与实现 [A] . 康晨阳 . 2012

中文分词交集型歧义处理研究

摘要

著录项

相似文献

相关主题

期刊订阅