中文自动分词中的歧义消解算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法的设计直接关系着分词系统的切分速度,歧义字段又是影响分词系统切分精度的重要因素。
　　本课题针对中文分词系统的两个重要指标:切分速度和切分精度两个方面进行了深入的研究。在切分速度方面,给出了一种优化的TRIE索引树词典机制,设计并实现了中文分词词典；在切分精度方面,给出了两种消除歧义字段的算法,为解决中文自动分词问题提供了一种新的途径。
　　论文首先对中文分词相关技术作了简单介绍,分析了各种自动分词方法的优缺点,介绍了交集型歧义和组合型歧义的定义及识别方法。然后对语料库以及分词中的词典机制进行了分析和研究,在语料库的建立环节采用关系数据库来管理语料库。在词典生成环节采用基于优化的TRIE索引树的词典机制,设计并实现了中文分词词典,有效地减少了词典空间,同时在查询速度上也有了较大幅度的提升。
　　论文主体部分对分词中的歧义消除算法作了研究。在分析了常见消歧算法的优缺点后,给出了两种消除歧义的核心算法。一种是基于条件随机场模型消除交集型歧义的算法,该算法将交集型歧义切分由二值分类问题转化为序列标注问题,不仅能够处理任意链长的歧义字串,而且能够利用上下文信息,在不同的上下文环境中对真歧义作出正确的切分。另一种是基于C-支持向量机和规则相结合来消除组合型歧义的算法。该算法的主要思想是利用C-支持向量机分类模型结合上下文规则库中的规则来对组合型歧义字段进行歧义消解,拓广了SVM的应用范围。
　　论文最后以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验。实验结果表明,两种消歧算法消除歧义字段的正确率比较理想,验证了算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。

著录项

作者
尤慧丽;
展开▼
作者单位

江苏大学;

展开▼
授予单位江苏大学;
学科计算机应用技术
授予学位硕士
导师姓名晏立;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文分词; 交集型歧义; 组合型歧义; 条件随机场模型; C-支持向量机;

相似文献

中文文献
外文文献
专利

1. 藏文自动分词系统中虚词识别算法研究 [J] . 拉巴顿珠 ,欧珠 ,赵栋材 . 计算机应用与软件 . 2017,第009期
2. 网络信息检索中堆栈-最大匹配自动分词算法研究 [J] . 张海营 . 计算机光盘软件与应用 . 2011,第008期
3. 基于DRIS系统中的中文自动分词模块设计与实现 [J] . 张昭楠 ,马亚蕾 . 电子设计工程 . 2016,第014期
4. 中文信息处理中自动分词技术的研究与展望 [J] . 郭淑妮 . 科技创新与应用 . 2015,第025期
5. 中文自动分词在期刊论文检索中的应用 [J] . 张波 . 图书馆学刊 . 2012,第011期
6. 基于维特比算法单字估价值的中文自动分词 [C] . 李成城 ,李艳秋 . 第十二届全国少数民族语言文字信息处理学术研讨会 . 2009
7. 中文文本自动分词技术与算法研究 [A] . 许荣荣 . 2010

中文自动分词中的歧义消解算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅