综合字典和统计分析的中文分词系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文分词技术主要包含以下三个研究方向：理解分词，机械分词以及统计分词。基于理解的分词方法研究尚未成熟，所以，绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中，统计策略和词典设计的关系往往是相互独立的，词典主要是作为机械分词的标准，而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。
　　本文所阐述的中文分词系统，将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入，对于待切分文本来说，对于未登录词和词典词条，本文算法的本质均是先基于统计的方法扩充核心词典，然后采用基于字符串匹配的分词方法切词。
　　总体上讲，本系统具有以下三方面的特点。专用性：适合计算机学科专业领域的分词，这主要取决于训练文本的选择；分词效率高：算法核心是基于字符串匹配的方法：分词精度较好：利用简单统计量模型与机械分词的有机结合解决了部分歧义词和未登录词问题。
　　解决方案中涉及到的关键技术主要包括以下三个部分：
　　第一、分词词典的设计。在整体结构上，词典分成两级结构，临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据，为了提高查询速度，结合中文二字词比例较大的特点，核心词典采用双层哈希结构。
　　第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法，本文选择了基于互信息原理的方法进行词频统计。该统计模型，原理简单，实现方便，有较强的实用价值。
　　第三、机械分词方法的应用。为了简化系统结构，提高算法效率，核心分词模块中，根据汉语的后重心特点以及“长词优先”准侧，我们选择逆向最大匹配算法。
　　总体上讲，系统在初始化后即能够满足一定程度的应用，准确率等分词精度指标保持在97％以上：选择合适的训练语料，经过一定强度的统计学习后，分词精度参数可以提高将近一个百分点左右；分词效率指标不会发生明显变化。

著录项

作者
李宏波;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名胡燕;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;
关键词
中文分词系统; 词典设计; 统计分析; 未登录词; 歧义词; 识别技术; 精度参数;

相似文献

中文文献
外文文献
专利

1. 智能信息字典系统的研究与实现 [J] . 古新生 ,王拓 . 计算机研究与发展 . 1993,第004期
2. 面向对象的语义信息字典系统的研究与实现 [J] . 王拓 ,古新生 . 计算机工程与应用 . 1991,第004期
3. 新疆普通高中学业水平考试系统中成绩信息的统计分析算法研究与实现 [J] . 买买提阿依甫 ,米拉丁江·阿布力米提 ,艾斯卡尔·艾木都拉 . 计算机与现代化 . 2010,第008期
4. 配网信息统计分析系统的研究与实现 [J] . 万国成 ,吴日昇 ,何毅思 . 继电器 . 2007,第0S1期
5. 网络读者访问流量统计分析系统的研究与实现 [J] . 耶健 . 现代图书情报技术 . 2005,第006期
6. 配网信息统计分析系统的研究与实现 [C] . 万国成 ,吴日异 ,何毅思 . 2007年中国继电保护应用技术学术研讨会 . 2007
7. 基于电信综合统计分析平台的用户管理和认证系统研究与实现 [A] . 李双江 . 2008

综合字典和统计分析的中文分词系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅