基于最大匹配的书面汉语自动分词研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

书面汉语自动分词是中文信息处理中的重要步骤，它是文本校对、机器翻译、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文在深入分析现有自动分词算法的基础上，着重研究了基于字符串匹配的汉语自动分词算法，引入最大匹配法预处理分词，同时运用统计方法进行歧义切分和未登录词识别。根据汉语中二字词较多的特点，给出一种改进的自动分词词典机制，该机制在词典数据结构中增加二字词检测位图表。在此基础上，对最大匹配分词算法进行改进，实现了一种基于二字词检测位图表的最大匹配分词算法，本算法利用二字词检测位图表快速判断二字词，减少词典匹配次数，以提高自动分词速度。针对伪歧义型高频最大交集型歧义字段在大型语料库中表现出较强的稳定性和一定的覆盖能力，歧义处理着重于研究该类歧义字段的自动获取，将它们的正确切分形式记录到歧义库中，其歧义消解通过直接查表实现，这在本质上是一种基于记忆的策略。未登录词识别技术研究着眼于Web资源中未登录词的获取，并提出一种基于Web查询日志的未登录词识别算法，本算法分析Web查询日志的搜索关键字频度表识别未登录词。基于上述研究结果，设计并实现了一个面向实际应用的书面汉语自动分词系统。实验结果表明：在相同条件下，基于二字词检测位图表的最大匹配分词算法较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测，评测结果表明，基于二字词检测位图表的最大匹配分词算法的查准率提高了3.57％，F-1测度提高了0.01，较原算法具有更好的性能。系统还具有较好的稳定性。

著录项

作者
杨超;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机应用技术
授予学位硕士
导师姓名李仁发;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
汉语自动分词; 歧义切分; 自动分词; 中文信息处理; 机器翻译; 文本分类; 文本检索;

相似文献

中文文献
外文文献
专利

1. 汉语自动分词最大匹配算法的改进 [J] . 郑德权 . 中文信息 . 1998,第12期
2. 书面汉语自动分词方法研究 [J] . 李秀志 . 微型机与应用 . 1993,第007期
3. 书面汉语自动分词的研究 [J] . 黄俊杰 ,杜劲松 . 计算机杂志 . 1991,第001期
4. 书面汉语自动分词方法的研究 [J] . 罗为 . 计算机工程 . 1989,第006期
5. 具有学习功能的书面汉语自动分词系统 [J] . 王兵 ,苏恩泽 . 计算机工程 . 1995,第004期
6. 书面汉语自动分词的神经网络方法 [C] . 徐秉铮 . 全国电路理论及应用第三届年会 . 1992
7. 基于改进的逆向最大匹配算法的中文地址编码研究 [A] . 王仲秋 . 2014

基于最大匹配的书面汉语自动分词研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅