信息检索用汉语分词与未登录词识别技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

汉语分词是中文信息处理中最基础的部分。信息检索用汉语分词要求分词算法具备一定的歧义识别与未登录词识别功能。本文深入研究了未登录词识别技术，根据人在阅读时识别新词的思维过程，提出了一种新的未登录词识别算法，其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左方探测法、右方探测法选取未登录词规则等，使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词。同时，算法通过对正向、逆向双向分词算法的结果进行比较，能识别出绝大部分的交集歧义，使得未登录词识别与切分歧义识别一体化，有效地解决了识别未登录词时导致的新的切分歧义问题。接着，本文改进了词表组织结构，改善了词表查询算法，在提高分词效率的同时也使得词表的囊括度更大、更新维护更加灵活。在此基础上，针对信息检索领域的特点以及对分词算法的要求，本文提出了汉语自适应分词算法，并设计开发出了汉语分词基础模块CarmmLib．d11以及汉语自适应分词系统Carmm。Carmm用户可以定制词表，定制分词结果以及可以对词表、未登录词表等词表进行管理维护等。Carmm还具备很好的扩展性和可移植性。最后，本文对Carmm与中科院的分词系统ICTCLAS开源版进行了全面测评，包括系统效能测评(系统基本性能测评、负荷测评、稳定性测评)、系统分词准确率测评、系统未登录词识别的准确率和召回率测评。在整个测评过程中，carIIlITl的分词速率可以稳定在100KB/s左右。在人民日报语料库的开放测评中，Carmm系统的分词准确率约为91.2％。在网络时文的开放测评中，Carmm系统的分词准确率约为90.1％，接近于ICTCLAS开源版的91.3％；未登录词识别的准确率约为91.2％，略低于ICTCLAS开源版的93.9％；而未登录词识别的召回率约为94.7％，明显高于ICTCLAS开源版的89.0％。与此同时，Carmm系统在分词速率、处理大量未登录词的速率稳定性、面对高负荷系统环境的健壮性、系统易用性、系统抗干扰性等方面都优于ICTCLAS系统开源版。

著录项

作者
程冲;
展开▼
作者单位

南京农业大学;

展开▼
授予单位南京农业大学;
学科情报学
授予学位硕士
导师姓名黄水清;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
信息检索; 汉语分词; 未登录词识别;

相似文献

中文文献
外文文献
专利

1. 基于互信息的识别中文地名未登录词技术研究 [J] . 付海辰 . 唐山师范学院学报 . 2011,第002期
2. 自适应分词算法中的未登录词识别技术研究 [J] . 程冲 ,黄水清 . 情报学报 . 2009,第004期
3. 汉语未登录词识别现状及一种新识别方法介绍 [J] . 王蕾 ,杨季文 . 计算机应用与软件 . 2007,第008期
4. 混合信息双数组的未登录词动态识别模型 [J] . 陈皓宇 ,洪嘉伟 ,陈致然 . 电脑知识与技术 . 2021,第026期
5. 基于改进PMI和最小邻接熵结合策略的未登录词识别 [J] . 徐豪杰 ,吴新丽 ,杨文珍 . 计算机系统应用 . 2020,第006期
6. 基于混合策略的中文生物医学领域未登录词识别研究 [C] . Sun Haixia ,孙海霞 ,Li Junlian . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2012年学术年会 . 2013
7. 汉语分词中未登录词识别及词性标注的研究与实现 [A] . 张国兵 . 2008

信息检索用汉语分词与未登录词识别技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅