面向企业信息检索的中文分词系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着企业信息的飞速增长，企业信息检索逐渐成为信息检索领域研究的热点，中文分词作为信息检索的文本处理阶段一个重要步骤，直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多，但是目前的研究大多是通用的分词算法，专门针对企业检索应用的分词技术研究相对较少。因此，研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。
　　本文研究了中文分词的关键技术及难点，分析了分词对大规模信息检索的影响，在此基础上结合企业信息检索中分词技术的特点，设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高，本文设计了一种新的多字哈希结构的词典，改善了词典查询算法，提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点，在歧义消除部分，本文重点解决交叉歧义问题，利用双向匹配结果进行比较来检测歧义，采用自定义规则来消除歧义。在未登录词识别部分，本文提出了一种新的未登录词识别方法，利用数量词识别规则和虚字辅助切分分词碎片，通过局部词频统计结合单字非词概率，使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。
　　实验结果表明，本文设计的分词系统，分词速度快，准确率高，而且对未登录词具有很强的识别能力，符合企业信息检索对中文自动分词的要求。

著录项

作者
褚敬年;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名刘辉林;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
企业信息检索; 中文分词; 歧义处理; 未登录词识别;

相似文献

中文文献
外文文献
专利

1. 面向信息检索的自适应中文分词系统 [J] . 曹勇刚 ,曹羽中 ,金茂忠 . 软件学报 . 2006,第003期
2. 面向中小企业智能报表系统的研究与实现 [J] . 经伟 ,周国祥 . 合肥工业大学学报（自然科学版） . 2012,第007期
3. 面向大型企业应用的OA子系统研究与实现 [J] . 张迎春 ,王艳芳 . 计算机工程与设计 . 2009,第011期
4. 面向中小型机械制造企业CAPP系统研究与实现 [J] . 许之伟 ,刘永贤 ,唐亮 . 东北大学学报（自然科学版） . 2006,第011期
5. 基于Web面向中小型制造企业的PLM系统的研究与实现 [J] . 李海越 ,舒启林 ,王成恩 . 机械设计与制造 . 2005,第008期
6. 一种面向网店商品搜索的中文分词系统设计 [C] . 王敏 ,叶宽余 ,薛峰 . 全国第22届计算机技术与应用(CACIS)学术会议暨全国第3届安全关键技术与应用(SCA)学术会议 . 2011
7. 面向大规模信息检索的中文分词技术研究 [A] . 王思力 . 2006

面向企业信息检索的中文分词系统的研究与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅