基于语境和停用词驱动的中文自动分词研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着国民经济信息化的不断发展以及Internet的普及应用，中文信息处理成为一种热门的研究领域。因此，对中文自动分词技术的要求也越来越高，成为中文信息处理的一个前沿课题。
　　未登录词对分词精度的影响超过歧义切分，因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息，合理利用能提高识别的质量。为此，本文针对以上关键问题进行研究，主要工作如下：
　　 (1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息，这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。
　　 (2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念，将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理，这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此，在结合语料信息和语境信息或上下文信息的同时，对停用词进行建模，减少了局部概率偏见的影响，有效提高未登录词识别的质量。

著录项

作者
江兆中;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机应用技术
授予学位硕士
导师姓名胡学钢;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文信息处理; 中文分词; 未登录词识别; 语境信息; 停用词驱动;

相似文献

中文文献
外文文献
专利

1. 基于动态规划算法单字估价值的中文自动分词研究 [J] . 李艳秋 ,李成城 . 内蒙古师范大学学报（自然科学汉文版） . 2010,第002期
2. 基于电磁驱动气门的发动机停缸技术研究 [J] . 俞晓璇 ,常思勤 . 车用发动机 . 2011,第002期
3. 基于语境相似度的中文分词一致性检验研究 [J] . 刘伟 ,黄锴宇 ,余浩 . 北京大学学报:自然科学版 . 2022,第1期
4. 基于主题语境的高中英语阅读教学中文化意识培养策略研究与实践 [J] . 张慧 . 吉林省教育学院学报（上旬） . 2020,第010期
5. 基于语境和语义的中文文本聚类算法研究 [J] . 吴勇 ,周军 . 科技信息 . 2010,第035期
6. 基于事例推理的中文自动分词研究 [C] . 苏芳仲 ,林世平 . 第十一届中国人工智能学术年会 . 2005
7. 基于常用词频统计的初中文言文常用词教学研究 [A] . 葛晓瑜 . 2018

基于语境和停用词驱动的中文自动分词研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅