汉语分词中未登录词识别及词性标注的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素，未登录词包括人名、地名、时间名、数词等，提高这类词的识别率能够在一定程度上提高汉语分词的准确率；词性标注是中文信息化处理的基础性工作，其任务是用计算机来自动地标注出文本中所有词的词性。词性标注在机器翻译、自动摘要、信息检索、Web文本挖掘、文本分类、文本校对、语音识别、语音合成等许多领域起着重要的作用，是自然语言处理的基础性课题。提高词性标注的准确率，是提高自然语言处理效果的基础之一，因此词性标注的方法研究具有重要意义。本文采用了统计与规则相结合的方法对未登录词进行识别，该方法解决了基于规则的方法带来的规则获取瓶颈问题，同时克服了基于统计的方法过于依赖语料库的缺陷。实验证明，统计与规则相结合的方法能有效的提高汉语分词的准确率。本文对词性标注的方法进行了研究，分析了基于规则的方法和基于统计的方法的优缺点。提出采用条件随机场模型，通过概率训练获得了模型参数。同时采用backoff参数平滑算法来解决了条件随机场模型的数据稀疏问题。最后，运用Viterbi算法以句子为单位进行词性标注。实验证明，基于概率统计的-阶条件随机场模型以及Viterbi算法能有效的解决汉语词性标注的问题。另外，在汉语分词的词典结构方面，本文提出了一种基于双数组Trie加密的词典存储结构，该词典存储结构不仅能够有效地提高词典检索效率、降低词典的空间复杂度，并且克服了传统双数组词典结构装载时间过长的缺点，同时，该结构的加密存储方式能够有效保护词典信息不被窃取。对保护知识产权起到了重要的作用。

著录项

作者
张国兵;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科模式识别与智能系统
授予学位硕士
导师姓名李淼;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
汉语分词; 未登录词; 词性标注; 自动分词;

相似文献

中文文献
外文文献
专利

1. 错误驱动学习在未登录词词性标注中的应用 [J] . 梁妍 ,朱耀庭 . 计算机工程与设计 . 2008,第006期
2. 自适应分词算法中的未登录词识别技术研究 [J] . 程冲 ,黄水清 . 情报学报 . 2009,第004期
3. 对专业搜索引擎中未登录词的识别研究 [J] . 张赢 ,万仲保 . 计算机技术与发展 . 2009,第005期
4. HENU汉语分词系统中的中文人名识别算法 [J] . 毋琳 ,郑逢斌 ,乔保军 . 计算机工程与应用 . 2006,第014期
5. 人脸识别在远程智能监控系统中的研究与实现 [J] . 安海平 ,马行 ,穆春阳 . 现代电子技术 . 2019,第012期
6. 汉语分词及词性标注自动校验方法研究 [C] . 钱揖丽 ,张虎 . 第一届学生计算语言学研讨会 . 2002
7. 信息检索用汉语分词与未登录词识别技术研究 [A] . 程冲 . 2007

汉语分词中未登录词识别及词性标注的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅