中文词法分析技术的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深入的研究并实现了一个实用化的词法分析系统IRLAS。通过权威的评测和实际应用表明，IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。
　　众所周知，切分歧义和未登录词识别是中文分词中的两大难点。文本采用了基于词类的分词概率模型，此模型把词归为若干类别并且把这些类别纳入到一个统一的概率模型框架下。通过选择概率最大的切分路径可以消除掉大部分的切分歧义。对于未登录词识别，文本采用了基于角色标注的未登录词识别方法，这种方法能充分利用未登录词的上下文信息并把未登录词识别的问题转化为角色序列的标注问题。通过训练角色的隐马模型参数，再利用Viterbi算法即可标注出最优的角色序列，也即完成了未登录词的识别。
　　词性标注和动词细分类可以为上层应用提供更丰富的语法信息，例如句法分析可以利用这些词性信息进行句法关系的识别。词性标注是隐马尔科夫模型的一个典型应用，本文利用隐马尔科夫模型的方法进行词性标注并取得了较高的准确率。动词细分类和词性标注有些类似，它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点，本文提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分，通过与最大熵的方法进行比较，证明这种方法十分有效。本文还通过把动词细分类嵌入到句法分析系统中，从而有效地提高了句法分析的识别精度。

著录项

作者
张会鹏;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘挺;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文词法分析技术; 概率模型; 隐马尔科夫模型; 类别标注;

相似文献

中文文献
外文文献
专利

1. 基于双编码器的中文文本摘要技术的研究与实现 [J] . 高巍 ,马辉 ,李大舟 . 计算机工程与设计 . 2021,第009期
2. 数字图书馆中文本信息检索技术的研究与实现 [J] . 杨屹 . 科技创新导报 . 2020,第002期
3. 数字图书馆中文本信息检索技术的研究与实现 [J] . 赵晋劼 . 传播力研究 . 2020,第019期
4. 中文智能答疑系统相关技术的研究与实现 [J] . 曲守宁 ,张冰 ,杨海英 . 山东科学 . 2009,第001期
5. Teamcenter Engineering中文件自动签字技术的研究与实现 [J] . 张华 ,张国军 ,喻道远 . 计算机应用研究 . 2006,第007期
6. 平仄信息对中文词法分析的影响 [C] . 孟凡东 ,徐金安 ,姜文斌 . 第七届全国机器翻译研讨会 . 2011
7. 基于神经网络的中文词法分析系统的研究与实现 [A] . 徐伟 . 2017

中文词法分析技术的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅