基于条件随机场的汉语自动分词技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科学技术的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的信息,而词是最小的能够独立活动的有意义的语言成分。因此将词确定下来是理解自然语言的第一步。然而汉语习惯中词与词之间没有间隔,这就决定了汉语自动分词技术成为自然语言理解中的关键技术。
　　从上世纪80年代以来,国内外公开报道的汉语自动分词算法数量不下于几十种。在这些方法中,利用统计机器学习理论的分词方法是近年来研究最多的方法,其基本思想就是将汉语分词和词性标注问题转化为分类问题。条件随机场方法就是这其中的一种。它是在传统方法瓶颈情况下诞生的一种统计学习方法,它同时具有隐马尔科夫模型和最大熵马尔科夫模型的优点。此外,该方法还解决了上述模型中出现的标注偏置等问题,而且所有特征可以进行全局归一化,能够求得全局的最优解。
　　本文基于条件随机场模型,研究了该模型在汉语分词方面的应用。论文的主要工作和特色如下:
　　首先,深入研究了条件随机场模型的原理,分析了模型的特点及该模型在自然语言处理方面的优势。
　　其次,在对条件随机场模型理论理解的基础上,设计了这样一个模型,并给出了特征选取、参数估计和解码等算法的详细推导过程。
　　最后,把这个条件随机场模型加入到汉语分词系统中,开发了一个条件随机场模型训练和汉语分词标注系统。在北京大学标注的1998年1月《人民日报》语料库上进行训练和测试,取得了较好的效果。

著录项

作者
李知兵;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机软件与理论
授予学位硕士
导师姓名李龙澍;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;TP393.09;
关键词
条件随机场; 汉语自动分词; 信息提取; 自然语言理解; 机器学习; 马尔科夫模型;

相似文献

中文文献
外文文献
专利

1. 基于层叠条件随机场的哈语树库构建技术研究 [J] . 于智娟 ,古丽拉·阿东别克 . 计算机应用与软件 . 2016,第003期
2. 基于条件随机场的藏文人名识别技术研究 [J] . 珠杰 ,李天瑞 ,刘胜久 . 南京大学学报：自然科学版 . 2016,第2期
3. 汉语自动分词技术研究 [J] . 王凡秀 ,王自强 . 计算机与数字工程 . 2008,第011期
4. 汉语自动分词中的神经网络技术研究 [J] . 林亚平 ,尹锋 . 湖南大学学报：自然科学版 . 1997,第006期
5. 基于BERT预训练模型的古汉语自动分词方法研究 [J] . 高毅 . 电子设计工程 . 2021,第022期
6. 一种改进的基于PATRICIA树的汉语自动分词词典机制 [C] . 马哲 ,姚敏 . 第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004) . 2004
7. 基于语境的汉语自动分词技术研究及实验分析 [A] . 路永刚 . 2007

基于条件随机场的汉语自动分词技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅