首页> 中文学位 >基于神经网络的词的切分及切分歧义消解
【6h】

基于神经网络的词的切分及切分歧义消解

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1论文选题的背景

1.2论文研究的目的和意义

1.3国内外现状

1.3.1国内现状

1.3.2国外现状

1.4人工神经网络在中文信息处理领域的应用

1.5论文的出发点

第二章人工神经网络分词模型的设计

2.1人工神经网络的基本特征和BP算法

2.1.1人工神经网络的基本特征和信息处理能力

2.1.2 BP算法

2.2神经网络分词模型的设计

2.2.1输入模块的建立

2.2.2学习模块与学习方式

2.2.3输出解释模块的建立

2.3分词模型的结果与评价

第三章基于遗传算法的神经网络分词模型优化设计

3.1遗传算法的描述

3.1.1涉及的一些基本术语

3.1.2遗传算法的基本操作

3.1.3遗传算法

3.2BP网络结构的遗传优化设计

3.2.1染色体编码

3.2.2适应度函数的选取

3.2.3网络学习训练过程

3.3实验分析

第四章分词歧义消解

4.1有关歧义字段一些基本定义

4.2消歧的主要技术

4.3基于神经网络技术分词歧义消解

4.3.1理论分析

4.3.2模式特征提取

4.3.3实验模型的设计

4.3.4网络训练过程描述

4.4动态网络

第五章未登录词的识别

5.1未登录词概述

5.2未登录词的处理策略

5.3未登录词识别算法

5.4算法的评价

总结

致谢

参考文献

攻读硕士学位期间研究成果

展开▼

摘要

随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中重要的知识载体与基本操作单元,由于在书面汉语中词与词之间没有英文中类似空格的明显切分标志,汉语言自动分词这一研究领域应运而生。 汉语分词的任务,通俗地说,就是由机器在中文文本中词与词之间加上空格,为其后续工作如词性标注、语法语义分析等做准备。自动分词问题的最终突破将对许多研究领域产生实质性的影响:如中文文本的自动检索、过滤、分类及摘要;中文文本的自动校对;机器翻译;汉字识别与汉语语言识别的后处理等等。 目前,国内公开报道过的分词方法主要有: 1)基于词典、词库匹配法,如最大匹配法、逐词匹配法、并行分词法等等;2)语义分词法,如综合匹配法、语法分析法等;本文采用人工智能的方法,具体来说,是用人工神经网络技术来建立分词模型。人工神经网络(ANN)是一个高度复杂的非线性动力学系统,它由大量的同时也是简单的处理单元(或称神经元)广泛连接而成,它反映了人脑的若干特性,对人脑功能作了某种简化、抽象和模拟。本文采用的是神经网络经典算法—BP 算法,在诺依曼体系机上模拟人工神经网络建立分词模型,并给出了实验分析。 凡事皆有两面,BP 算法本身也存在着一些固有的缺陷:1)BP 学习算法的收敛速度慢,通常需要上千次甚至更多次迭代来训练;2)从数学角度看,BP学习过程是一阶非线性梯度优化问题,因此不可避免的会遇到优化过程中最常见的局部极小问题,使学习效果偏离最佳值;3)网络隐层数以及隐层节点数目的选取尚无理论指导,完全凭经验指定。 鉴于此,在第三章介绍了分词模型的改进算法,提出用遗传算法来优化神经网络结构,遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。具有隐含的并行性和对全局信息的有效利用能力,使它只需搜索少数结构就能反映搜索空间的大量区域。利用群体的适应值信息,通过简单的复制、杂交和变异算子,遗传算法能以很大的概率找到全局最优解,从而从整体上提升自动分词模型的性能。在论文的后部,针对歧义问题给出了基于神经网络的消歧算法。同时也对未登录词进行了相应的处理,以期提高分词的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号