基于神经网络的词的切分及切分歧义消解

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及，以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中重要的知识载体与基本操作单元，由于在书面汉语中词与词之间没有英文中类似空格的明显切分标志，汉语言自动分词这一研究领域应运而生。汉语分词的任务，通俗地说，就是由机器在中文文本中词与词之间加上空格，为其后续工作如词性标注、语法语义分析等做准备。自动分词问题的最终突破将对许多研究领域产生实质性的影响：如中文文本的自动检索、过滤、分类及摘要；中文文本的自动校对；机器翻译；汉字识别与汉语语言识别的后处理等等。目前，国内公开报道过的分词方法主要有: 1)基于词典、词库匹配法，如最大匹配法、逐词匹配法、并行分词法等等；2)语义分词法，如综合匹配法、语法分析法等；本文采用人工智能的方法，具体来说，是用人工神经网络技术来建立分词模型。人工神经网络(ANN)是一个高度复杂的非线性动力学系统，它由大量的同时也是简单的处理单元(或称神经元)广泛连接而成，它反映了人脑的若干特性，对人脑功能作了某种简化、抽象和模拟。本文采用的是神经网络经典算法—BP 算法，在诺依曼体系机上模拟人工神经网络建立分词模型，并给出了实验分析。凡事皆有两面，BP 算法本身也存在着一些固有的缺陷：1)BP 学习算法的收敛速度慢，通常需要上千次甚至更多次迭代来训练；2)从数学角度看，BP学习过程是一阶非线性梯度优化问题，因此不可避免的会遇到优化过程中最常见的局部极小问题，使学习效果偏离最佳值；3)网络隐层数以及隐层节点数目的选取尚无理论指导，完全凭经验指定。鉴于此，在第三章介绍了分词模型的改进算法，提出用遗传算法来优化神经网络结构，遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。具有隐含的并行性和对全局信息的有效利用能力，使它只需搜索少数结构就能反映搜索空间的大量区域。利用群体的适应值信息，通过简单的复制、杂交和变异算子，遗传算法能以很大的概率找到全局最优解，从而从整体上提升自动分词模型的性能。在论文的后部，针对歧义问题给出了基于神经网络的消歧算法。同时也对未登录词进行了相应的处理，以期提高分词的准确率。

著录项

作者
吴琼;
展开▼
作者单位

长春工业大学;

展开▼
授予单位长春工业大学;
学科计算机应用技术
授予学位硕士
导师姓名赵伟;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自动分词; 汉语分词; 人工神经网络; 遗传算法; 消歧算法;

相似文献

中文文献
外文文献
专利

1. 基于最大熵模型的交集型切分歧义消解 [J] . 张锋 ,樊孝忠 . 北京理工大学学报 . 2005,第7期
2. 基于词间关联度度量的维吾尔文本自动切分方法 [J] . 吐尔地.托合提 ,维尼拉.木沙江 ,艾斯卡尔.艾木都拉 . 北京大学学报：自然科学版 . 2016,第1期
3. 基于词位的藏文黏写形式的切分 [J] . 康才畯 ,龙从军 ,江荻 . 计算机工程与应用 . 2014,第011期
4. 基于统计抽词和格律的全宋词切分语料库建立 [J] . 苏劲松 ,周昌乐 ,李翼鸿 . 中文信息学报 . 2007,第002期
5. 基于汉语二字应成词的歧义字段切分方法 [J] . 郑德权 ,于凤 ,王开涛 . 计算机工程与应用 . 2003,第001期
6. 基于二元切分和模糊集的垃圾邮件中组合歧义词识别算法 [C] . 郭溢沫 . 中国电子学会第十一届青年学术年会 . 2005
7. 基于规则与BP神经网络相结合的复句关系词切分消歧 [A] . 熊焱 . 2018

基于神经网络的词的切分及切分歧义消解

目录

摘要

著录项

相似文献

相关主题

期刊订阅