首页> 中文学位 >面向食品安全突发事件中文分词方法的研究
【6h】

面向食品安全突发事件中文分词方法的研究

代理获取

目录

声明

摘要

第1章绪论

1.1课题提出

1.1.1食品安全监管中信息不对称

1.1.2食品安全突发事件相关数据库

1.2中文分词及其研究现状

1.3本文研究内容

1.4研究意义

1.4.1对食品安全突发事件数据库构建的意义

1.4.2对食品安全领域自然语言处理任务的意义

1.5研究方法和技术路线

1.5.1研究方法

1.5.2研究技术路线

1.6本文组织结构

第2章中文分词的主要方法

2.1中文分词的技术难点

2.2中文分词中准确率和召回率介绍

2.3中文分词主要方法

2.4隐马尔可夫模型

2.4.1隐马尔可夫模型介绍

2.4.2隐马尔可夫模型在序列标注中的应用

2.5最大熵马尔可夫模型

2.5.1最大熵马尔可夫模型介绍

2.5.2最大熵马尔可夫模型在序列标注中的应用

2.5.3标注偏置问题

2.6条件随机场模型

2.6.1条件随机场模型介绍

2.6.2条件随机场模型在序列标注中的应用

2.7深度学习介绍

2.7.1人工神经网络

2.7.2深度学习的发展

2.7.3深层神经网络的模型结构

2.7.4深度学习的在序列标注上的应用

第3章面向食品安全突发事件中文分词的特征选择及模型优化研究

3.1食品安全语料库说明

3.2实验方法

3.3实验过程可视化

3.4.1特征选择的介绍

3.4.2食品安全突发事件语料特点

3.4.3面向食品安全突发事件中文分词的特征选择

3.5特征模版的构建和优化

3.6实验结果分析

3.7本章小结

第4章基于深度学习的食品安全突发事件中文分词

4.1双向LSTM模型介绍

4.1.1循环神经网络模型介绍

4.1.2双向循环神经网络模型介绍

4.1.3双向LSTM介绍

4.2词向量介绍

4.3过拟合和欠拟合

4.3.1过拟合和欠拟合介绍

4.3.2 Dropout方法

4.4基于双向LSTM的食品安全突发事件语料分词

4.4.1实验数据介绍

4.4.2实验数据处理

4.4.3实验方法

4.4.4实验结果分析

4.5 CRF模型与BLSTM模型在中文分词实验中的比较

4.5.1训练数据

4.5.2模型构建工具

4.5.3在计算资源与训练时长

4.5.4分词结果

4.5本章小结

5.1总结

5.2展望

参考文献

致谢

攻读学位期间发表的论文

展开▼

摘要

随着社会的进步和人民群众生活水平的提高,人们对于食品安全的问题越发重视,食品安全与民众的公共健康和生命安全紧密相关。食品安全事故的不断涌现、屡禁不止,食品安全相关信息的不对称是食品安全问题无法从根本上被治理的主要原因之一,而建立食品安全突发事件相关数据库能够促进食品安全信息的公开化、透明化,有效帮助食品安全的监管同时,也让消费者了解食品安全相关的准确信息。 本文主要研究对象是面向食品安全突发事件的中文分词方法。在中文的自然语言处理中,分词往往是第一步,而分词的准确性对后续任务的开展有重大影响。对食品安全突发事件近5000条语料,共计2033539个词进行采集,然后对采集数据预处理后,入库前的必要操作就是进行分词。 在目前的中文分词方法中,基于字标注统计学习的分词方法占据主流,其中又以基于条件随机场模型的分词方法效果最好。本文第3章实验中,重点研究了在基于条件随机场模型的面向食品安全突发事件语料分词方法中特征选择以及模型优化的问题,分析食品安全突发事件语料的词长分布等特点,对食品安全突发事件语料不同特征选择和特征模版进行实验,得出不同特征选择和应用不同特征模版对分词结果的影响。在实验结果中,仅加上位置特征的特征选择4Tag和5Tag的分词效果较好,其F值达到了92.87%和92.88%,而加上其他特征时,F值均有下降;在对不同特征模板的实验中移除二元特征C-1C0、C0C1、C-1C1时,F值下降到86.33%,相比原本特征模板其得到的F值相差了6.55%,而增加特征模板中特征行时,F值并没有明显变化。 深度学习模型不需要人工设计特征,实现端对端的输出,将其应用在中文分词任务中,通过深度学习,深层的复杂网络能够挖掘和学习出文本内部信息,对整个待分词文本进行把握,得到更好的分词效果。双向长短期记忆神经网络模型能够良好的获取句子中上下文信息,并且在一定程度上解决了训练过程中出现的远距离依赖问题,在本文第4章实验中,对基于此模型的面向食品安全突发事件中文分词进行了尝试,通过对训练过程中各参数的调整,其F值最后在94.56%达到稳定,这个结果相比基于条件随机场模型分词结果有较大提高。 随着互联网的发展以及食品安全领域的特性,像“膨大剂”、“注胶虾”、“僵尸肉”等专有名词和一些网络热词时常出现在食品安全突发事件的语料库中,将条件随机场模型和深度学习模型应用在面向食品安全突发事件中文分词中能较好的解决这些未登录词的问题,得到良好的分词效果。从本文中面向食品安全突发事件的中文分词结果来看,深度学习相比于条件随机场模型有一定的提高。本文在训练数据、模型构建工具上、计算资源与训练时长、实验结果方面对二者进行了对比,分析了各自优劣,对中文分词方法之后的发展提出了自己的看法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号