首页> 中文学位 >面向中文社交媒体的命名实体识别研究与实现
【6h】

面向中文社交媒体的命名实体识别研究与实现

代理获取

目录

第一个书签之前

展开▼

摘要

命名实体识别是自然语言处理领域中的一个关键技术,其研究成果的好坏将直接影响到后续许多自然语言处理相关任务。在自媒体的信息时代,互联网上充斥着大量的评论信息,如何更好地对这些数据进行监督管理和挖掘利用,是一个亟待解决的问题。因此,面向中文社交媒体的命名实体识别具有非常重要的意义,成为了本文的研究重点。 本文设计并实现了一个基于长短期记忆网络(Long-Short Term Memory, LSTM)和条件随机场(Conditional Random Field, CRF)的命名实体识别算法,并将其成功应用在中文社交媒体文本上。相较于传统的单向LSTM与CRF相结合的方式或者单一的CRF模型,算法不论在泛指实体还是在明确命名实体的识别率方面,都有所提升。具体工作内容如下: 第一,本文提出使用单字位置向量作为模型的输入,在字向量中加入该字所在词中的位置信息,使得这样的单字位置向量既携带了字向量的特征也包含了词的边界信息。 第二,网络结构采用包含双向隐含层的 LSTM 模型,双向隐含层结构相较于单向结构可以更好地获取上下文信息和提取输入序列的特征。 第三,在网络模型的LSTM层与CRF层之间加入了注意力层,帮助模型更好地聚焦在输入序列的局部特征上。 第四,本文提出将命名实体识别模型的目标函数与训练单字位置向量模型的目标函数进行联合训练,通过这种方式,单字位置向量之间可以互相影响,从而拥有更优秀的特征,也可以缓解某些字在训练集中出现次数过少或者某些字不在词典中的问题(OOV词)。 本文使用新浪微博语料对研究成果进行实验,并与 CRF 模型和传统单向LSTM+CRF模型的实验结果进行对比分析。实验结果表明,改进后的网络模型在泛指命名实体和明确命名实体识别的准确率上有良好的表现。我们还将改进后的命名实体识别算法模型落地到实际应用场景中,对模型接口进行封装和界面化,设计并实现了一个命名实体识别系统。

著录项

  • 作者

    马晓菲;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 佘堃;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    中文; 媒体;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号