首页> 中文学位 >基于文本分类的信息解析研究
【6h】

基于文本分类的信息解析研究

代理获取

摘要

信息解析在自然语言处理中是一项极具重要性和挑战性的工作,同时也在自然语言处理应用中扮演着重要的角色。例如:舆情监控、网络搜索和智能问答等。 近年来,随着深度学习的不断发展,信息解析在自然语言处理中的研究取得了丰富的研究成果,并且已经在工程上实现了广泛的应用。但是在某些方面还存在一些不足之处,如有监督的深度学习方法需要大量高质量的人工标注的训练数据,其过程十分的耗时耗力,以及在中文文本中,文本数据会出现分词的歧义性、单个中文字符表达的意思不准确和不丰富,和在不同情况下,中文的词语和字符在句子中的重要性不一样的情况,导致了信息解析在工程应用中存在一些问题。为了解决上述问题,本文首先提出新的主动学习方法,并且将其与深度学习方法相结合;其次融合不同权重的中文词语级别的特征和字符级别的特征,使得模型最终的结果可以同时考虑到词语级别特征和字符级别特征。 本文针对基于文本分类的信息解析进行了相关研究,主要工作如下: (1)提出了一个新的主动学习方法,并将其与深度学习方法相结合去实现信息解析。有监督的深度学习模型在训练过程中通常需要大量高质量的、已标注的训练样本数据。通过人工来得到这样的样本数据是繁琐的、不可靠的,同时过程也十分的耗时耗力。主动学习自动的选取出未标注的样本数据,并让人类手动的对其进行标注,有助于缓解这一问题。它通过不断选择出需要标注的样本数据,然后使用这些样本数据迭代的去训练深度神经网络,直到达到预期的实验效果。本文提出了基于确定性标准的三种样本概率选择策略的主动学习方法,有效的解决了有监督的深度学习方法需要大量的人工标注数据的问题。实验结果表明,与单纯的深度神经网络相比较,本文提出的将主动学习与深度神经网络相结合在达到给定提取精度的情况下,所需的标记训练数据量可减少45.79%。 (2)基于卷积神经网络与双向长短时记忆网络注意力机制模型,本文提出了融合不同权重的中文词语级别的特征和字符级别的特征去提高信息解析的性能。对于中文的词语,它不同于西方语言,因为中文文本中词语与词语之间没有分隔符。因此,需要对中文文本进行分词操作,然而,中文文本中的每句话都可能有着不同的语义相关性,从而导致了中文分词操作之后会出现几种不同的分词结果,即会出现中文分词的歧义性问题。对于中文的字符,字符与字符之间存在分割符,因此,不会出现分字的歧义性问题。但是,单个的中文字符所表达的意思不够准确和丰富。并且,针对不同的情况,中文词语和字符在句子中的重要性是不一样的。为了解决上述问题,本文提出了融合不同权重的中文词语级别的特征和字符级别的特征,使得模型可以同时考虑到两种级别的特征,让它们相互弥补自身的缺点,从而提高信息解析的性能。实验结果表明,相比于单独的词语级别特征和字符级别特征的实现效果,本文提出的方法在THU数据集上分别提高了1.20%和1.69%;在企业公告数据集上分别提高了2.28%和5.13%。

著录项

  • 作者

    符磊;

  • 作者单位

    安徽大学;

  • 授予单位 安徽大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 殷赵霞;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    文本分类; 信息;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号