基于文本分类的信息解析研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

信息解析在自然语言处理中是一项极具重要性和挑战性的工作，同时也在自然语言处理应用中扮演着重要的角色。例如:舆情监控、网络搜索和智能问答等。近年来，随着深度学习的不断发展，信息解析在自然语言处理中的研究取得了丰富的研究成果，并且已经在工程上实现了广泛的应用。但是在某些方面还存在一些不足之处，如有监督的深度学习方法需要大量高质量的人工标注的训练数据，其过程十分的耗时耗力，以及在中文文本中，文本数据会出现分词的歧义性、单个中文字符表达的意思不准确和不丰富，和在不同情况下，中文的词语和字符在句子中的重要性不一样的情况，导致了信息解析在工程应用中存在一些问题。为了解决上述问题，本文首先提出新的主动学习方法，并且将其与深度学习方法相结合;其次融合不同权重的中文词语级别的特征和字符级别的特征，使得模型最终的结果可以同时考虑到词语级别特征和字符级别特征。本文针对基于文本分类的信息解析进行了相关研究，主要工作如下: (1)提出了一个新的主动学习方法，并将其与深度学习方法相结合去实现信息解析。有监督的深度学习模型在训练过程中通常需要大量高质量的、已标注的训练样本数据。通过人工来得到这样的样本数据是繁琐的、不可靠的，同时过程也十分的耗时耗力。主动学习自动的选取出未标注的样本数据，并让人类手动的对其进行标注，有助于缓解这一问题。它通过不断选择出需要标注的样本数据，然后使用这些样本数据迭代的去训练深度神经网络，直到达到预期的实验效果。本文提出了基于确定性标准的三种样本概率选择策略的主动学习方法，有效的解决了有监督的深度学习方法需要大量的人工标注数据的问题。实验结果表明，与单纯的深度神经网络相比较，本文提出的将主动学习与深度神经网络相结合在达到给定提取精度的情况下，所需的标记训练数据量可减少45.79％。 (2)基于卷积神经网络与双向长短时记忆网络注意力机制模型，本文提出了融合不同权重的中文词语级别的特征和字符级别的特征去提高信息解析的性能。对于中文的词语，它不同于西方语言，因为中文文本中词语与词语之间没有分隔符。因此，需要对中文文本进行分词操作，然而，中文文本中的每句话都可能有着不同的语义相关性，从而导致了中文分词操作之后会出现几种不同的分词结果，即会出现中文分词的歧义性问题。对于中文的字符，字符与字符之间存在分割符，因此，不会出现分字的歧义性问题。但是，单个的中文字符所表达的意思不够准确和丰富。并且，针对不同的情况，中文词语和字符在句子中的重要性是不一样的。为了解决上述问题，本文提出了融合不同权重的中文词语级别的特征和字符级别的特征，使得模型可以同时考虑到两种级别的特征，让它们相互弥补自身的缺点，从而提高信息解析的性能。实验结果表明，相比于单独的词语级别特征和字符级别特征的实现效果，本文提出的方法在THU数据集上分别提高了1.20％和1.69％;在企业公告数据集上分别提高了2.28％和5.13％。

著录项

作者
符磊;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机科学与技术
授予学位硕士
导师姓名殷赵霞;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
文本分类; 信息;

相似文献

中文文献
外文文献
专利

1. 基于信息熵加权的Word2vec中文文本分类研究 [J] . 吴萍萍 . 长春师范大学学报 . 2020 ,第002期
2. 基于信息熵加权的Word2 vec中文文本分类研究 [J] . 吴萍萍 . 长春师范学院学报（自然科学版） . 2020 ,第001期
3. 基于文本分类的农业种植信息集成推荐方法研究 [J] . 彭争 ,唐东明 . 西南民族大学学报（自然科学版） . 2018 ,第001期
4. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017 ,第012期
5. 基于互信息的文本分类改进方法研究 [J] . 余璇 ,孙伟 ,张翔 . 微型机与应用 . 2017 ,第019期
6. 基于互信息规则剪枝的关联文本分类 [C] . 商炳章 ,白清源 . 第三届江苏计算机大会 . 2008
7. 基于泛化信息和记忆信息的短文本分类研究 [A] . 张帅 . 2019

基于文本分类的信息解析研究

摘要

著录项

相似文献

相关主题

期刊订阅