首页> 中文学位 >面向迁移学习的文本特征提取
【6h】

面向迁移学习的文本特征提取

代理获取

摘要

随着互联网的发展,有越来越多的信息以文本的方式存储在网络上,成为人们获取信息的来源。当人们面对网络--这个巨大的文本库,急需一种高效的技术手段来帮助人们对这个文本库中的文本进行整理,对其中的信息进行挖掘。文本挖掘应运而生。文本分类是文本挖掘中一项重要的技术,在现实中也有着广泛的应用。在文本分类中,二分类问题有着重要的地位。许多现实问题,例如垃圾邮件的过滤,国家敏感信息的删除,在本质上都是一个文本二分类的问题。
   除了文本数量的巨大,互联网上的信息还有一个重要的特点,那就是它的内容更新速度快。在互联网上,每时每刻都有新的内容出现,并且很可能在短时间内成为人们关注的焦点。在这种情况下,传统的机器学习方法都面临一个严峻的问题,那就是训练数据与测试数据不再服从相同的分布。从网上搜集到数据,对这些数据进行了辛苦的标注,再在这些数据上训练出一个分类器,而当将这个分类器应用于现实时,却发现原来所用的数据已经过时,面对新的内容,分类器已失去它的意义。迁移学习能够有效解决这个问题。它不要求训练数据与测试数据服从相同分布,而是试图尽量多的去利用那些看起来已经过时的旧数据,帮助少量的新数据去建立一个能够在新数据上有很好表现的分类器。目前已经有越来越多的研究者参与到了迁移学习的研究当中。
   本文以文本二分类问题为背景,对迁移学习在文本分类中的应用进行了实验。在实验中发现了现有特征提取算法的不足,问题产生的原因就是在大多数使用迁移学习算法的情况下,训练集中普遍存在数据偏斜的问题。本文主要研究了在文本分类过程中,如何同时利用新数据与旧数据,进行特征提取,才能够更好的适应迁移学习算法,使得文本分类获得更好的效果。在特征提取的步骤中,对已有的算法作出了改进,提出一种基于二次提取的方法,经过试验证明,改进的算法有效的提高了分类的准确率与召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号