面向迁移学习的文本特征提取

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，有越来越多的信息以文本的方式存储在网络上，成为人们获取信息的来源。当人们面对网络--这个巨大的文本库，急需一种高效的技术手段来帮助人们对这个文本库中的文本进行整理，对其中的信息进行挖掘。文本挖掘应运而生。文本分类是文本挖掘中一项重要的技术，在现实中也有着广泛的应用。在文本分类中，二分类问题有着重要的地位。许多现实问题，例如垃圾邮件的过滤，国家敏感信息的删除，在本质上都是一个文本二分类的问题。
　　除了文本数量的巨大，互联网上的信息还有一个重要的特点，那就是它的内容更新速度快。在互联网上，每时每刻都有新的内容出现，并且很可能在短时间内成为人们关注的焦点。在这种情况下，传统的机器学习方法都面临一个严峻的问题，那就是训练数据与测试数据不再服从相同的分布。从网上搜集到数据，对这些数据进行了辛苦的标注，再在这些数据上训练出一个分类器，而当将这个分类器应用于现实时，却发现原来所用的数据已经过时，面对新的内容，分类器已失去它的意义。迁移学习能够有效解决这个问题。它不要求训练数据与测试数据服从相同分布，而是试图尽量多的去利用那些看起来已经过时的旧数据，帮助少量的新数据去建立一个能够在新数据上有很好表现的分类器。目前已经有越来越多的研究者参与到了迁移学习的研究当中。
　　本文以文本二分类问题为背景，对迁移学习在文本分类中的应用进行了实验。在实验中发现了现有特征提取算法的不足，问题产生的原因就是在大多数使用迁移学习算法的情况下，训练集中普遍存在数据偏斜的问题。本文主要研究了在文本分类过程中，如何同时利用新数据与旧数据，进行特征提取，才能够更好的适应迁移学习算法，使得文本分类获得更好的效果。在特征提取的步骤中，对已有的算法作出了改进，提出一种基于二次提取的方法，经过试验证明，改进的算法有效的提高了分类的准确率与召回率。

著录项

作者
李炜;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘江;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
文本分类; 迁移学习; 特征提取; 文本挖掘;
入库时间 2022-08-17 11:19:30

相似文献

中文文献
外文文献
专利

1. 面向迁移学习的文本特征对齐算法 [J] . 魏晓聪 ,林鸿飞 . 计算机工程 . 2017,第002期
2. 面向新闻文本的特征提取方法研究与实现 [J] . 李志强 ,王玉玫 . 信息技术 . 2022,第1期
3. 面向铁路文本分类的字符级特征提取方法 [J] . 鲁博仁 ,胡世哲 ,娄铮铮 . 计算机科学 . 2021,第003期
4. 面向短文本分类的特征提取与算法研究 [J] . 刘晓鹏1 ,杨嘉佳1 ,卢凯1 . 信息技术与网络安全 . 2019,第005期
5. 面向短文本分类的特征提取与算法研究 [J] . 刘晓鹏 ,杨嘉佳 ,卢凯 . 微型机与应用 . 2019,第005期
6. 面向BBS短文本的特征提取研究 [C] . 张柱山 ,徐志侠 ,何金艳 . 中国计算机用户协会信息系统分会2010年第二十届信息交流大会 . 2010
7. 面向评论文本的迁移学习研究及应用 [A] . 魏晓聪 . 2017

面向迁移学习的文本特征提取

摘要

著录项

相似文献

相关主题

期刊订阅