基于VSM的文本分类系统的设计和实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

众所周知，网络信息技术发展的速度相当惊人，信息增长速度越来越快，人类面临的信息量已经十分庞大，怎么样在这样巨大的数据量中找到人类需要的信息，满足人类的需求，成为了人类面临的一大问题，使用计算机对文本进行自动化分类的技术能够在很大程度上帮助人们解决这个问题。文本分类技术是自然语言处理领域和模式识别领域的一大课题，它诞生于20世纪50年代末，最初被使用于图书管理领域，经过好几代学者的研究到今天，这门技术已经从青涩变得成熟。近年来文本分类技术已经应用到信息检索，信息推送，信息过滤等多个领域，并且为人类提供了更好的信息化的服务。研究文本分类技术对我们有着很大的意义，它可以帮我们减少信息获取的时间，更好的取得信息，同时也有利于我们对信息更好地分类整理。
　　本文完成了一个使用向量空间模型（VSM）的文本分类系统，在文本分类预处理阶段，使用了基于隐马尔科夫模型（HMM）的分词方法将文本转化成为词袋的表示形式。在文本特征项选取过程中，采用了开方测试(CHI统计量)和互信息法进行特征项选取。
　　在特征项特征权重赋值方面，本文参考了众多论文对改进的TF-IDF的特征权重赋值方法的描述，探讨并且采用了TF-IDF的改进版本作为本文涉及的文本分类系统的特征权重函数。
　　在分类器选择方面，本文借鉴了比较成熟，高效的支持向量机技术，支持向量机是向量空间模型的一种实现，并且使用台湾大学林老师的LIBSVM对文本进行分类，同时本文深入探讨了支持向量机技术。
　　本文所涉及的文本分类系统从工程实际角度出发，利用并行化计算平台Hadoop进行模型训练，实现了文本分类的任务，分类效果达到了预期。

著录项

作者
孔振;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科软件工程
授予学位硕士
导师姓名宋颖慧;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类系统; 向量空间模型; 支持向量机; 特征选择;

相似文献

中文文献
外文文献
专利

1. 一种基于VSM文本分类系统的设计与实现 [J] . 李凡 ,林爱武 ,陈国社 . 华中科技大学学报：自然科学版 . 2005,第3期
2. 基于VSM模型的动态文本分类器的设计 [J] . 章兰 ,杨季文 ,江浩 . 河海大学常州分校学报 . 2004,第002期
3. 基于VSM的文件密级检测系统设计与实现 [J] . 张明星 ,邓时滔 ,李海怒 . 软件导刊 . 2017,第003期
4. 基于VSM的文件密级检测系统设计与实现 [J] . 张明星 ,邓时滔 ,李海怒 . 软件导刊 . 2017,第003期
5. 基于VSM的电子作业反抄袭系统的设计与实现 [J] . 周小平 ,王佳 ,马晓轩 . 实验技术与管理 . 2013,第003期
6. 浅谈基于VSM的非结构化中文文本分类方法 [C] . 尚振辉 ,孙会 . 2011全国教育技术博士生学术论坛 . 2011
7. 一种基于VSM模型的动态文本分类器的设计 [A] . 章兰 . 2004

基于VSM的文本分类系统的设计和实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅