首页> 中文学位 >基于VSM的文本分类系统的设计和实现
【6h】

基于VSM的文本分类系统的设计和实现

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1课题的背景及研究目的

1.2与课题相关的国内外研究综述

1.3本文的主要研究内容

1.4本文的内容安排

第2章 文本分类系统的分析和设计

2.1需求分析

2.2系统技术路线分析

2.3系统设计

2.4本章小结

第3章 文本预处理模块的设计与实现

3.1词库的收集管理

3.2基于隐马尔可夫模型的中文文本分词

3.3分词模型训练

3.4本章小结

第4章 文本表示及分类的实现

4.1特征词筛选方法介绍

4.2特征词筛选的实现

4.3特征权重计算

4.4文本分类器

4.5本章小结

第5章 文本分类系统评测

5.1测试目的

5.2测试环境

5.3系统功能测试

5.4系统性能测试

5.5评测结果

5.6本章小结

结论

参考文献

声明

致谢

个人简历

展开▼

摘要

众所周知,网络信息技术发展的速度相当惊人,信息增长速度越来越快,人类面临的信息量已经十分庞大,怎么样在这样巨大的数据量中找到人类需要的信息,满足人类的需求,成为了人类面临的一大问题,使用计算机对文本进行自动化分类的技术能够在很大程度上帮助人们解决这个问题。文本分类技术是自然语言处理领域和模式识别领域的一大课题,它诞生于20世纪50年代末,最初被使用于图书管理领域,经过好几代学者的研究到今天,这门技术已经从青涩变得成熟。近年来文本分类技术已经应用到信息检索,信息推送,信息过滤等多个领域,并且为人类提供了更好的信息化的服务。研究文本分类技术对我们有着很大的意义,它可以帮我们减少信息获取的时间,更好的取得信息,同时也有利于我们对信息更好地分类整理。
  本文完成了一个使用向量空间模型(VSM)的文本分类系统,在文本分类预处理阶段,使用了基于隐马尔科夫模型(HMM)的分词方法将文本转化成为词袋的表示形式。在文本特征项选取过程中,采用了开方测试(CHI统计量)和互信息法进行特征项选取。
  在特征项特征权重赋值方面,本文参考了众多论文对改进的TF-IDF的特征权重赋值方法的描述,探讨并且采用了TF-IDF的改进版本作为本文涉及的文本分类系统的特征权重函数。
  在分类器选择方面,本文借鉴了比较成熟,高效的支持向量机技术,支持向量机是向量空间模型的一种实现,并且使用台湾大学林老师的LIBSVM对文本进行分类,同时本文深入探讨了支持向量机技术。
  本文所涉及的文本分类系统从工程实际角度出发,利用并行化计算平台Hadoop进行模型训练,实现了文本分类的任务,分类效果达到了预期。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号