首页> 中文学位 >基于改进KNN分类算法的文本分类关键技术研究与实现
【6h】

基于改进KNN分类算法的文本分类关键技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题背景

1.2 国内外研究现状

1.3 本文的研究工作

1.4 论文的组织结构

第二章 Web 文本挖掘的相关技术

2.1 中文分词技术

2.2 Web 文本的特征表示

2.3 Web 文本的特征选择

2.4 文本聚类简介

2.5 文本分类简介

2.6 分类结果性能评估方法

2.7 本章小节

第三章 常用的文本分类方法

3.1 文本分类的定义

3.2 文本分类的过程

3.3 常用的文本分类算法

3.4 各种算法的性能比较

3.5 本章小节

第四章 基于 K 最邻近的分类方法的研究和改进

4.1 KNN 分类算法

4.2 特征选择函数的改进

4.3 KNN 分类算法的改进

4.4 本章小节

第五章 中文 Web 文本分类系统设计与实现

5.1 企业竞争情报分析与挖掘服务系统总体设计

5.2 分类系统总体设计

5.3 系统各模块详细设计

5.4 分类系统运行界面

5.5 系统实验结果分析

5.6 本章小节

第六章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域的一个研究热点。
  结合在企业竞争情报系统中的应用,本文提出了新的特征选择函数并且对KNN算法做了改进,具体的工作如下:
  (1)介绍了文本挖掘中所用到的主要关键技术,包括:中文分词技术、文本的特征表示、文本的特征选择、分类技术、聚类技术,以及一些性能评估方法。
  (2)介绍了KNN算法的步骤、优缺点,着重介绍了两方面的改进方法。第一个改进特征选择函数,引入词频、文档频、信息熵等元素后,信息选择函数对词的重要性有较好的区分度,既有较好的类内代表性,又有较好的类间区分度。第二个改进的是 KNN分类算法,根据KNN分类算法常常遇到的问题,提出了对样本空间的裁剪方法,不但提高了精度,又减少了时间复杂度。
  最后,在前面研究的基础上,根据所做的项目课题,将改进的KNN算法应用于企业竞争情报系统中,取得了较好的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号