首页> 中文学位 >Web中文文本分类技术研究与实现
【6h】

Web中文文本分类技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题来源

1.2 课题研究背景及意义

1.3 国内外研究现状

1.4 论文研究的主要内容

1.5 论文组织结构

第2章 Web中文文本分类主要技术

2.1 Web中文文本预处理

2.2 Web文本特征提取

2.3 文本数学表示方法

2.4 Web文本权重计算

2.5 Web文本分类算法

2.6 本章小结

第3章 Web中文文本采集系统设计

3.1 Web文本特点分析

3.2 试验样本采集系统设计

3.3建立试验样本库

3.4 本章小结

第4章 Web中文文本特征选择研究及改进

4.1 文本特征选择概述

4.2 Web文本处理思路改进

4.3 处理思路改进前后试验与结果分析

4.4 卡方统计概述

4.5 分析卡方统计的不足

4.6 卡方统计的改进

4.7 卡方统计改进前后试验与结果分析

4.8 本章小结

第5章 KNN文本分类算法研究及改进

5.1 KNN分类算法概述

5.2 KNN算法分类步骤探究

5.3 相似度的计算

5.4 分析KNN文本分类算法缺点

5.5 KNN文本分类算法的改进

5.6 KNN改进前后试验与结果分析

5.7 本章小结

第6章 Web中文文本分类系统设计

6.1 系统开发环境

6.2 系统实现框图

6.3 Web网页采集系统

6.4 分类系统模块

6.5 结果评价系统

6.6 本章小结

第7章 总结与展望

7.1 本文总结

7.2 研究展望

致谢

参考文献

展开▼

摘要

在信息化的大背景下,Web的飞速发展及互联网的普及给我们的工作和生活带来了极大的便捷,网络成为人们获取信息的重要来源。不过由于异构与开放的Internet网络,大量垃圾信息充斥其中,对待无尽的网络信息,怎样有效的管理,如何快速、准确地发现潜在有用的知识成为当前的研究热点。有效应对繁杂网页内容的一个重要方法就是将其分类,而目前文本仍然是网页的主要呈现形式,因此文本分类是解决该问题的核心,同时它也是有关搜索引擎,信息的检索与过滤的基础技术,广泛的适用性决定了对它研究的现实意义。Web中文文本分类是互联网技术与传统文本分类技术相结合的产物,简单概述,它是利用已知类别Web中文文档学习出一个分类模型,继而确定未知文档类别的技术,整个过程包括预处理Web中文文本、选取特征词集、文本表示、计算词权值、样本分类等步骤。
  首先本论文在阐明Web中文分类关键技术的基础上,总结了研究的背景及现状,分析了研究的流程思路,做了很多理论和实现上的研究。理论方面,在综合分析总结了已有方法的不足之后,对分类过程中的一些环节进行了改进。针对Web下的特殊使用环境,提出了在特征选择之前,不同位置的文本,分区域、分步骤并赋予不同权重处理的思路;对于卡方统计只顾文档频率而没考虑词频,本类出现少而非本类中普遍存在时极有可能被选为特征词以及自身公式中均匀分布纠正惩罚能力不够等情况,提出了词频补偿因子、类别比重因子、类内分布因子的概念,将它们乘在传统方法的公式后面作为补偿来对原方法加以改进,取得了良好的效果;在分类算法方面,重点研究了KNN算法,在深入分析其原理后总结出了优缺点。针对KNN算法采用内积公式计算文本相似度比较粗糙的情况(文中已举例说明),给出了一种利用相似接近系数进行完善的方法。通过设计相关试验证明,以上改进后的措施在准确率、召回率、F1值等方面都有不同程度的提高。实现方面,本文设计了用于Web中文文本分类试验的小工具软件,包括用于建立样本库的Web网页采集模块,用于处理文本和分类过程的分类模块,用于评估对比最终结果的评估模块。并提供了设计的主要方案和用到的一些关键技术。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号