Web中文文本分类技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在信息化的大背景下，Web的飞速发展及互联网的普及给我们的工作和生活带来了极大的便捷，网络成为人们获取信息的重要来源。不过由于异构与开放的Internet网络，大量垃圾信息充斥其中，对待无尽的网络信息，怎样有效的管理，如何快速、准确地发现潜在有用的知识成为当前的研究热点。有效应对繁杂网页内容的一个重要方法就是将其分类，而目前文本仍然是网页的主要呈现形式，因此文本分类是解决该问题的核心，同时它也是有关搜索引擎，信息的检索与过滤的基础技术，广泛的适用性决定了对它研究的现实意义。Web中文文本分类是互联网技术与传统文本分类技术相结合的产物，简单概述，它是利用已知类别Web中文文档学习出一个分类模型，继而确定未知文档类别的技术，整个过程包括预处理Web中文文本、选取特征词集、文本表示、计算词权值、样本分类等步骤。
　　首先本论文在阐明Web中文分类关键技术的基础上，总结了研究的背景及现状，分析了研究的流程思路，做了很多理论和实现上的研究。理论方面，在综合分析总结了已有方法的不足之后，对分类过程中的一些环节进行了改进。针对Web下的特殊使用环境，提出了在特征选择之前，不同位置的文本，分区域、分步骤并赋予不同权重处理的思路；对于卡方统计只顾文档频率而没考虑词频，本类出现少而非本类中普遍存在时极有可能被选为特征词以及自身公式中均匀分布纠正惩罚能力不够等情况，提出了词频补偿因子、类别比重因子、类内分布因子的概念，将它们乘在传统方法的公式后面作为补偿来对原方法加以改进，取得了良好的效果；在分类算法方面，重点研究了KNN算法，在深入分析其原理后总结出了优缺点。针对KNN算法采用内积公式计算文本相似度比较粗糙的情况（文中已举例说明），给出了一种利用相似接近系数进行完善的方法。通过设计相关试验证明，以上改进后的措施在准确率、召回率、F1值等方面都有不同程度的提高。实现方面，本文设计了用于Web中文文本分类试验的小工具软件，包括用于建立样本库的Web网页采集模块，用于处理文本和分类过程的分类模块，用于评估对比最终结果的评估模块。并提供了设计的主要方案和用到的一些关键技术。

著录项

作者
王晓宁;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科通信与信息系统
授予学位硕士
导师姓名陈伟;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文文本; 分类算法; 相似接近系数; 互联网;

相似文献

中文文献
外文文献
专利

1. 使用KNN算法的中文Web文本分类技术研究 [J] . 曹勇 ,吴顺祥 . 软件导刊 . 2007,第001期
2. 中文文本分类相关算法的研究与实现 [J] . 徐沛娟 ,李雄飞 ,惠玥 . 吉林大学学报（理学版） . 2009,第004期
3. 中文Web文档库全文检索技术研究与实现 [J] . 杨文清 ,黄宜华 . 中文信息学报 . 1999,第004期
4. 利用表格特征信息的Web文本分类研究与实现 [J] . 桂海霞 . 计算机时代 . 2008,第012期
5. Web中文文本分类在防震减灾辅助决策中的应用 [J] . 邢丽莉 ,张兵 ,谢力 . 防灾科技学院学报 . 2009,第004期
6. 基于一种有监督Isomap算法的Web中文文本分类 [C] . 涂佳 ,吴翊 ,易东云 . 全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会 . 2007
7. 中文Web文本分类关键技术研究与实现 [A] . 张小彬 . 2011

Web中文文本分类技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅