首页> 中文学位 >基于形式概念分析的中文网页分类研究
【6h】

基于形式概念分析的中文网页分类研究

代理获取

目录

文摘

英文文摘

1 绪论

1.1 研究目的及意义

1.2 研究背景及现状

1.3 本文主要研究内容

1.4 本文的结构

2 预备知识

2.1 形式概念分析

2.1.1 形式概念分析基本知识

2.1.2 概念格的构建方法

2.1.3 概念格的特点

2.2 文本表示模型

2.3 传统分类方法

2.4 本文分类思想及流程图

2.5 本章小结

3 中文网页预处理

3.1 网页净化

3.1.1 噪音清除

3.1.2 HTML加权

3.2 特征项选取

3.2.1 传统特征项选取方法

3.2.2 本文特征项选取方法

3.3 本章小结

4 概念的选取

4.1 概念的选取方法

4.2 概念选取案例

4.3 本章小结

5 概念格与KNN算法的结合

5.1 本文向量空间模型

5.2 本文的KNN算法表述

6 实验

6.1 实验准备

6.2 实验结果及评价

6.2.1 评价指标

6.2.2 实验结果

结论

参考文献

攻读硕士学位期间发表的论文及科研成果

致谢

展开▼

摘要

随着Internet的不断发展,互联网上的信息越来越多,互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂,人们在搜索信息的时候很容易查到一些相近却不相关的信息。这些不相关的信息严重影响了人们对准确信息的查找效果。所以,如何使人们从互联网中快速准确的获取到自己想要的信息,就成为我们必然的研究趋势。
   为了方便用户获取互联网上的信息,研究者推出了搜索引擎。搜索引擎无疑为人们获取知识提供了方便。然而多数搜索引擎的返回结果的数量十分庞大,而且返回的许多搜索结果不太符合用户的搜索意图。为了解决这一问题,研究者们经过深入探索,提出了分类技术。他们将数量庞大的搜索结果分别归类到相应的领域中。当用户从相应的数据领域中查找所需要的信息时,搜索引擎就会快速高效的返回正确的查询结果。因此,分类技术已经成为数据挖掘和搜索引擎的重要部分。
   在万维网出现以前,分类技术一般都应用于普通文档的分类。同时出现了许多针对文档分类的相关技术,如ATC等。随着网络的不断发展,网页随之产生。网页作为一种信息载体,与人类生活变得息息相关。网页分类作为一种搜索引擎的重要技术,被广泛应用于信息检索、主题搜索、关键字查找以及数字图书馆等领域。
   到目前为止,已经出现了多种分类方法。但是很多中文网页分类方法的分类效率和准确率不太令人满意。为了改善中文网页的分类状况,本文利用形式概念分析的基本知识,提出一种基于概念格的KNN分类方法。该方法主要利用先聚类后分类的思想,使得分类效果更加准确。在运用该思想的过程中,本文将类别概念定义为从概念格中选取出来的用于分类的所有概念。本文将概念格进行的一次聚类理解为第一次分类,二次分类是首先将选取出来的类别概念进行归类,建立一个向量空间模型,其中,类别概念对应向量空间模型中的列向量,类别概念的属性对应向量空间模型中的行向量。同时,待分类网页也用向量表示,然后结合KNN分类算法,实现中文网页的分类。在概念格与KNN结合的过程中,本文需要处理两个问题:(1)特征项的选取。(2)类别概念的提取。
   本文通过基于概念格的KNN分类方法,不仅降低了向量空间的维数,进而提高了分类效率,而且提高了网页分类的准确率和召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号