基于形式概念分析的中文网页分类研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着Internet的不断发展，互联网上的信息越来越多，互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂，人们在搜索信息的时候很容易查到一些相近却不相关的信息。这些不相关的信息严重影响了人们对准确信息的查找效果。所以，如何使人们从互联网中快速准确的获取到自己想要的信息，就成为我们必然的研究趋势。
　　为了方便用户获取互联网上的信息，研究者推出了搜索引擎。搜索引擎无疑为人们获取知识提供了方便。然而多数搜索引擎的返回结果的数量十分庞大，而且返回的许多搜索结果不太符合用户的搜索意图。为了解决这一问题，研究者们经过深入探索，提出了分类技术。他们将数量庞大的搜索结果分别归类到相应的领域中。当用户从相应的数据领域中查找所需要的信息时，搜索引擎就会快速高效的返回正确的查询结果。因此，分类技术已经成为数据挖掘和搜索引擎的重要部分。
　　在万维网出现以前，分类技术一般都应用于普通文档的分类。同时出现了许多针对文档分类的相关技术，如ATC等。随着网络的不断发展，网页随之产生。网页作为一种信息载体，与人类生活变得息息相关。网页分类作为一种搜索引擎的重要技术，被广泛应用于信息检索、主题搜索、关键字查找以及数字图书馆等领域。
　　到目前为止，已经出现了多种分类方法。但是很多中文网页分类方法的分类效率和准确率不太令人满意。为了改善中文网页的分类状况，本文利用形式概念分析的基本知识，提出一种基于概念格的KNN分类方法。该方法主要利用先聚类后分类的思想，使得分类效果更加准确。在运用该思想的过程中，本文将类别概念定义为从概念格中选取出来的用于分类的所有概念。本文将概念格进行的一次聚类理解为第一次分类，二次分类是首先将选取出来的类别概念进行归类，建立一个向量空间模型，其中，类别概念对应向量空间模型中的列向量，类别概念的属性对应向量空间模型中的行向量。同时，待分类网页也用向量表示，然后结合KNN分类算法，实现中文网页的分类。在概念格与KNN结合的过程中，本文需要处理两个问题：(1)特征项的选取。(2)类别概念的提取。
　　本文通过基于概念格的KNN分类方法，不仅降低了向量空间的维数，进而提高了分类效率，而且提高了网页分类的准确率和召回率。

著录项

作者
陈文斐;
展开▼
作者单位

西华大学;

展开▼
授予单位西华大学;
学科计算机应用技术
授予学位硕士
导师姓名杜亚军;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
中文网页分类; 类别概念; 概念格; 形式概念; 主题搜索; 特征项;

相似文献

中文文献
外文文献
专利

1. 基于向量空间模型中文农业网页分类技术研究 [J] . 段园磊 ,张太红 . 新疆农业大学学报 . 2012,第002期
2. 基于KNN及相关链接的中文网页分类研究 [J] . 金一宁 ,王华兵 ,王德峰 . 哈尔滨商业大学学报（自然科学版） . 2011,第002期
3. 基于KNC算法的中文网页分类方法研究 [J] . 李旻 ,杜海顺 ,王琪 . 河南大学学报：自然科学版 . 2010,第5期
4. 基于优选链接的中文网页分类方法研究 [J] . 陈胜荣 ,董守斌 . 郑州大学学报（理学版） . 2007,第002期
5. 基于SVM的中文网页分类方法的研究 [J] . 牛强 ,王志晓 ,陈岱 . 计算机工程与设计 . 2007,第008期
6. HHME:基于形式概念分析的中文FAQ问答系统 [C] . Yanqiang Fu ,付延强 ,Huijian Han . 第21届全国多媒体技术、第8届全国普适计算、第8届全国人机交互联合学术会议 . 2012
7. 基于Weka平台的改进KNN中文网页分类研究 [A] . 黄超 . 2018

基于形式概念分析的中文网页分类研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅