首页> 中文学位 >智能搜索中的中文网页分类研究
【6h】

智能搜索中的中文网页分类研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章 绪论

1.1 课题背景

1.2 网页分类的研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 搜索引擎概述

1.4 本文的主要研究内容

1.5 论文组织

第2章 中文网页分类技术概述

2.1 中文网页分类模型

2.2 中文网页分类的关键技术

2.2.1 网页预处理

2.2.2 网页文本表示

2.2.3 特征降维方法

2.2.4 分类算法概述

2.2.5 分类器性能评价

2.3 本章小结

第3章 基于改进DOM树的网页净化方法

3.1 网页净化的方法

3.2 DOM技术概述

3.3 网页净化的模型设计

3.4 IDVA算法和MCE算法介绍

3.4.1 IDVA算法思想

3.4.2 MCE算法思想

3.5 本章小结

第4章 特征降维和相似度计算

4.1 特征降维方法

4.2 文本的相似度计算

4.3 经典相似度评价模型

4.3.1 布尔模型

4.3.2 向量空间模型

4.3.3 概率模型

4.4 改进的相似度计算方法

4.4.1 最优指派模型的改进

4.4.2《知网》知识库介绍

4.4.3 改进的相似度计算方法-Hsim

4.5 本章小结

第5章 基于支持向量机的层次分类

5.1 层次分类概述

5.2 支持向量机方法

5.2.1 支持向量机基础

5.2.2 支持向量机的发展

5.3 K-近邻(K-NN)方法

5.3.1 K-NN基础

5.3.2 K-NN的发展

5.4 基于支持向量机的层次分类模型

5.5 本章小结

第6章 实验设计与分析

6.1 网页净化实验

6.1.1 实验数据和方法

6.1.2 结果分析

6.2 层次分类实验

6.2.1 实验设计

6.2.2 实验结果分析

6.3 本章小结

总结与展望

参考文献

致谢

附录A 攻读硕士学位期间所发表的论文

展开▼

摘要

随着互联网技术突飞猛进的发展,网络规模正以指数级增长。为了更加快捷的找到所需的信息,而不被庞大无序且结构类型多样的信息海洋所淹没,智能搜索已成为人们获取信息的主要途径。然而,当前的全文搜索引擎虽然提供了信息检索服务,但是自身存在着种种缺陷导致了诸如信息孤岛、主题偏向性等问题的出现。而如果对搜索信息按照所属类别进行分类,便可以在很大程度上满足用户搜索的需求,网页自动分类便应运而生。目前,中文网页自动分类技术在搜索引擎的目录导航服务、信息过滤、主题搜索、个性化信息检索、主动信息推送服务领域得到了广泛地应用。本研究主要内容包括以:
   ⑴通过分析网页中包含的“噪声”,结合网页内容的视觉信息和几何布局,使用改进的网页DOM树结构和可视化分析方法识别出主题型网页的内容块,然后在得到的内容块中提取出网页的主要内容,利用统计学的方法来去除网页中与主题不相关的内容,最终达到有效去除网页噪声的目的。实验表明,该方法可以在很大程度上净化网页文本,删除网页中与主题不相关的信息。
   ⑵针对余弦距离在计算文本相似度时,没有考虑文本特征词之间的语义信息,结合《知网》对词汇间概念的语义定义,使用一种基于改进的最优指派模型计算文本的最大相似度。该方法通过模型将网页文本中每个特征词对文本间语义相似度的贡献值聚合在一起,得到网页文本间的相似度值。
   ⑶通过研究网页自动分类的一般常用模型,并结合网页类别定义的自身特点,构建了一种基于支持向量机的层次分类模型。该模型首先用支持向量机识别出所有的顶层类别,然后进行二次特征选择,去除子类间的无关特征,再对每个顶层类别用K-NN识别出子类别。实验表明,该层次分类方法可以得到较好的分类效果。

著录项

  • 作者

    邓科;

  • 作者单位

    兰州理工大学;

  • 授予单位 兰州理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 张永;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;TP391.12;
  • 关键词

    数据挖掘; 中文网页; 信息分类; 汉字处理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号