首页> 中文学位 >基于关键字的搜索引擎搜索结果中文网页分类研究
【6h】

基于关键字的搜索引擎搜索结果中文网页分类研究

代理获取

目录

文摘

英文文摘

南开大学学位论文版权使用授权书及南开大学学位论文原创性声明

第一章引言

第一节问题来源

第二节课题意义与研究现状

第三节研究概述

第四节论文的组织

第五节本章小结

第二章背景知识及相关研究

第一节信息检索发展与原理

2.1.1信息检索历史与相关领域

2.1.2关键词信息检索的难点所在——非规范知识处理

2.1.3 Web信息检索体系结构

第二节Web文档表示

2.2.1 Web文档结构特点

2.2.2 Web文档信息提取

第三节Web文本分类

2.3.1文本的表示

2.3.2特征抽取

2.3.3常用分类算法

第四节Web文本聚类

2.4.1检索后聚类算法的特性

2.4.2基于向量空间模型的文本聚类K-means算法

2.4.3聚类质量的评估

第五节本章小结

第三章搜索网页分类系统的初步设计与实现

3.1关键字搜索结果网页类型判断方法

3.2网页分块

3.2.1网页分块三种方法

3.2.2网页分块的流程

3.2.3标示网页分块级别——得到主题内容块

第三节网页消重与净化

3.3.1网页消重

3.3.2网页净化算法基础

3.3.3网页净化算法的性能和时间特性

第四节系统设计

3.4.1系统结构模型

3.4.2系统界面设计

3.4.3系统模块设计

第五节本章小结

第四章网页分类系统的详细设计

第一节网页摘要的提取

4.1.1改进的Luhn's摘要方法

4.1.2有“指导”的摘要方法

4.1.3自动摘要提取准确性分析

第二节基于摘要的网页搜索结果聚类

4.2.1聚类算法流程概述

4.2.2显著短语级别的聚类方法

4.2.3聚类评估函数

4.2.4显著短语的计算方法

4.2.5显著短语级别的回归模型

4.2.6聚类实验研究

第三节基于学习的网页摘要结果分类

4.3.1问题规范化和算法

4.3.2分类器评估方法

4.3.3实验模型分析

第四节本章小结

第五章实验研究

第一节训练数据集和测试数据集划分

第二节网页净化实验

第三节网页摘要压缩比例实验

第四节聚类显著词级别回归模型和训练文档数目实验

第五节朴素Bayes分类器实验

第六章结论

第一节本文的主要研究成果和创新点

第二节存在的问题和对未来工作的展望

参考文献

致谢

附录A

个人简历

展开▼

摘要

随着Internet的迅速发展,搜索引擎的应用越来越广泛。为了提供高效、准确的信息服务,我们需要对搜索引擎的结果信息进行合理的组织与分类。本文的目标就是以Web文本信息处理为背景,从理论及应用两个层次对Web文本信息的聚类、分类方法进行了较为深入的研究。 论文首先介绍、分析传统的文本分类和聚类算法的原理和特点。然后在现有技术的基础上,初步设计实现搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页分块,网页消重与净化,完成了系统整体设计;然后对于不容易分类的HTML网页,提出一种新的基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,在实验获得了部分参数条件下,构造中文文本分类器,并编程实现,通过实例测试分类器性能。 论文的重点是在文本聚类指导下的分类模式的提取。与传统分类器不同,我们在缺乏类信息的情况下,采用聚类替代领域专家的人工分类获得类信息,为构造分类器提供合适的类信息特征提取,取得了较好效果。聚类部分,采用较为适合基于网页摘要聚类的显著短语级别聚类算法,并从理论角度对这种算法的优点进行论证。分类部分,论文分析了文本分类采用的朴素Bayes分类器和支持向量机技术的原理和优点,对一种具体的SVM方法—SMO训练方法进行了研究并利用实例进行验证。 本论文提出的基于摘要和聚类指导的中文Web网页分类器设计方案,提出了基于改进的Luhn's摘要方法和有“指导”摘要的混合摘要方法,实验了在不同的网页摘要的压缩比例情况下,分类器对摘要实验效果,其分类的准确结果优于Web全文分类的准确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号