文摘
英文文摘
南开大学学位论文版权使用授权书及南开大学学位论文原创性声明
第一章引言
第一节问题来源
第二节课题意义与研究现状
第三节研究概述
第四节论文的组织
第五节本章小结
第二章背景知识及相关研究
第一节信息检索发展与原理
2.1.1信息检索历史与相关领域
2.1.2关键词信息检索的难点所在——非规范知识处理
2.1.3 Web信息检索体系结构
第二节Web文档表示
2.2.1 Web文档结构特点
2.2.2 Web文档信息提取
第三节Web文本分类
2.3.1文本的表示
2.3.2特征抽取
2.3.3常用分类算法
第四节Web文本聚类
2.4.1检索后聚类算法的特性
2.4.2基于向量空间模型的文本聚类K-means算法
2.4.3聚类质量的评估
第五节本章小结
第三章搜索网页分类系统的初步设计与实现
3.1关键字搜索结果网页类型判断方法
3.2网页分块
3.2.1网页分块三种方法
3.2.2网页分块的流程
3.2.3标示网页分块级别——得到主题内容块
第三节网页消重与净化
3.3.1网页消重
3.3.2网页净化算法基础
3.3.3网页净化算法的性能和时间特性
第四节系统设计
3.4.1系统结构模型
3.4.2系统界面设计
3.4.3系统模块设计
第五节本章小结
第四章网页分类系统的详细设计
第一节网页摘要的提取
4.1.1改进的Luhn's摘要方法
4.1.2有“指导”的摘要方法
4.1.3自动摘要提取准确性分析
第二节基于摘要的网页搜索结果聚类
4.2.1聚类算法流程概述
4.2.2显著短语级别的聚类方法
4.2.3聚类评估函数
4.2.4显著短语的计算方法
4.2.5显著短语级别的回归模型
4.2.6聚类实验研究
第三节基于学习的网页摘要结果分类
4.3.1问题规范化和算法
4.3.2分类器评估方法
4.3.3实验模型分析
第四节本章小结
第五章实验研究
第一节训练数据集和测试数据集划分
第二节网页净化实验
第三节网页摘要压缩比例实验
第四节聚类显著词级别回归模型和训练文档数目实验
第五节朴素Bayes分类器实验
第六章结论
第一节本文的主要研究成果和创新点
第二节存在的问题和对未来工作的展望
参考文献
致谢
附录A
个人简历