基于关键字的搜索引擎搜索结果中文网页分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的迅速发展，搜索引擎的应用越来越广泛。为了提供高效、准确的信息服务，我们需要对搜索引擎的结果信息进行合理的组织与分类。本文的目标就是以Web文本信息处理为背景，从理论及应用两个层次对Web文本信息的聚类、分类方法进行了较为深入的研究。论文首先介绍、分析传统的文本分类和聚类算法的原理和特点。然后在现有技术的基础上，初步设计实现搜索网页分类系统，包括：关键字搜索结果网页类型判断方法，网页分块，网页消重与净化，完成了系统整体设计；然后对于不容易分类的HTML网页，提出一种新的基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后，在实验获得了部分参数条件下，构造中文文本分类器，并编程实现，通过实例测试分类器性能。论文的重点是在文本聚类指导下的分类模式的提取。与传统分类器不同，我们在缺乏类信息的情况下，采用聚类替代领域专家的人工分类获得类信息，为构造分类器提供合适的类信息特征提取，取得了较好效果。聚类部分，采用较为适合基于网页摘要聚类的显著短语级别聚类算法，并从理论角度对这种算法的优点进行论证。分类部分，论文分析了文本分类采用的朴素Bayes分类器和支持向量机技术的原理和优点，对一种具体的SVM方法—SMO训练方法进行了研究并利用实例进行验证。本论文提出的基于摘要和聚类指导的中文Web网页分类器设计方案，提出了基于改进的Luhn's摘要方法和有“指导”摘要的混合摘要方法，实验了在不同的网页摘要的压缩比例情况下，分类器对摘要实验效果，其分类的准确结果优于Web全文分类的准确度。

著录项

作者
周莹;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机应用技术
授予学位硕士
导师姓名白刚;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程;文字处理软件;检索机;
关键词
Web网页; 文本分类模式; 文本聚类算法; 搜索引擎; 支持向量机技术;

相似文献

中文文献
外文文献
专利

1. 搜索引擎搜索结果中文网页分类系统 [J] . 周莹 . 科教文汇 . 2007,第013期
2. 搜索引擎搜索结果中文网页分类系统 [J] . 周莹 . 科教文汇 . 2007,第05S期
3. 中文搜索引擎的搜索结果重合率研究 [J] . 王益明 ,刘菲 . 情报学报 . 2009,第003期
4. 中文搜索引擎网站关键字优化技术分析 [J] . 刘军永 . 电脑开发与应用 . 2013,第012期
5. 用链栈存储搜索关键字提高中文搜索引擎中分词的速度与精确度 [J] . 赵双柱 . 福建电脑 . 2010,第001期
6. Ropeway:基于语义相关的XML关键字搜索引擎 [C] . 郭文琪 ,温馨 ,王鹏 . 第27届中国数据库学术会议 . 2010
7. XML关键字搜索结果排序问题研究 [A] . 苑志朋 . 2017

基于关键字的搜索引擎搜索结果中文网页分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅