首页> 中文学位 >基于网页分块思想的搜索引擎索引系统
【6h】

基于网页分块思想的搜索引擎索引系统

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1 Web页而区域划分研究的背景及意义

1.2国内外研究现状

1.3本文研究内容

1.4论文的组织

第二章相关技术研究

2.1当前Web页面结构分析及语言规范

2.1.1 HTML语言介绍

2.1.2 XML语言介绍

2.1.3 XHTML语言介绍

2.2 DOM树结构研究

2.2.1 DOM技术介绍

2.2.2 DOM树结构

2.2.3 DOM树的操作

2.3经典VIPS算法

2.4本章小结

第三章Web页面区域划分算法

3.1对VIPS算法的改进

3.1.1引入结构树深度阈值PDoT

3.1.2引入叶子节点数阈值PNoB

3.2改进算法流程与实现

3.2.1改进算法流程

3.2.2可视块提取

3.2.3分割线提取

3.2.4页面内容结构调整

3.3改进算法与原算法的对比实验

3.3.1爬取测试集

3.3.2对比实验

3.4本章小结

第四章基于改进VIPS算法的搜索引擎索引系统

4.1系统结构和模块划分

4.2语义预处理层

4.2.1中文分词技术概述

4.2.2存储中文词典的Trie树模块

4.2.3中文词典读入模块

4.2.4分词模块

4.2.5分词结果统计模块

4.3可视块分类层

4.3.1预处理模块

4.3.2构造分类器模块

4.3.3正文块分类模块

4.4改进的索引系统

4.5本章小结

第五章实验结果与分析

5.1实验数据介绍

5.2实验结果的评价方法

5.3实验结果与分析

5.4本章小结

第六章总结与展望

参考文献

发表论文和科研情况说明

致 谢

展开▼

摘要

现有的搜索引擎都是对整个页面建立索引并用于检索的,但某些页面中可能包含不同的主题块,如果用户提交的多个关键词恰好分别位于不同的主题块内,则即使页面与用户检索请求不相关,搜索引擎仍会把该页面返回给用户。
   为改进搜索引擎的索引系统,引入了网页分块的思想。本文选择了VIPS算法作为网页分块算法,但经典VIPS算法在实际应用中存在着切分粒度不好控制的问题,针对切分过粗和切分过细两种情况,本文分别引入了节点深度阈值和叶子节点数目阈值,使得VIPS算法可以根据页面特征进行切分粒度的自适应。在三大门户网站爬取页面作为测试集,通过改进算法与经典算法的对比试验,证明了改进算法的有效性。
   对给定网页先行分块,并基于块内容将主题相关的块合并为子文档,然后再对各子文档分别建立索引。这样只有当用户提交的多个关键词完全包含在某个子文档内时,搜索引擎才会把原页面返回给用户。基于网页分块,设计了改进的搜索引擎索引系统,制定了一些规则过滤与正文无关的块,并对剩下的块进行分类。最后,通过拟定三组种子关键词组,并向Google提交查询得到测试集,将该集合与索引改进后的检索结果进行比较。实验证明,本文所提供的索引方案较大程度上提高了检索的准确率和F1测试值。

著录项

  • 作者

    邓铮;

  • 作者单位

    天津大学;

  • 授予单位 天津大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 何丕廉;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.092;
  • 关键词

    网页分块; 索引系统; 搜索引擎; 用户检索;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号