首页> 中文学位 >面向异步通讯机制的网页搜索技术研究
【6h】

面向异步通讯机制的网页搜索技术研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

第一节本文研究背景及意义

第二节国内外研究现状

第三节研究内容

第四节创新点

第五节论文章节安排

第二章相关技术研究

第一节全文搜索引擎工作原理

第二节页面搜索算法研究

第三节异步通讯技术研究

第四节异步通讯技术对传统的页面搜索技术带来的挑战

第三章面向异步通讯的搜索引擎搜集器设计

第一节搜集器的系统结构

第二节搜集器链接提取及处理子系统设计

第三节搜集器页面存储子系统设计

第四节实现要点

第四章基于SVM的网页分类器的设计与实现

第一节支持向量机(SVM)的一般原理

第二节基于SVM的分类器的模型

第三节基于SVM的分类器的评价

第五章面向异步通讯机制的搜索器的系统实现

第一节搜集器链接提取与处理子系统的实现

第二节搜索器存储子系统实现

第三节面向异步通讯机制的搜集器效果评价

第六章总结和展望

第一节本文工作总结

第二节后续工作展望

参考文献

攻读硕士学位期间发表的论文及参与的项目

致谢

展开▼

摘要

本文系统的回顾了搜索引擎页面搜索的研究现状,分析了目前全文搜索引擎页面搜集和存储的工作原理,介绍了异步通讯技术的工作原理和优势,总结了在WEB2.0环境下,由于采用异步通讯机制而给搜索引擎所带来的问题,提出了一种面向异步通讯机制的网页搜集技术的实现方法。 面向异步通讯机制的页面搜索技术研究旨在克服由于采用异步通讯技术而给搜索引擎所带来的新问题。由于目前全文搜索引擎的搜集器大多采用基于超链分析的算法,搜集器程序只分析页面的HTML代码部分,而忽略页面中脚本区域的代码。而异步通讯技术正是借助大量的脚本代码来实现的,大量的链接被隐藏在了页面的脚本代码中。因此需要对现有的搜索引擎的搜集器做适当的改进,使得搜集器程序可以分析页面脚本区域的代码,将其中的超链接取出。为此,提出了一种借助于脚本运行环境,利用Windows消息机制,通过系统模拟点击页面脚本函数的方法来提取超链接。同时,针对异步通讯机制所带来的服务器返回不完整页面的问题,采取了导入链接所属的源页面,通过局部刷新机制,存储刷新后页面的方法来解决信息不能直接存储的问题。最后展望了这一课题的后续工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号