首页> 中文学位 >博客搜索引擎与排名技术研究
【6h】

博客搜索引擎与排名技术研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 论文的研究背景及研究意义

1.1.1 研究背景

1.1.2 研究意义

1.2 论文的研究内容及主要工作

1.3 论文的组织结构

第二章 相关技术介绍

2.1 Web挖掘理论基础

2.1.1 Web挖掘定义

2.1.2 Web挖掘分类

2.2 网络爬虫

2.2.1 网络爬虫的系统结构

2.2.2 常用的网络爬虫搜索算法

2.3 中文分词

2.4 本章小节

第三章 博客搜索引擎技术介绍

3.1 搜索引擎相关理论

3.1.1 搜索引擎发展历史

3.1.2 传统搜索引擎的定义及基本构成

3.1.3 搜索引擎分类

3.1.4 特色搜索引擎

3.2 博客搜索引擎技术

3.2.1 RSS源搜索

3.2.2 TrackBack技术

3.2.3 Tag标签

3.3 本章小节

第四章 博客搜索与排名系统的详细设计

4.1 系统框架

4.2 主要功能模块介绍

4.2.1 爬虫模块

4.2.2 信息抽取模块

4.2.3 搜索排名模块

4.2.4 系统的主要功能设计

4.3 本章小节

第五章 基于内容的博客排名算法研究

5.1 概述

5.2 相关工作

5.3 基于内容的博客排名算法(Content—based Rank Algorithm)

5.3.1 隐式的链接

5.3.2 算法

5.4 实验分析

5.4.1 数据集

5.4.2 实验结果与用户评价

5.5 本章小节

第六章 总结与展望

6.1 本文工作总结

6.2 未来工作展望

致 谢

参考文献

附录攻读硕士学位期间已发表论文

展开▼

摘要

目前,博客作为Web2.0中的代表,引起了大众传播方式的一种变革。自其出现以后,持续影响和改变着互联网的交流模式。互联网中博客的数量成指数级的增加,从九十年代的数千个增长到2005年的过亿,这样庞大的信息量,就需要一个有效的搜索方法对博客进行搜索。现在已经有很多博客的搜索工具了:Blogdigger, Blogpulse,还有Technorati,而像Google,Yahool和AskJeeves这样的搜索引擎也已经提供了专门的博客搜索。博客搜索正处于一个发展的初级阶段,其蕴含着极大的研究潜力。本研究主要包括以下方面。
   ⑴基础理论研究:介绍了Web挖掘基础理论(包括Web挖掘的定义和Web挖掘的分类)、网络爬虫的系统结构和相关折爬虫算法、中文分词的几种方法。
   ⑵博客搜索引擎技术:介绍了传统搜索引擎的定义及基本构成、搜索引擎的分类,介绍了几种特色的搜索引擎,针对博客的特点,分析了几种博客搜索技术。给出了博客搜索与排名的系统框架和三个功能模块的详细设计。
   ⑶博客排名技术:在分析Google中著名的PageRank(网页排名算法)的基础上,利用隐式链接等相关技术,提出了针对博客的基于内容的排名算法。该算法不只考虑了博客中的链接分析,还主要对博客中的志容进行分析,挖掘博客中的隐性特征,从而提高用户对博客搜索结果的满意度。

著录项

  • 作者

    严磊;

  • 作者单位

    江南大学;

  • 授予单位 江南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 钱雪忠,卢鹏飞;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    计算机网络; 搜索引擎; 博客排名; 数据库技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号