首页> 中文学位 >基于电路课程的主题搜索引擎设计与实现
【6h】

基于电路课程的主题搜索引擎设计与实现

代理获取

目录

摘要

ABSTRACT

第一章 绪论

1.1 引言

1.2 搜索引擎的发展概况

1.3 国内外研究及发展现状

1.4 基于电路课程的主题搜索引擎的设计与本文组织结构

第二章 主题搜索引擎的关键技术

2.1 主题搜索引擎功能模块

2.2 中文分词技术

2.3 专业爬虫技术

2.3.1 专业搜索引擎中网络蜘蛛模型

2.3.2 目前主题网络蜘蛛所存在的问题

2.3.3 普通爬虫和主题爬虫对比

2.4 网页抽取技术

2.4.1 信息抽取技术概述

2.4.2 信息抽取技术的评价标准

第三章 主题搜索引擎框架设计

3.1 信息采集模块

3.1.1 Robots.txt 和META 标签

3.1.2 链接过滤

3.1.3 主题网络蜘蛛的算法选择

3.1.4 页面访问

3.2 主题词

3.2.1 主题词的选择及设置

3.2.2 根据主题词及其权值改变搜索顺序

3.3 权重网页和聚合网页

3.3.1 权重网页和聚合网页选择计算公式

3.3.2 权重网页和聚合网页的选择算法

3.4 查询模块

3.4.1 基于MVC 模式的查询子系统

3.5 详细设计与实现步骤

3.6 本章小结

第四章 主题搜索引擎在电路课程中的应用

4.1 开放源代码Lucene

4.1.1 Lucene 简介

4.1.2 选用Lucene 的原因

4.1.3 Lucene 框架构成

4.1.4 Lucene 在本文中的应用

4.2 运行环境

4.3 Esearch 系统搭建

4.4 抓取系统(Spider)

4.4.1 网页抓取性能分析

4.5 搜索性能分析

4.6 Ajax 技术的使用

4.7 本章小结

第五章 总结与展望

参考文献

附录1 Spider 起始判断模块

附录2 Spider 分析页面处理代码模块

附录3 Spider 下载线程代码模块

附录4 建立索引模块代码

致谢

攻读硕士学位期间已录用的学术论文

上海交通大学学位论文答辩决议书

展开▼

摘要

目前互联网领域主要的搜索引擎服务商如Yahoo、百度、Google等,为用户提供的都是横向的海量信息搜索。而在互联网不断更新和演化的现阶段,我们发现:普通网络用户想找到所需的资料简直如同大海捞针,海量的信息已经不再是发展的主要动力,意识和时效性才是真正的动力。互联网发展的关键不再是能否快速、大量地向用户提供和传递信息,而是能否实现使用户在期望的时间、期望的地点,以期望的方式和成本,获取期望的信息。然而综合搜索引擎可以满足大量信息的横向搜索,但很难兼顾搜索的准确度与相关度的质量。主题搜索这一新的搜索模式正是在这一背景下产生的。本文主要的研究工作分为两个部分:第一部分通过理论研究分析,提出了对主题搜索引擎信息采集算法的改进思路;第二部分通过对主题搜索引擎的核心技术进行剖析,设计并实现了一个主题搜索引擎的原型系统。本文首先详细介绍了搜索引擎的发展历史,指出了目前综合搜索引擎所面临的问题以及解决这些问题的途径,即本文所研究的方向:主题搜索引擎。通过和综合搜索引擎在信息服务以及关键技术上的比较分析,指出主题搜索引擎存在的巨大优势和发展空间,并通过学习设计搜索引擎的关键技术,网络爬虫技术、网页抽取技术、中文分词技术,建立主题搜索框架,在网页抓取算法分析选择,在抓取网页选取方面作了范围限定,以提高提取有效网页精度。最后利用Lucene框架设计并构建一个面向电路理论信息的主题搜索引擎的原型系统。

著录项

  • 作者

    孟媛;

  • 作者单位

    上海交通大学;

  • 授予单位 上海交通大学;
  • 学科 电工理论与新技术
  • 授予学位 硕士
  • 导师姓名 陈洪亮;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 检索机;
  • 关键词

    主题搜索; Lucene; MVC; IM-BF算法; 中文分词;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号