首页> 中文学位 >全文检索在“2008奥运多语言系统”中的应用研究与实现
【6h】

全文检索在“2008奥运多语言系统”中的应用研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1 前言

1.2 研究背景

1.3 论文的选题和应用意义

1.3.1论文的选题

1.3.2应用意义

1.4本文的组织结构

第2章 搜索引擎概述

2.1 什么是搜索引擎

2.2 搜索引擎的背景和发展

2.3 搜索引擎的工作原理

2.3.1搜索引擎的基本工作流程

2.3.2搜索引擎的网页搜索

2.3.3搜索引擎的网页预处理

2.3.4搜索引擎的信息查询服务

2.4 搜索引擎的体系结构

2.5 搜索引擎的性能评价指标

2.6 本章小结

第3章 全文检索技术概述

3.1 全文检索技术及其意义

3.2 全文检索技术的研究和应用现状

3.2.1 中文分词技术的研究背景及现状

3.2.2各种常见格式文档处理技术的现状

3.3 全文检索系统详述

3.3.1 全文检索系统的基本原理、功能和结构

3.3.2全文检索系统的特点

3.3.3全文检索系统的核心与实现机制

3.4 本章小结

第4章 基于Lucene的索引与搜索

4.1 全文检索引擎工具包Lucene简介

4.2 Lucene的优点和特点

4.2.1 Lucene的优点

4.2.2 Lucene的特点

4.3 Lucene的体系结构

4.3.1 Lucene的源代码结构

4.3.2 Lucene的系统结构

4.3.3 Lucene的数据流分析

4.4 基于Lucene的应用开发

4.5 本章小结

第5章 系统的设计与实现

5.1 系统概述

5.1.1 项目背景

5.2 系统设计

5.2.1 总体架构设计

5.2.2系统模块设计

5.2.3系统部署设计

5.3 系统实现

5.3.1系统运行平台及开发环境

5.3.2系统业务流程

5.3.3索引建立的实现

5.3.4全文检索的实现

5.4系统实现演示

5.5 本章小结

结论

参考文献

攻读硕士学位期间所发表的学术论文

致谢

展开▼

摘要

全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本文对中文全文检索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,本文提出了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新。并根据其特征,设计了优化的查询策略。分析比较的结果表明,改进的索引结构在获得较高的动态性能的同时,还能有效地提高创建索引的速度。本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、加快检索速度、不断适应网络信息发展等方面做了重点研究。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本文针对全文数据库的特点,深入讨论此法弊端与不足,并提出了在文件系统上构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如等公司都使用其核心代码。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。 在应用方面,本文主要工作是奥运多语言系统中全文检索子系统的设计与实现。就检索的效率和效果而言,基本达到了最初的设计目的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号