首页> 中文学位 >Luder基于内容的文档搜索引擎
【6h】

Luder基于内容的文档搜索引擎

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

学位论文的主要创新点

第一章绪论

1.1课题的研究现状与前景

1.1.1搜索引擎发展历史

1.1.2搜索引擎概念与分类

1.1.3桌面搜索引擎

1.2课题主要研究内容与目标

1.3课题主要解决问题及研究意义

第二章关键技术

2.1搜索引擎原理与体系结构

2.2.1 Web搜索引擎原理

2.2.2 Web搜索引擎的体系结构

2.2.3桌面搜索引擎原理

2.2全文检索系统

2.3倒排索引

2.4排名机制

2.5中文分词

2.5.1中英文分词技术(Segment)

2.5.2中文分词需解决的问题

2.5.3常用分词算法

2.6 Lucene开源搜索框架

2.6.1 Lucene系统结构

2.6.2 Lucene索引文件格式

2.6.3 Lucene的扩展机制

2.6.4 Lucene数据流分析

2.6.5 Lucene的评分机制

第三章Luder基于内容的文档搜索引擎的开发

3.1需求分析

3.2系统总体设计

3.3系统详细设计与部分实现

3.4移植性

第四章工作总结

参考文献

发表的文章和参加的科研情况

致谢

展开▼

摘要

本文对Luder基于内容的文档搜索引擎进行了研究。文章在Lucene开源搜索框架基础上,重新封装核心功能,实现对多种格式的本地文档搜索功能,使用户在系统中全局地掌握桌面文档资源;构建基于SWT图形界面库可移植的交互界面,让用户方便地与系统交互:运用中文分词理论实现支持中/英文的 MandarinAnaylzer、基于词典的分析、分词模块,最大可以支持5个汉字词的模式匹配,解决了Lucene对中文支持不好的问题;针对不同格式的文档,构建多种类型解析器(Parser)抽取文档文本用于建立索引,支持多种流行的文档格式。本系统有效地解决了桌面应用中对于文档查询的问题,实现基于内容查找、提高查找效率与速度,更有效地利用桌面文档资源。

著录项

  • 作者

    窦亚君;

  • 作者单位

    天津工业大学;

  • 授予单位 天津工业大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 韩其睿;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    信息检索; 数据挖掘; 搜索引擎;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号