首页> 中文学位 >基于LUCENE的多媒体文件检索系统的设计与实现
【6h】

基于LUCENE的多媒体文件检索系统的设计与实现

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1选题背景

1.2国内外现状

1.3选题目的和实用意义

1.4主要研究内容

2相关技术的基础研究

2.1 Lucene简介

2.2 Lucene系统结构及模块功能

2.3 Lucene算法分析

2.3.1增量算法

2.3.2归并算法

2.3.3查找算法

2.4分词技术

2.4.1二分法

2.4.2单字切分

2.4.3词库分词

2.4.4排序技术

2.5开发环境

2.5.1 .NET Framework

2.5.2 C#

3多媒体文件检索系统的分析与设计

3.1多媒体文件检索系统的需求

3.1.1多媒体文件检索系统的产品描述

3.1.2多媒体文件检索系统的用例调查

3.1.3用例详细描述

3.2多媒体文件检索系统的概要设计

3.2.1多媒体文件检索系统的架构

3.2.2多媒体文件检索系统的业务流程

4多媒体文件检索系统的实现

4.1多媒体文件检索服务器的实现

4.2索引查询接口的实现

4.2.1文档索引Web系统查询接口的实现

4.2.2文档索引桌面系统查询接口的实现

4.2.3数据库索引查询接口的实现

4.3多媒体文本提取插架的实现

4.4系统部分运行界面

5结论与展望

5.1结论

5.2 展望

致谢

参考文献

附录:作者在攻读学位期间发表的论文目录

展开▼

摘要

随着计算机互联网技术的飞速发展,网络上的网页及各种文本数字信息急剧增长,想要在庞大的数据中便捷、迅速地搜索到所需要的信息将变得越来越困难,信息检索技术日益成为研究的热点,目前流行的搜索引擎软件主要就是用来解决这个问题的。同时随着多媒体技术的发展,其中大量的信息以非文本形式的多媒体文件形式存在,如何高效检索这些数量庞大的多种媒体文件更是有着重要的应用价值。
   Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的搜索引擎工具包,它不是一个完整的搜索引擎,而是一个全文索引工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能,提供完整的查询和索引及部分文本分析功能。目前大量的应用都是利用Lucene对文本进行检索,而很少用来对多媒体文件进行检索。
   本文通过研究Lueene在多媒体文件搜索引擎领域的应用,设计并开发实现了多媒体文件搜索引擎系统。论文在对Lucene框架及核心算法进行分析研究的基础上,通过插件的机制抽取多媒体文件中的标示性文本信息,利用Lucene对标示性文本进行索引构建及检索,在NET开发环境下设计并完成了一个多媒体文件的检索系统。该检索系统能够高效的完成对海量文件中标示信息的抽取,标示信息的索引构建及在索引上的高速检索,在实际应用中取得了良好的效果。
   论文主要完成了以下工作:
   ⑴分析了Lucene的基本工作原理,剖析Lucene的体系结构、主要功能模块、算法分析及搜索引擎采用的分词技术。
   ⑵剖析了各种多媒体文件的内部结构及提出了对标示信息提取的方法。提出并设计了使用Lucene用来解决海量多媒体文件检索的方案。
   ⑶对多媒体文件检索系统的需求进行了分析,给出了产品描述和用例详细描述。设计并实现了一种插件的机制来完成对多媒体文件标示信息的提取。
   ⑷通过运用Lucene对多媒体文件的标示信息进行索引的构建及索引的查询,使用NET平台及C#语言设计并完成了该系统。系统运行情况良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号