首页> 中文学位 >基于移动终端的Web信息检索技术研究
【6h】

基于移动终端的Web信息检索技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与意义

1.2 相关技术的国内外现状

1.2.1 手机浏览器的发展

1.2.2 移动手机搜索引擎的应用现状

1.3 主要研究内容

1.4 论文组织结构

1.5 小结

第二章 相关技术

2.1 网页净化

2.1.1 网页适应

2.1.2 网页分割

2.1.3 网页主题信息抽取

2.2 全文检索

2.3 全文检索引擎工具包Lucene

2.3.1 Lucene系统架构

2.3.2 Lucene索引介绍

2.3.3 Lucene索引结构

2.4 自动摘要技术

2.4.1 基于理解的自动摘要

2.4.2 基于统计的自动摘要

2.4.3 基于信息抽取的自动摘要

2.5 构造正则表达式

2.6 小结

第三章 网页净化模块的设计

3.1 HTML的基本概念及其结构

3.2 HTML解析包HTMLParser

3.2.1 Node

3.2.2 过滤器Filter类

3.2.3 通过Visitor访问

3.3 HTML主题信息提取

3.4 小结

第四章 信息检索模块设计

4.1 创建索引

4.2 查询

4.3 中文分词

4.3.1 Lucene中文分词

4.3.2 最大概率分词方法

4.3.3 中文分词算法的改进

4.4 小结

第五章 系统的整体设计与实现

5.1 系统整体设计框架

5.1.1 系统基本框架

5.1.2 系统平台和开发环境

5.2 网页搜索

5.3 网页预处理

5.3.1 预处理步骤

5.3.2 线程池

5.4 内容服务

5.4.1 建立txt文件索引库

5.4.2 txt文本摘要提取

5.5 小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读学位期间的主要研究成果

展开▼

摘要

随着移动互联网的快速发展,人们越来越习惯于随时随地通过手机等移动终端来上网。在浏览网页时经常会看到网页中会包含大量和我们所关心的内容无关的导航条、广告信息、版权信息以及其他一些信息等。对于移动用户来说,这些信息不仅让他们被动的去浏览而浪费宝贵的时间,而且也因为浏览了这些信息造成不必要的流量浪费。所以如何除去网页中多余的信息,让网页为用户做出需求应答时所展现的内容只是用户想看的内容,这是非常有必要的。比如,用户只想获取一个词的名词解释,那搜索引擎返回的结果就是单纯的名词解释。基于这一点,本文在研究了网页净化的相关技术和Lucene搜索引擎的基础上,开发设计了一套适合手机等移动终端获取主题文本信息的搜索系统。
   首先,论文对本系统需要用到的相关技术作了大致的介绍。主要研究了网页净化领域的相关技术,包括网页适应、网页分割和网页主题信息提取,同时,对Lucene开发工具包的技术和应用特点作了重点介绍,主要涉及Lucene的索引和查询,还有分析了自动摘要和正则表达式。
   然后,论文针对本系统的两个重要模块分别作介绍。一个是网页预处理模块,基于对网页净化技术的研究,采用信息提取的方法实现对主题信息的获取;另一个是信息检索模块,所检索的信息就是网页预处理模块得到的主题信息。在改进的中文分词的基础上,采用Lucene搜索引擎包实现对信息的索引和查询。
   最后,论文对整个系统的设计进行了介绍。系统实现了网页搜集,网页预处理和内容服务三个模块,完成了根据用户输入的关键字提供给用户文本信息服务的功能,实验证明这种方法既能提高查询的准确率,也大大的减少了网络流量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号