首页> 中文学位 >基于Web文本挖掘的主题搜索系统的研究与实现
【6h】

基于Web文本挖掘的主题搜索系统的研究与实现

代理获取

目录

摘要

第一章 绪论

1.1 课题背景

1.2 通用搜索引擎

1.3 主题搜索引擎

1.4 本文的组织结构和内容

第二章 Web文本挖掘和搜索引擎相关技术

2.1 Web文本挖掘技术

2.2 搜索引擎的基本结构

2.3 搜索引擎的排序模型

2.4 本文系统中使用的关键技术

第三章 主题搜索系统的需求分析

3.1 系统设计目标

3.2 系统工作流程

3.3 系统总体用例图

3.4 系统各模块需求分析

3.4.1 网页下载模块的工作流程

3.4.2 Web文本挖掘模块工作流程

3.4.3 索引模块

3.4.4 查询模块

第四章 主题搜索系统的设计和实现

4.1 系统总体架构

4.2 网页下载模块

4.2.1 Heritrix的配置

4.2.2 使用Heritrix建立抓取任务

4.2.3 改进Heritrix多线程性能

4.3 Web文本挖掘模块

4.3.1 网页解析器

4.3.2 中文分词器

4.3.3 特征提取

4.3.4 文本分类器的实现

4.4 索引模块的实现

4.5 查询模块的实现

4.6 系统的应用效果

第五章 实验结果和分析

5.1 运行环境配置

5.2 分类评价标准

5.3 实验分析

第六章 结论和展望

参考文献

致谢

声明

展开▼

摘要

随着信息技术的飞速发展,因特网上的数据资源也以极快的速度增长着,人们通过网络快速而又准确的找到有价值的信息也变得日益困难。Web搜索引擎往往是用户解决这个问题的第一选择。用户查询某个字词的时候可能只关心某个题材的结果,但传统的基于字词的搜索引擎会返回所有包括该字词的页面,其中很多文档内容质量不高,与题材相关度低甚至毫不相关,并不能满足用户需求。用户需要更改查询条件多次搜索或者逐个查看网页,花费大量的时间来获取需要的信息。为解决这个缺陷,人们提出了基于搜索技术,它可以提供个性化服务,让用户指定题材以更快的发现相关的信息,从而提升用户满意度。
  Web文本挖掘是Web挖掘领域的一个研究热点,在搜索引擎中可应用于自动网页分类和网页聚类等。采用Web文本挖掘技术,搜索引擎可以根据网页内容对网页按题材分类,从而提高搜索的准确度和效率。
  本文首先讨论通用搜索引擎的现状和面临的问题,阐述搜索技术的意义和价值。接着研究了通用搜索引擎的现状及区别。随后介绍Web文本挖掘技术和搜索引擎技术。基于Web文本挖掘的原理,设计了一个面向新闻领域的搜索系统,包括其技术策略和结构框架。系统分为网页下载模块、Web文本挖掘模块和查询模块。其中网页下载模块由网络爬虫Heritrix实现、索引模块和查询模块则基于Lucene开发,Web文本挖掘模块使用了HTML Parser来解析网页,“Paoding”分词算法进行中文分词,TF-IDF和向量空间模型进行文本特征选择,一种基于KNN和SVM算法的KNN-SVM算法进行文本分类。然后详细说明了各个模块的实现过程。最后通过实验对Web文本挖掘模块的分类性能进行了分析和评估。系统使用开源软件构建,能够减少开发工作量、提高开发速度和降低维护成本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号