基于Web文本挖掘的主题搜索系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着信息技术的飞速发展，因特网上的数据资源也以极快的速度增长着，人们通过网络快速而又准确的找到有价值的信息也变得日益困难。Web搜索引擎往往是用户解决这个问题的第一选择。用户查询某个字词的时候可能只关心某个题材的结果，但传统的基于字词的搜索引擎会返回所有包括该字词的页面，其中很多文档内容质量不高，与题材相关度低甚至毫不相关，并不能满足用户需求。用户需要更改查询条件多次搜索或者逐个查看网页，花费大量的时间来获取需要的信息。为解决这个缺陷，人们提出了基于搜索技术，它可以提供个性化服务，让用户指定题材以更快的发现相关的信息，从而提升用户满意度。
　　Web文本挖掘是Web挖掘领域的一个研究热点，在搜索引擎中可应用于自动网页分类和网页聚类等。采用Web文本挖掘技术，搜索引擎可以根据网页内容对网页按题材分类，从而提高搜索的准确度和效率。
　　本文首先讨论通用搜索引擎的现状和面临的问题，阐述搜索技术的意义和价值。接着研究了通用搜索引擎的现状及区别。随后介绍Web文本挖掘技术和搜索引擎技术。基于Web文本挖掘的原理，设计了一个面向新闻领域的搜索系统，包括其技术策略和结构框架。系统分为网页下载模块、Web文本挖掘模块和查询模块。其中网页下载模块由网络爬虫Heritrix实现、索引模块和查询模块则基于Lucene开发，Web文本挖掘模块使用了HTML Parser来解析网页，“Paoding”分词算法进行中文分词，TF-IDF和向量空间模型进行文本特征选择，一种基于KNN和SVM算法的KNN-SVM算法进行文本分类。然后详细说明了各个模块的实现过程。最后通过实验对Web文本挖掘模块的分类性能进行了分析和评估。系统使用开源软件构建，能够减少开发工作量、提高开发速度和降低维护成本。

著录项

作者
周锐;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科软件工程
授予学位硕士
导师姓名陈荣华;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
因特网; 数据搜索; Web文本挖掘; Paoding分词; 模块化设计;

相似文献

中文文献
外文文献
专利

1. 基于Web的文本挖掘系统的研究与实现 [J] . 唐菁 ,沈记全 ,杨炳儒 . 计算机科学 . 2003,第001期
2. 基于Web的课件上传下载分类搜索系统的设计与制作 [J] . 刘刚 . 合肥师范学院学报 . 2004,第003期
3. 面向属性发现的协同迭代搜索系统研究与实现 [J] . 郑智彬 ,黄九鸣 ,李爱平 . 成都信息工程学院学报 . 2014,第004期
4. Web教学资源自动搜索系统的研究与实现 [J] . 黎孟雄 . 青岛科技大学学报（自然科学版） . 2008,第006期
5. 基于Deep Web的地图搜索系统的研究与实现 [J] . 李继宝 ,李庆忠 ,闫中敏 . 山东大学学报：理学版 . 2007,第11期
6. 多媒体教学资源主题搜索系统的设计与实现 [C] . 陈志刚 ,孟祥增 . 2009年计算机辅助教育软件开发与应用研讨会 . 2009
7. 基于主题的文本挖掘及可视化系统研究与实现 [A] . 郭英杰 . 2018

基于Web文本挖掘的主题搜索系统的研究与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅