首页> 中文学位 >云分类学术搜索引擎的研究与实现
【6h】

云分类学术搜索引擎的研究与实现

代理获取

目录

声明

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外的研究现状及存在问题

1.3 研究的目标和内容

第二章 云分类学术搜索引擎总体设计

2.1 系统需求分析

2.2 系统平台设计

2.3 系统总体结构设计

2.4 本章小结

第三章 分布式网络信息获取的设计与实现

3.1 分布式网络信息获取的总体设计

3.2 分布式搜索引擎的开发设计

3.3 分布式网页抓取的设计与实现

3.4 分布式网页内容处理的设计与实现

3.5 中文分词模块设计与实现

3.6 本章小结

第四章 学术性判断及分类算法的设计与实现

4.1 网页学术性判断的设计与实现

4.2 学术网页分类的设计与实现

4.3 本章小结

第五章 云分类学术搜索引擎的UI设计与实现

5.1 云分类学术搜索引擎检索输入界面的设计

5.2 云分类学术搜索引擎检索输出界面设计

5.3 本章小结

第六章 云分类学术搜索引擎测试

6.1 分布式平台性能测试

6.2 网络信息爬虫模块测试

6.3 网页学术性判断模块测试

6.4 学术网页分类模块测试

6.5 本章小结

第七章 结论与展望

7.1 结论

7.2 展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

随着互联网信息的发展,搜索引擎技术已经越来越成熟。海量的网页信息、良莠不齐的网页质量,对于需要学术信息的专业用户来说无疑降低了检索体验。目前,专业的学术搜索引擎,已经成为研究的一个热点。但是现有的这些学术搜索引擎,存在或多或少的缺点,比如不能免费下载原文、用户不能推荐刊源等。并且一些小型学术搜索引擎采用集中式体系结构,系统对主机要求比较高,若主机出现故障,可能导致全网停止工作。
  本研究从用户实际需求出发,设计了一个云分类学术搜索引擎,一个具有学术性的、可免费获取原文的、满足用户个人偏好的、可分类检索的、服务稳定的云分类学术搜索引擎。本文首先介绍了云搜索引擎的相关技术,分析和研究了Hadoop分布式计算平台和开源搜索引擎Nutch;其次分析和获取了具有学术性的免费期刊网站的URL,设定了本文的刊源数据库,同时满足了用户可以根据个人偏好推荐刊源和可以免费获取原文的需求;接着设计和实现了分布式网络信息获取功能,对爬取回来的网页内容采用IK-Analyzer进行分词处理;然后对爬取回来的网页进行学术性判断,本文采用向量空间模型(VSM)进行学术性判断;最后采用中图法和朴素贝叶斯(Na?ve Bayes)分类算法实现了学术网页分类的功能。此外本文对实验结果进行测试分析,证明该搜索引擎准确率高、检索速度快,能较好的满足用户希望免费获取学术原文和进行刊源定制的需求,从而说明本搜索引擎具有十分重要的应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号