首页> 中文学位 >基于元搜索的舆情信息采集系统的设计与实现
【6h】

基于元搜索的舆情信息采集系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景

1.2 搜索引擎的研究现状

1.3 搜索引擎的问题定义

1.4 研究内容和目标

1.5 论文的难点和关键任务

1.6 论文的组织结构

2 元搜索技术综述

2.1 元搜索系统结构

2.2 成员搜索引擎调度策略

2.3 查询转换和页面采集技术

2.4 元搜索引擎消重技术

2.5 元搜索结果排序

2.5.1 元搜索结果排序算法

2.5.2 HITS算法

2.6 网络爬虫

2.6 本章小结

3 元搜索技术问题分析和优化方案设计

3.1 元搜索系统结构的优化和改进

3.1.1 基于搜索优化的元搜索存储问题识别

3.1.2 基于倒排索引的方案优选

3.2 查询转换和页面分析

3.2.1 元搜索引擎查询转换和页面分析

3.2.2 定向采集站点查询转换和页面分析

3.3 元搜索网页消重算法的优选

3.4 元搜索结果排序算法的改进

3.4.1 HITS算法的“主题漂移’’问题

3.4.2 元搜索结果排序算法改进的基本思路

3.4.3 改进后的元搜索结果排序算法逻辑设计

3.4.4 HITS算法改进方案设计

3.5 本章小结

4 基于元搜索的舆情信息采集系统的设计与实现

4.1 概要设计

4.1.1 系统架构

4.1.2 系统概念模型

4.1.3 代码框架设计

4.2 详细设计和实现

4.2.1 成员搜索引擎调度模块

4.2.2 查询转换和页面采集模块

4.2.3 消重模块

4.2.4 排序模块

4.2.5 系统数据库设计

4.3 本章小结

5 系统性能分析和测试

5.1 元搜索查全率统计分析

5.2 排序结果比较

5.2.1 直观数据

5.2.2 PV和CTR统计分析

5.3 本章小结

6 结论

6.1 工作总结

6.2 工作不足和展望

参考文献

附录

索引

作者简历及攻读硕士/博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

随着信息技术的飞速发展,网络越来越成为人们获取信息资源、表达思想看法的重要途径,民众针对热门人物或事件所持有的态度、信念和价值观的表达,在互联网上汇聚成不可忽视的舆论力量,网络舆情监测系统应运而生。
  社会事件的关键是人,通过人物抓取相关社会事件和舆论资源,以提供给相关部门作为决策依据,是舆情监控系统发展的一个重要方向。本人在北京市微普科创科技有限公司实习之际,参与了公司面向知名人士的舆情监控系统《校友大数据》的设计开发工作。在项目中,本人主要负责舆情信息采集子系统的设计实现工作。
  舆情信息采集技术的基础是互联网搜索技术,这就使得它和搜索引擎在设计思路、技术实现上,有着许多相同之处,通过研究搜索引擎技术,可以为舆情信息采集提供宝贵经验。本人在项目之初,为获得较好的采集广度和准确性,研究了搜索引擎基本原理,对比了现有搜索引擎技术,特别研究了元搜索引擎关键技术,最终确定项目的技术架构,并吸收全文搜索引擎索引的优点来实现舆情信息采集系统。具体改进包括:
  (1)在查询转换上,分析了非定向采集和定向采集站点的查询规则和页面结构,实现了精准采集;
  (2)基于对舆情信息系统存储特殊性的考量,在对元搜索引擎改进方面,建立了元搜索引擎的网页数据库;通过实验对比Lucene内存倒排索引来进行方案优选,建立了MySQL倒排索引数据库,更好地实现了站内全文搜索功能;
  (3)在元搜索消重策略选择上,通过对现有方案的对比分析,优选出适合本系统的标题和正文关键词结合的向量空间算法,得到最佳消重策略;
  (4)在舆情信息结果排序方面,基于对舆情监控系统展现层兴趣排序的需求,从元搜索引擎排序技术中得到启发,借用并改进了HITS算法,使得排序结果更大程度上满足用户需求,并通过实验验证了设计的合理性。在实现兴趣排序的同时,通过结合垂直搜索思想解决了HITS算法存在的主题漂移问题,最终通过系统测试来证明了改进排序算法的优越性;
  (5)在定向采集上,本人通过对贴吧结构的分析,建立了贴吧概念模型,结合舆情采集需求,建立出概念模型,最终确定系统物理模型。
  最终通过项目开发实现了本系统,并在系统运行数据的基础上设计测试并进行统计分析,最终验证了设计的合理性,具体包括:
  (1)系统采集新闻信息覆盖超出传统搜索引擎的17%,证明了采集系统使用元搜索引擎的优越性;
  (2)在HITS算法改进之后,页面排序中的首页点击率提高13%,前三页总点击率从67%上升到了83%,说明通过结合用户兴趣能够提供给用户更好的搜索结果,减少了用户的使用成本,提升了用户体验;
  (3)改进HITS算法主题漂移现象得到遏制。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号