首页> 中文学位 >互联网新闻实时信息采集及主题探测研究
【6h】

互联网新闻实时信息采集及主题探测研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章 绪论

第二章 信息采集和主题探测理论研究

第三章 新闻实时信息采集策略

第四章 基于相关性分析的在线主题探测方法

第五章 新闻采集和主题探测实验

第六章 总结与展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

展开▼

摘要

互联网新闻已经成为人们获取信息、了解新闻的最重要的渠道。它同其他网络资源一样,存在着信息过载的问题。搜索引擎已经在很大程度上解决了用户快速获取需要的信息的问题。凭借强大的搜索功能,用户可以很快的找到关注事件的相关新闻。这是通过传统的关键词检索技术来完成的,将导致分散的主题相关信息被孤立的检索出来,其中包含的热点事件,焦点事件都被忽视了,包含于其中的有价值的信息将得不到不充分的利用。如何快速、及时的寻找同一新闻主题相关事件之间的结构和相互关联,帮助用户及时理解和把握新闻事件的全局概貌和来龙去脉,理清事件的内在逻辑,成为当下的一个研究热点。
   本文首先对信息采集和主题探测的基础理论方法进行研究,介绍了互联网信息采集技术的基本原理和主题探测的产生和相关技术。然后针对实时新闻信息采集策略从两个方面进行了深入的研究。一方面,为了提高系统采集效率,从分布式系统设计的要点出发,对分布式信息采集的URL选择、负载平衡、协调策略和可扩展性这四个方面作了详细分析;另一方面,针对实时性要求,提出改进的采集频率的计算方式。有了网页信息采集结果的基础后,接下来对网页的新闻主题进行探测。首先分析现有在线增量式主题探测应用于新闻网页主题探测上的不足,提出了基于主题描述模型的主题相关性分析方法用于判断网页与某个主题之间的相关性。为了提高主题探测的效率和质量引入了主题加窗策略和动态修正主题描述实例的方法。
   最后针对实时信息采集和主题探测两个部分分别设计了对照实验,对本文提出方案的性能进行论证。实验结果表明该分布式信息采集系统能够实现负载均衡,并具有良好的可扩展性,实时采集效果理想,主题探测系统能够很好的检测出当前互联网上出现的各种新闻主题事件,并能准确的将当前的重大热点新闻主题反映出来。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号