首页> 中文学位 >基于层次主题模型的网络新闻汇聚
【6h】

基于层次主题模型的网络新闻汇聚

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 研究背景及目的

1.2 本文的主要工作

1.3 本文的组织结构

1.4 本章小结

第2章 国内外研究现状

2.1 网络爬虫

2.1.1 网络爬虫概述

2.1.2 网络爬虫原理

2.1.3 开源网络爬虫框架

2.2 文本分类

2.3 主题模型

2.3.1 主题模型概述

2.3.2 LDA

2.3.3 狄利克雷过程

2.4 本章小结

第3章 基于层次主题模型的网络新闻汇聚

3.1 技术框架

3.2 层次主题模型设计

3.3 多源网络新闻数据采集

3.3.1 网络爬虫框架

3.3.2 多源网络爬虫

3.3.3 基于统计的新闻网页正文抽取

3.4 基于层次主题模型的网络新闻分类

3.4.1 新闻网页分类概述

3.4.2 文本表示模型

3.4.3 并行新闻网页分类器

3.5 本章小结

第4章 基于在线层次狄利克雷过程的主题词筛选

4.1 主题词筛选概述

4.2 在线层次狄利克雷过程

4.2.1 层次狄利克雷过程

4.2.2 在线层次狄利克雷过程

4.3 主题词筛选算法

4.4 本章小结

第5章 实验结果及系统实现

5.1 新闻网页分类实验与结果

5.1.1 性能影响因素及评价方法

5.1.2 训练数据集的构建

5.1.3 分类结果及分析

5.2 主题词筛选实验与结果

5.3 系统实现

5.3.1 网络新闻数据采集功能实现

5.3.2 网络新闻主题跟踪功能实现

5.4 本章小结

第6章 总结与展望

6.1 总结

6.2 未来研究方向

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着计算机技术的快速发展,互联网已经成为人们快速获取信息的重要手段之一。尤其是移动互联网的普及,使人们可以随时随地在互联网上分享各式各样的信息,这使得网络上的数据量以极快地速度在膨胀。因此从互联网浩瀚的数据海中快速准确地获取领域相关内容变得非常困难。如何准确地从互联网上汇聚与领域相关的新闻数据已经成为当今大数据时代的重要研究内容。
  有鉴于此,本文结合网络爬虫技术、文本分类技术与主题建模技术,提出了基于层次主题模型的网络新闻汇聚技术框架,在研究多源网络数据采集与新闻网页并行分类技术的基础上,重点研究主题词筛选技术;此外,本文面向公共安全领域集成相关技术搭建了网络新闻数据汇聚系统。具体工作如下:
  1)基于层次主题模型的网络新闻汇聚技术框架:有机整合了基于URL的新闻网页爬虫、百度新闻爬虫、微博爬虫、CNTV网络视频爬虫等多种爬虫,支持多源数据的采集;设计了层次主题模型支持通过新闻网页并行分类与主题词类别标引技术实现网络新闻数据的分类组织。
  2)主题词筛选算法:针对人工筛选关键词爬虫搜索词遇到的困难和存在的缺陷,提出了基于在线层次狄利克雷过程的主题词筛选算法,实验结果表明,该方法可较好解决自动化筛选搜索关键词的问题。
  3)面向公共安全的网络新闻数据汇聚系统实现:在上述数据汇聚框架和关键词筛选算法的基础上,实现了面向公共安全的网络新闻汇聚系统,提供数据采集与主题跟踪功能,验证了所提技术框架的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号