首页> 中文学位 >新闻数据的分类方法与价值预测的研究与实现
【6h】

新闻数据的分类方法与价值预测的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 概述

1.1 课题研究背景和意义

1.2 课题主要内容

1.3 相关课题国内外研究现状

1.4 论文的组织结构

第二章 关键技术

2.1 文本挖掘概述

2.2 网络爬虫技术概述

2.3 文本预处理相关技术

2.4 文本关联关系分析相关技术

2.5 文本分类相关技术

2.6 人工神经网络相关技术

2.7 本章小结

第三章 新闻的相似度及重复性检测

3.1 新闻相似度及重复性检测的意义及应用范围

3.2 基于余弦算法的新闻的相似性检测

3.3一种基于MinEDD算法的新闻重复性检测

3.4 相似性检测与重复性检测的对比分析

3.5 本章小结

第四章 基于BT-ED-SVM的新闻分类

4.1 新闻文本分类的意义

4.2 新闻文本分类的流程

4.3 支持向量机多分类方法分析以及改进

4.4 改进的支持向量机的新闻文本分类器的实现

4.5 实验结果分析

4.6 本章小结

第五章 基于BP神经网络时间序列的新闻价值预测

5.1 新闻价值评估的标准及意义

5.2 新闻价值预测模型的系统设计

5.3 新闻价值定义及时间序列数据采集

5.4 应用BP神经网络进行新闻时间序列的价值预测

5.5 本章小结

第六章 互联网新闻的服务与管理系统的实现

6.1 项目背景与需求分析

6.2 系统开发环境

6.3 系统设计与实现

6.4 系统测试

6.5 本章小结

第七章 总结与展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着互联网的发展和普及,网络已经走进千家万户,人们获取新闻资讯的方式逐渐的由传统的报纸、广播、电视等方式向互联网媒体转变。可是面对海量的数据资源,人们往往难以从中筛选出对自己有价值的信息,而且这些庞大的信息如何有效的整合和管理也是个问题。所以为了有效的整合网络新闻资源,以及方便用户简洁而又全面的阅读体验,本系统中设计了一套完整的包含新闻爬取、关联分析、分类以及价值预测的新闻分析系统。主要工作包含以下几个方面:
  1、在新闻相似性检测方面,实现了基于 TF-IDF特征提取和夹角余弦相似计算的新闻相似性度量,通过计算找出内容相似的新闻,根据相似新闻之间的关联关系发现新闻话题,以及根据新闻的发布时间,找出话题的源头等功能。
  2、在新闻的重复性检测方面,提出了一种基于MinEDD度量的新闻重复性度量方法。为了过滤标记重复新闻,改善用户阅读体验,本系统中还在相似计算的基础上进行新闻的重复性检测。该方法是受传统编辑距离算法的启发而来,在新闻的重复性检测中能够保证更高的检测准确率。
  3、在新闻分类方面,本文中系统的分析了常用的多分类组合策略的优劣势,结合本项目的特点,提出并实现了一种基于特殊结构的二叉树支持向量机多分类算法BT-ED-SVM的新闻文本自动分类系统。
  4、在新闻的价值预测方面,结合新闻价值的要素,设计了一套通过百度新闻搜索平台提取与新闻价值相关的特征,并编写定时器自动采集时间序列数据,应用BP神经网络进行预测的新闻价值预测系统。
  5、基于上述的算法和功能点,实现了一个互联网新闻的分析服务与管理系统。
  通过该系统能够实现网络新闻的自动增量采集、相似性和重复性检测、分类以及价值预测等功能,能够有效的将互联网新闻资讯进行整合、提高信息使用效率,该平台具有广泛的应用前景和商业价值。目前该系统已经上线运行,已有50万终端用户。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号