首页> 中文学位 >RSS新闻中心系统与文本挖掘技术的应用
【6h】

RSS新闻中心系统与文本挖掘技术的应用

代理获取

目录

声明

摘要

第一章绪论

1.1选题依据

1.2研究背景

1.3本文工作概述和论文结构

第二章系统结构与应用部分实现

2.1引言

2.2需求分析与系统功能

2.3系统设计

2.4新闻查询功能相关技术和实现

2.5结论

第三章RSS特征提取

3.1引言

3.2分词和选词

3.3关联分析

3.4结论

第四章聚类分析统一RSS分类及新闻分组

4.1引言

4.2文本聚类和相关算法

4.3聚类算法评估

4.4聚类算法分析和相关工作

4.5基于层次聚类过程的研究和改进

4.6用聚类算法实现新闻分组

4.7结论

第五章新闻分层分类

5.1引言

5.2分类和相关算法简介

5.3分类算法的评估

5.4相关工作和实验

5.5分层判定树森林算法

5.6新闻自动分类的实现

5.7结论

第六章RSS数据仓储系统的实现

6.1引言

6.2相关工作

6.3文本数据仓储系统的概念

6.4 RSS数据仓储系统的实现

6.5结论

第七章结束语

参考文献

致谢

展开▼

摘要

RSS为Really Simple Syndication (简易供稿)的缩写(也有称RDF的),是某一站点用来和其它站点之间共享内容的一种简易方式,是目前使用最广泛的XML 应用之一。RSS借助XML 技术形式,完成互联网站点间信息的自动传送,XML是解决互联网机器通信的重要基础。RSS目前主要应用于新闻、博客等。 文本挖掘是数据挖掘的一个重要分支,是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并利用这些知识更好地组织信息的过程。文本挖掘主要研究文本数据的检索、分类和特征分析。 本文描述了一个收集、显示、自动分类和仓储RSS新闻的新闻系统的建立及相关的文本挖掘研究工作。本文的研究工作主要集中在以下几方面: 1)设计RSS新闻中心,通过客户端DOM对象集访问RSS文档。本文研究了RSS的应用情况,设计了基于 XML 的RSS新闻中心,链接到各网站的新闻,并设计了基于DOM对象集合的客户端实现新闻的存取,并实现自动分类和分组功能。 2)建立RSS数据仓储结构,存储历史数据。为了分析和利用历史的RSS数据,研究了历史新闻数据的仓储问题,分析了相关的数据仓库领域和 XML 数据库领域的技术,提出了文本数据仓储系统的模型和存储方式,定义了一系列的概念和操作,并将其用于构建RSS数据仓储系统。构建了数据仓库结构,并设计了数据仓储系统的维护方案。 3)研究了文本特征提取方法。研究了文本特征提取方法,从现有RSS数据集中取得了关键词,并用基于文本的FP-Growth 算法取得了关键词与分类之间的关联,将取得的频繁项集作为文本的特征。并提出了关键词库维护的方法。 4)研究了RSS信息的文本聚类情况。研究了K-means、K-medoids、层次聚类、密度聚类等方法应用在RSS文档数据上的应用情况,提出了用基于区分参数的层次聚类方法,用此方法研究了RSS文档的自然分类情况,统一了文档的分类。本文还研究了层次聚类方法的规律,使用该方法在客户端对分类内部数据进行分组,使内容相似的的文章被分到同一组。 5)提出判定树森林法,并用该算法对新闻进行自动分类。对KNN、ID3、C4.5、SVM等算法对RSS数据分类的效果进行了实验和研究,发现了分类增多时准确率和查全率下降的情况,并针对此情况采用了分层的判定树森林算法,针对每个分类构建判定树,解决了详细分类的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号