RSS新闻中心系统与文本挖掘技术的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

RSS为Really Simple Syndication (简易供稿)的缩写(也有称RDF的)，是某一站点用来和其它站点之间共享内容的一种简易方式，是目前使用最广泛的XML 应用之一。RSS借助XML 技术形式，完成互联网站点间信息的自动传送，XML是解决互联网机器通信的重要基础。RSS目前主要应用于新闻、博客等。文本挖掘是数据挖掘的一个重要分支，是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并利用这些知识更好地组织信息的过程。文本挖掘主要研究文本数据的检索、分类和特征分析。本文描述了一个收集、显示、自动分类和仓储RSS新闻的新闻系统的建立及相关的文本挖掘研究工作。本文的研究工作主要集中在以下几方面： 1)设计RSS新闻中心，通过客户端DOM对象集访问RSS文档。本文研究了RSS的应用情况，设计了基于 XML 的RSS新闻中心，链接到各网站的新闻，并设计了基于DOM对象集合的客户端实现新闻的存取，并实现自动分类和分组功能。 2)建立RSS数据仓储结构，存储历史数据。为了分析和利用历史的RSS数据，研究了历史新闻数据的仓储问题，分析了相关的数据仓库领域和 XML 数据库领域的技术，提出了文本数据仓储系统的模型和存储方式，定义了一系列的概念和操作，并将其用于构建RSS数据仓储系统。构建了数据仓库结构，并设计了数据仓储系统的维护方案。 3)研究了文本特征提取方法。研究了文本特征提取方法，从现有RSS数据集中取得了关键词，并用基于文本的FP-Growth 算法取得了关键词与分类之间的关联，将取得的频繁项集作为文本的特征。并提出了关键词库维护的方法。 4)研究了RSS信息的文本聚类情况。研究了K-means、K-medoids、层次聚类、密度聚类等方法应用在RSS文档数据上的应用情况，提出了用基于区分参数的层次聚类方法，用此方法研究了RSS文档的自然分类情况，统一了文档的分类。本文还研究了层次聚类方法的规律，使用该方法在客户端对分类内部数据进行分组，使内容相似的的文章被分到同一组。 5)提出判定树森林法，并用该算法对新闻进行自动分类。对KNN、ID3、C4.5、SVM等算法对RSS数据分类的效果进行了实验和研究，发现了分类增多时准确率和查全率下降的情况，并针对此情况采用了分层的判定树森林算法，针对每个分类构建判定树，解决了详细分类的问题。

著录项

作者
付熙徐;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机技术
授予学位硕士
导师姓名汪卫;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类新闻工作自动化、网络化;
关键词
RSS新闻中心; XML; 文本挖掘; 关联规则; 聚类; 文本数据仓储;

相似文献

中文文献
外文文献
专利

1. 文本挖掘技术在新闻研究与报业竞争中的应用-紫光新闻分析与评报系统 [J] . 陈术 . 中国传媒科技 . 2010,第009期
2. Web文本挖掘技术在新闻主题检测中的应用研究 [J] . 王志明 ,沙莎 . 长沙大学学报 . 2007,第005期
3. 数据挖掘技术在RSS上应用 [J] . 郑建华 ,李明东 ,张安妮 . 电脑知识与技术 . 2007,第013期
4. 数据挖掘技术在RSS上应用 [J] . 郑建华 ,李明东 ,张安妮 . 电脑知识与技术 . 2007,第013期
5. 数据挖掘技术在RSS上应用 [J] . 郑建华 ,李明东 ,张安妮 . 电脑知识与技术：学术交流 . 2007,第007期
6. RSS在信息推送服务中的应用研究——兼论天津市高校图书馆RSS应用现状 [C] . 邱亚娜 . 华北高校图协第二十五届学术年会 . 2011
7. RSS新闻的更新特征分析及RSS Reader的订阅模型 [A] . 谢倩堃 . 2008

RSS新闻中心系统与文本挖掘技术的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅