基于XML的Web内容挖掘方法

郑霞; 陈建国

首页> 中文期刊>沈阳大学学报 >基于XML的Web内容挖掘方法

基于XML的Web内容挖掘方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在分析Web内容挖掘特征的基础上，提出一种基于XML技术的Web内容挖掘模型．利用HITS算法确定权威Web页面，利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档，结合互联网上传统科技论文的自动抽取系统实例，采用文本聚类分类技术进行面向XML文档数据的数据挖掘．实验结果表明，该模型工作良好，可以自动、有效地提取网页内容．%The characteristics of Web content mining were analyzed and a model of Web content mining was proposed base on XML. The HITS algorithm was used to determine the authority of Web pages, the HTML Tidy tool was used for non-XML documents through the data cleansing and transform XML documents into well-formed, and text clustering techniques were used for XML document classification data in data mining. Combining with the examples of traditional scientific papers of automated extraction system from Internet, the model is proved to work well, and it can automatically and effectively extract web page content.

著录项

来源
《沈阳大学学报》|2012年第3期|52-55|共4页
作者
郑霞; 陈建国;
展开▼
作者单位

闽江学院计算机科学系,福建福州350001;

福建工程学院软件学院,福建福州350003;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP311.13;
关键词
Web挖掘; 数据挖掘; 文本聚类; 非XML文档;

相似文献

中文文献
外文文献
专利

1. 一种基于XML的Web内容挖掘预处理方法 [J] . 梁娟 ,陈智 . 计算机时代 . 2011,第006期
2. 基于XML的Web内容挖掘探索 [J] . 方玉 ,赵英 . 情报探索 . 2007,第002期
3. 基于XML的个性化Web内容挖掘研究 [J] . 何波 ,杨武 ,黄贤英 . 计算机工程与应用 . 2006,第004期
4. 基于Tingxml的XML数据解析方法研究 [J] . 张冲 . 科技经济市场 . 2014,第008期
5. 一种基于XML Schema的XML文档到关系数据库的映射方法 [J] . 贾颖 . 大众科技 . 2013,第002期
6. 基于XML的Web内容挖掘的研究 [C] . 沈贺丹 ,邵良杉 . 中南六省自动化学会第二十三届学术年会 . 2005
7. 基于XML的Web内容挖掘技术研究 [A] . 刘小雪 . 2008

基于XML的Web内容挖掘方法

摘要

著录项

相似文献

相关主题

期刊订阅