基于结构树的网页正文内容抽取方法

孙明柱; 魏海平

首页> 中文期刊> 《科学技术与工程》 >基于结构树的网页正文内容抽取方法

基于结构树的网页正文内容抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据.基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息.该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点.实验结果表明,该抽取方法准确率达到96％以上,有一定的实用价值.%Content extraction is a kind of data mining technology which is widely used in internet The main purpose is to extract the topic content and provide the data for Web Data Mining. To improve Web-based tree structure , first of all the Webpage divided into blocks , to each block of which is stored in the tree structure, then all the blocks of variance and threshold calculation, choose the topic information. In comparison with traditional methods based on regular expressions, this method is more simple and useful. Experimental results show that the extraction precision is higher than 96% , and the method has good value of practice.

著录项

来源
《科学技术与工程》 |2011年第28期|6990-6993|共4页
作者
孙明柱; 魏海平;
展开▼
作者单位

辽宁石油化工大学计算机与通信工程学院,抚顺113001;

辽宁石油化工大学计算机与通信工程学院,抚顺113001;

展开▼
原文格式 PDF
正文语种 chi
中图分类检索机;
关键词
结构树; 信息抽取; 网页分块;

相似文献

中文文献
外文文献
专利

1. 基于统计和机器学习的中文Web网页正文内容抽取 [J] . 游贵荣 ,陆玉昌 . 福建商业高等专科学校学报 . 2009,第002期
2. 基于超链接和 DOM 结构树的网页标题实时抽取方法 [J] . 张兵 ,汤进 ,罗斌 . 计算机与现代化 . 2015,第008期
3. 基于网页结构树的Web信息抽取方法 [J] . 陈琼 ,苏文健 . 计算机工程 . 2005,第020期
4. 一种校园网环境下的网页正文内容抽取算法 [J] . 林强 . 湖北成人教育学院学报 . 2012,第004期
5. 基于节点属性与正文内容的海量Web信息抽取方法 [J] . 王海艳 ,曹攀 . 通信学报 . 2016,第010期
6. 一种基于路径下标树的自动化网页数据抽取方法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于网页正文结构树的近似网页去重算法研究 [A] . 牙漫 . 2013

基于结构树的网页正文内容抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅