Web信息抽取网页自动浏览导航与集成规则研究

王海涛; 张志亮; 孙煜华; 袁春风; 黄宜华

首页> 中文期刊>计算机科学与探索 >Web信息抽取网页自动浏览导航与集成规则研究

Web信息抽取网页自动浏览导航与集成规则研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Web contains large amount of valuable data information. Many Web information extraction techniques have been studied in past decade. However, most of existing studies and systems focus on data extraction processing from acquired Web pages, and ignore or simplify the automated navigation and data integration processes. To solve the problem, this paper proposes a three-stage Web information extraction model including automated navigation, data extraction and data integration. Based on this model, this paper designs a navigation model along with an auto-mated navigation rule language. Furthermore, this paper proposes an ETI (extraction-transformation-integration) model and an integration and workflow control rule language, which can effectively maintain the complex relation-ship for cross-page data record and provide flexible workflow control. Extraction results show that the proposed rule language and the implemented system can effectively achieve Web page navigation and data extraction.%We b中蕴藏着大量有价值的数据，过去十几年中，针对We b信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段，忽略或简化了完整的We b信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足，提出了包含浏览导航、数据抽取和集成过程的三阶段We b信息抽取处理模型，基于此进一步研究提出了自动浏览导航模型，并设计实现了网页自动浏览导航规则语言。研究提出了一种We b数据抽取、转换和集成（extraction-transformation-integration，ETI）模型，设计实现了一套灵活有效的数据集成和流程控制规则语言，能有效地维护跨网页数据记录的复杂关系，并提供灵活的流程控制能力。抽取实例的结果表明，该规则语言和系统可有效完成全过程化的We b信息抽取集成处理功能。

著录项

来源
《计算机科学与探索》|2014年第9期|1049-1066|共18页
作者
王海涛; 张志亮; 孙煜华; 袁春风; 黄宜华;
展开▼
作者单位

南京大学计算机科学与技术系;

南京 210046;

南京大学计算机软件新技术国家重点实验室;

南京 210046;

广州供电局信息中心;

广州 510620;

广州供电局信息中心;

广州 510620;

南京大学计算机科学与技术系;

南京 210046;

南京大学计算机软件新技术国家重点实验室;

南京 210046;

南京大学计算机科学与技术系;

南京 210046;

南京大学计算机软件新技术国家重点实验室;

南京 210046;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序包（应用软件）;
关键词
Web信息抽取; 自动浏览导航; 数据集成; 流程控制; 规则语言;

相似文献

中文文献
外文文献
专利

1. 关联规则挖掘算法在网页浏览序列中的应用研究 [J] . 赵欢欢 ,张宾 . 现代商贸工业 . 2011,第023期
2. 一种自适应的Web信息抽取规则自动生成方法 [J] . 黄锋 ,吴华瑞 . 广西师范大学学报（自然科学版） . 2010,第001期
3. 网页浏览器我也会做！——教你使用Director制作自己的超酷网页浏览器 [J] . realrocking . 电脑 . 2003,第012期
4. 网页浏览器，我也会做！——教你用VB 6制作自己的网页浏览器 [J] . 无 . 电脑 . 2003,第011期
5. 迅雷通过旗下155导航推出浏览器集成下载功能 [J] . . 电脑与电信 . 2010,第008期
6. 浏览器屏蔽网页广告的不正当竞争标准研究 [C] . 黄武双 ,刘建臣 . “深化改革与中国知识产权制度”论坛暨中国知识产权法学研究会2014年年会 . 2014
7. 面向数字旅游网页的Web信息抽取技术研究 [A] . 王爽 . 2012

Web信息抽取网页自动浏览导航与集成规则研究

摘要

著录项

相似文献

相关主题

期刊订阅