首页> 中文学位 >基于模板的Web页面信息提取技术研究
【6h】

基于模板的Web页面信息提取技术研究

代理获取

目录

文摘

英文文摘

南开大学学位论文版权使用授权书及南开大学学位论文原创性声明

第一章绪论

第一节信息时代的新技术

第二节数据挖掘技术

1.2.1数据挖掘技术概述

1.2.2数据挖掘的任务

1.2.3数据挖掘对象

1.2.4数据挖掘流程

1.2.5数据挖掘的方法

第三节Web数据挖掘技术

1.3.1 Web数据挖掘的定义

1.3.2 Web数据挖掘的分类

1.3.3 Web数据挖掘的步骤

1.3.4 Web数据挖掘面临的技术难点

1.3.5研究Web数据挖掘的意义和应用前景

第四节本文的研究内容

第五节论文的组织结构

第二章页面信息提取技术的相关研究

第一节RoadRunner

2.1.1基本思想

2.1.2 RoadRunner生成Web页面包装器

第二节PAEs方法

第三节IEPAD

第四节tpGrid

第五节基于XML技术的Web页面信息提取工具

2.5.1 XWrap

2.5.2 Lixto

第三章基于模板的页面信息提取技术

第一节基本思想

第二节基本概念

第三节生成Web页面模板

3.3.1基本思想

3.3.2等频记号集合与频繁多记号集合

3.3.3多义性记号

3.3.4 Web页面文本信息类型的提取与模板生成

第四节页面信息的提取

第五节页面信息属性名的提取

3.5.1 Web页面信息分类

3.5.2 Web页面信息分类和信息属性提取方法

第四章Web页面信息提取系统模型及关键问题的处理

第一节系统模型

第二节页面预处理

第三节页面模板生成

第四节页面信息提取

第五节页面信息属性名的提取

第六节数据存储

第五章系统的实现与实验结果分析

第一节系统的实现

第二节系统测试结果分析

5.2.1测试结果衡量指标

5.2.2基于非空记号间隔的元组型提取算法的效率分析

5.2.3 Web页面模板生成算法的效率分析

5.2.3基于模板的页面信息提取算法效率分析

5.2.4页面信息提取的准确率和页面信息的发现率

第三节Web页面信息提取系统演示

第六章总结

第一节进一步工作

第二节总结

参考文献

致谢

作者简历

展开▼

摘要

随着Web上信息的迅速扩展,各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和重要组成部分,Web页面信息提取技术正应用于搜索引擎、站点结构分析、页面有效性分析、Web图形化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对Web提供的各项信息的利用要求越来越高,对Web页面信息的提取技术要求也越来越高,人们要求更准确、更完整的Web页面信息来满足各种各样的需求。Web数据挖掘技术研究者已经提出了很多提取Web页面信息的方法,这些方法各有所长,同时也有各自的局限性。 根据在Web页面信息提取技术领域的长期积累以及国内外在Web页面信息提取技术领域的研究与发展,本文在综述了国内外的研究情况后提出了一个基于模板的Web页面信息提取方法及其系统模型,该系统包括Web页面预处理、Web页面模板的生成、Web页面信息的提取、Web页面信息属性的提取以及Web页面信息的存储方式等一系列模块,对于每个模块,本文分别给出了主要工作的相关处理算法和流程,并针对研究过程中遇到的问题,提出了多个新的概念定义、判定定理及算法: 在定义页面记号串的类型的基础上,给出了基本型、元组型和集合型的定义及性质,并给出相关定理的证明。 在分析Web页面记号的基础上,提出了等频记号集合和频繁多记号集合的定义以及Web模板生成的算法。 根据Web页面模板,提出了提取Web页面信息以及页面信息属性的算法 根据Web页面信息的层次结构,提出了Web页面信息的树型结构存储方式以及向某个数据模型转换的必要性。 在系统实现的过程中,使用了页面信息提取的准确率(Precision)和页面信息的发现率(Recall)两个指标衡量系统对Web页面信息提取的结果。实验结果显示,使用本文提出的Web页面信息提取方法提取页面信息的准确率是非常高的,该系统具有较强的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号