基于模板的Web页面信息提取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Web上信息的迅速扩展，各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和重要组成部分，Web页面信息提取技术正应用于搜索引擎、站点结构分析、页面有效性分析、Web图形化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而，随着人们对Web提供的各项信息的利用要求越来越高，对Web页面信息的提取技术要求也越来越高，人们要求更准确、更完整的Web页面信息来满足各种各样的需求。Web数据挖掘技术研究者已经提出了很多提取Web页面信息的方法，这些方法各有所长，同时也有各自的局限性。根据在Web页面信息提取技术领域的长期积累以及国内外在Web页面信息提取技术领域的研究与发展，本文在综述了国内外的研究情况后提出了一个基于模板的Web页面信息提取方法及其系统模型，该系统包括Web页面预处理、Web页面模板的生成、Web页面信息的提取、Web页面信息属性的提取以及Web页面信息的存储方式等一系列模块，对于每个模块，本文分别给出了主要工作的相关处理算法和流程，并针对研究过程中遇到的问题，提出了多个新的概念定义、判定定理及算法：在定义页面记号串的类型的基础上，给出了基本型、元组型和集合型的定义及性质，并给出相关定理的证明。在分析Web页面记号的基础上，提出了等频记号集合和频繁多记号集合的定义以及Web模板生成的算法。根据Web页面模板，提出了提取Web页面信息以及页面信息属性的算法根据Web页面信息的层次结构，提出了Web页面信息的树型结构存储方式以及向某个数据模型转换的必要性。在系统实现的过程中，使用了页面信息提取的准确率(Precision)和页面信息的发现率(Recall)两个指标衡量系统对Web页面信息提取的结果。实验结果显示，使用本文提出的Web页面信息提取方法提取页面信息的准确率是非常高的，该系统具有较强的实用价值。

著录项

作者
张海威;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名袁晓洁;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
Web页面信息; 信息提取; 数据挖掘; 模板生成算法; 信息属性算法; 提取准确率;

相似文献

中文文献
外文文献
专利

1. 基于模板和CSS技术的Web页面定制 [J] . 罗威 ,陈伟 . 计算机应用研究 . 2008,第007期
2. 一种基于模板的管理Web页面用户交互表单的方法(英文) [J] . 薛明 ,李红燕 . 北京大学学报：自然科学版 . 2004,第3期
3. 基于Tag-Tree模板的结构化论坛信息提取 [J] . 程倩楠 . 电子技术与软件工程 . 2017,第014期
4. 基于模板的Web信息提取系统的设计与实现 [J] . 周合明 ,奚建清 . 计算机技术与发展 . 2011,第011期
5. 基于HTML树和模板的文献信息提取方法研究 [J] . 李文立 ,王乐超 ,宋春雷 . 计算机应用研究 . 2010,第012期
6. 基于页面模板和配置文件的web页面生成方法 [C] . 朱雷 ,袁兆山 ,潘玲 . 全国第18届计算机技术与应用学术会议(CACIS) . 2007
7. 试卷答题卡模板信息提取关键技术研究 [A] . 张沐阳 . 2020

基于模板的Web页面信息提取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅