Web页面结构化数据抽取的研究与实现

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

互联网迅猛发展，使得互联网成为一个庞大的信息源。结构化数据作为网络中比较常见的数据形式之一，具有多种网页呈现方式，对于这些数据的抽取，往往需要大量的人工操作，这给数据的抽取工作带来了很大困难。因此，为了实现自动获取网页中的结构化数据信息，基于结构化数据的挖掘成为数据挖掘领域中的一个主要研究方向。目前，该领域已经进行了大量针对网页信息抽取的研究，出现了很多关于数据价值评估的理论以及抽取网页中结构化数据的算法。
　　本文主要面向富含数据的两种页面--列表页和详情页，在已有的结构化数据抽取算法基础上，针对多数据区域抽取的效率问题、图表数据的识别和WEB表之间的实体关系挖掘等三个方面的问题，研究并提出了相应的改进算法。其中，第一种改进的算法主要面向包含嵌套型数据的列表页，解决了提高处理多数据区域时的效率问题。该算法在已有的平坦数据挖掘算法基础上，加入了数据区域挖掘算法，根据构造出的嵌套数据列表页标签树，找出所有数据区域并进行统一处理，对所有子树应用简单树匹配和部分树对齐算法，生成全局模式，进而抽取出所有的数据记录；第二种改进的算法主要针对识别图表形式的结构化数据所进行的研究，是作为第一种方法的补充研究。首先通过结构化数据抽取算法获得富含结构化信息的图表所属数据区域，其次应用图像信息二值化算法以及OCR算法，将图表内容转化为文本，之后将转化出的文本再应用结构化信息抽取算法，得到页面中完整的有价值信息；第三种改进的算法着重于数据表格内部及表格之间实体关系的挖掘。这种方法在已有实体关系挖掘算法的基础上，加入实体关系候选项的反馈过程，先计算出超链接信息的置信度并找出候选关系，再计算此候选关系的可信度，将大于规定阈值的候选关系定为新的关系并加入到循环中，从而解决了原算法容易忽略超链接信息的问题，达到全面准确的挖掘出实体关系的目的。
　　上述三种方法实质是针对面向数据抽取的不同阶段设计的。第一种和第二种方法针对数据本身进行数据抽取，第三种方法不仅面向多页面数据抽取，同时也为之后的数据集成阶段做准备。三种方法相辅相成，填补了原算法的一些不足，提高了数据抽取的效率。三种算法的研究与实现主要基于所在实验室的房地产决策与评估系统项目平台，因此具有广泛的实际应用意义。

著录项

作者
张琪;
展开▼
作者单位

沈阳建筑大学;

展开▼
授予单位沈阳建筑大学;
学科计算机应用技术
授予学位硕士
导师姓名李贵;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;TP311.131;
关键词
数据挖掘; 列表页; 标签树; 二值化; 实体关系; Web页面; 结构化数据抽取;

相似文献

中文文献
外文文献
专利

1. Web页面主题信息抽取研究与实现 [J] . 刘艳敏 ,刘飚 ,封化民 . 计算机工程与应用 . 2006,第021期
2. 基于语料的Web页面抽取器的研究与实现 [J] . 陆剑江 ,钱培德 . 计算机工程 . 2003,第006期
3. 半结构化数据到结构化数据的模式抽取 [J] . 潘顺 ,金远平 . 计算机工程 . 2002,第005期
4. 含有丰富结构化数据的Web页面分类技术的研究 [J] . 赵志滨 ,贾岩峰 ,姚兰 . 计算机研究与发展 . 2013,第0z1期
5. 结构化数据的关系抽取系统的设计与实现 [J] . 陈亮 ,杜新宇 . 信息技术 . 2020,第012期
6. 含有丰富结构化数据的Web页面分类技术的研究 [C] . Zhao Zhibin ,赵志滨 ,Jia Yanfeng . 第30届中国数据库学术会议 . 2013
7. Web页面中结构化数据抽取的实现与应用 [A] . 王涛 . 2007

Web页面结构化数据抽取的研究与实现

摘要

著录项

相似文献

相关主题

期刊订阅