首页> 中文学位 >基于反馈学习的半结构化信息抽取方法研究
【6h】

基于反馈学习的半结构化信息抽取方法研究

代理获取

目录

第1章 绪 论

1.1 研究背景和意义

1.2 国内外相关研究和综述

1.3 问题的总结与分析

1.4 本文主要工作

1.5 本文组织结构

第2章 半结构化信息抽取的相关基础知识

2.1CSS DOM树

2.2 数据区域

2.3 记录抽取

2.4 数据项对齐

2.5 常用的评价标准

2.6 本章小结

第3章 基于网页视觉和层次结构的信息抽取方法

3.1 引言

3.2 传统基于网页视觉的信息抽取算法

3.3 基于视觉信息与层次结构的数据抽取算法

3.4 实验结果与分析

3.5 本章小结

第4章 基于反馈学习的信息抽取算法

4.1 引言

4.2 基于反馈学习的信息抽取算法具体设计

4.3 实验结果与分析

4.4 本章小结

第5章 基于反馈学习的信息抽取系统

5.1 引言

5.2 系统功能和开发环境

5.3 信息抽取系统设计

5.4 系统应用

5.5 本章小结

结论

参考文献

声明

致谢

展开▼

摘要

随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式化到数据库中,出现了很多信息抽取算法。算法主要是从分析网页源码结构或者利用网页提供的视觉信息来进行信息抽取。目前,大多数算法都将网页源码结构和视觉信息分开进行考虑,同时,算法本身自学习能力较差。因此,本文主要研究基于视觉信息和网页层次结构的信息抽取算法,同时利用反馈学习机制扩展算法,提高算法的抽取效果和学习能力。
  针对视觉信息和网页层次结构相结合的问题,本文提出了通过借助网页渲染过程中生成的渲染树来达到将两者结合的目的。该算法通过视觉属性对数据区域进行识别,利用网页层次结构计算记录之间的相似性并对记录进行聚类以进行记录提取,紧接着利用加权的树匹配算法进行记录项对齐。最后,实验结果表明将视觉信息和网页层次结构相结合,可以一定程度上提高算法的抽取效果。
  针对提高算法的自学习以及应对复杂网页结构的能力,本文提出将反馈学习框架和信息抽取算法相结合。通过借助用户反馈的信息来提高算法的抽取效果。算法利用用户标注信息来进行多模型学习,提高算法的抽取效果。实验结果表明基于反馈学习的信息抽取算法比现有算法有更强的应对复杂网页结构的能力和更好的抽取效果。
  为了帮助算法在工业生产中实际落地以及降低用户的使用门槛,本文设计并实现了一个界面化的信息抽取系统。本文详细介绍了算法执行流程中各个模块的功能设计和实现,并介绍了该系统对已有信息采集项目的帮助和改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号