首页> 中文学位 >动态页面的web信息抽取方法研究
【6h】

动态页面的web信息抽取方法研究

代理获取

目录

文摘

英文文摘

论文说明:图目录、表目录

第一章导论

第二章动态页面集的web信息抽取方法模型

第三章动态页面集的web信息抽取方法实现

第四章方法应用与实验结果

第五章总结与展望

致谢

参考文献

附录

个人简历与研究工作

展开▼

摘要

Web信息抽取是web领域的一项重要研究课题,研究范围涵盖信息检索、数据挖掘、人工智能等多门学科领域。Web信息抽取系统的智能性、准确性与适应性一直是该领域的研究重点与追求目标。 当前大多数web信息抽取方法的处理对象都是某类网站的静态页面集,抽取内容相对比较简单,因此缺乏分析多种页面结构并抽取逻辑信息记录的机制。本文提出了一种基于动态页面集的信息抽取方法,抽取对象为实时生成的查询结果页面集,抽取内容为多个逻辑相关的信息项组成的信息记录。该方法使用XML配置文件对页面集的元数据与先验规则进行描述,并借用了文档图像处理中表格图像分析的基本方法与机制实现了对查询结果页面的解析与信息记录的智能提取。 本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号