首页> 中文学位 >密集型web信息抽取与集成研究
【6h】

密集型web信息抽取与集成研究

代理获取

目录

文摘

英文文摘

第一章 绪论

第二章 信息抽取模型设计

第三章 WEB数据抽取

第四章 查询处理技术

第五章 系统设计与实现

第六章 全文总结和展望

致 谢

参考文献

附录1 攻读硕士学位期间发表论文目录

展开▼

摘要

随着Internet的飞速发展,Web已经发展成为一个巨大的、分布和共享的信息资源,Web 信息发布与浏览都是通过基于 HTML 或 XML 语法页面实现,而HTML或XML是非结构化、半结构化的语言,它们无法被计算机所理解,也无法像传统的数据库那样,提供结构化的、功能强大的、高效的查询语句。如何让计算机从Web数据源中获取用户所需的信息,多年来一直是计算机领域热点研究的课题,具有重要的研究和实用价值。 Web的信息抽取技术不但可以直接定位到用户所需的信息,而且采用一定的方式增加语义和模式信息,为Web查询提供了更为精确的方法,使Web信息的再利用成为可能。 信息抽取技术包括信息采集、文本预处理、信息抽取以及信息库标注技术。论文研究了目前相关的信息采集技术、文本预处理中的中文分词技术以及Web信息库的标注方式,在此基础上提出了信息抽取模型结构,详细介绍了模型结构各个组成部分的功能。 对于Web数据抽取与集成,则是探索怎样能够较容易地获得构造一个包装器所需规则的有效方法,在充分吸收国内外数据抽取与集成领域研究成果的基础上,通过分析已有的构造Wrapper的方式以及网页分类技术,提出了一个基于矩阵约束法分词切分技术,从而生成抽取与集成的模式,基于XML中间件技术和XML Parse软件包。 本文描述了自行开发的一个基于XML的Web查询原型系统的功能和实现,提出了适合XML的结构又较为通用的树型结构抽取规则,能够把密集型Web上的数据抽取出来整合到指定模式的XML文档中去。该系统采用矩阵约束法的中文分词方法和基于XML的抽取方法,使用XML数据模型对全局模式进行定义、存储和管理,具有模式集成、查询处理和事务处理等功能,来满足各个领域不同的抽取需求。Web信息抽取出来,我们将对其进行处理,使用户能够随心所欲的加以利用。本文研究了把抽取出来的数据准确的映射到目标数据库中,提出基于XML的Web查询模式。通过Web信息抽取技术结合XML的存储和访问技术,最大限度的实现了Web信息的再利用。在文章的最后,作者基于实例对系统的各项抽取系数进行了评价,基本达到了预期的效果。

著录项

  • 作者

    刘放美;

  • 作者单位

    郑州轻工业学院;

  • 授予单位 郑州轻工业学院;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 张素智;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    密集型; 信息抽取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号