首页> 中文期刊> 《计算机工程与应用》 >基于标记树对象抽取技术的Hidden Web获取研究

基于标记树对象抽取技术的Hidden Web获取研究

     

摘要

目前标准的搜索引擎能够检索的仅仅是World Wide Web提供的小部分称为可索引的Web信息.大量的Hidden Web信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中.该文提出了一套检索Hidden Web信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术.系统采用新的基于标记树的对象抽取(Tag-Tree-based Object Extraction)方法自动地从Web页面中抽取Hidden Web信息,然后在此基础上给出了结构化的Hidden Web信息查询算法.文章最后对实验结果进行了讨论.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号