首页> 中文期刊>中文信息学报 >基于逆向匹配的电子商务网站实体模板半自动构建方法

基于逆向匹配的电子商务网站实体模板半自动构建方法

     

摘要

Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取.网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树.通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板.该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集.

著录项

  • 来源
    《中文信息学报》|2015年第2期|157-162,178|共7页
  • 作者单位

    电子科技大学计算机科学与工程学院互联网科学中心,四川成都611731;

    电子科技大学计算机科学与工程学院互联网科学中心,四川成都611731;

    电子科技大学计算机科学与工程学院互联网科学中心,四川成都611731;

    电子科技大学计算机科学与工程学院互联网科学中心,四川成都611731;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    逆向匹配; DOM树; 模板构建; 信息提取;

  • 入库时间 2022-08-18 06:08:22

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号