首页> 中文学位 >基于DOM树的电子商务网站信息抽取技术研究
【6h】

基于DOM树的电子商务网站信息抽取技术研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第一章 绪论

1.1 课题研究的背景与意义

1.2 国内外的研究现状与发展趋势

1.3 论文组织结构

第二章 相关理论与技术

2.1 HTML

2.2 XML

2.3 DOM介绍

2.4 电子商务网站的概述

2.5 信息抽取

2.6 网页抓取工具

2.7 本章小结

第三章 电子商务网站商品关键词组的构建

3.1 关键词聚类

3.2 确定商品的关键词组

3.3 利用关键词聚类方法获得商品关键词组实例分析

3.4 商品关键词组的后期维护

3.5 本章小结

第四章 基于DOM树的电子商务网站信息抽取算法

4.1 基于DOM树的信息抽取方法

4.2 基于DOM树的多信息块信息抽取算法

4.3 基于DOM树的多信息块信息抽取算法分析

4.4 本章小结

第五章 基于DOM树的电子商务网站信息抽取系统

5.1 信息抽取系统整体流程图

5.2 信息抽取系统设计

5.3 系统模块实现

5.4 系统设计

5.5 信息抽取系统性能评价

5.6 本章小结

第六章 总结与展望

参考文献

攻读硕士学位期间发表的论文和参与的项目

致谢

展开▼

摘要

随着互联网的日渐普及与发展,网络信息日益增多,大量无关信息存储在网络大环境中,完全依靠人去查找有价值的信息已经不太现实。然而现代社会人们对于有效信息的需求量不断增加,怎样从繁多的信息中找到对自己有价值的信息,满足自身的信息需求,逐渐成为当前研究的热门课题。信息抽取正是解决当前问题的一种有效方法,目前,一些抽取工具已经在日常生活当中得到了实际应用,信息抽取技术也在发现问题解决问题的过程中不断优化完善。现在信息量的爆炸式增长主要是因为互联网的不断发展与成熟,由于网上信息资源的差异性和组织分散性,使得大量的查阅和提取互联网上的信息受到一定程度的限制,web信息抽取技术的理想效果是能够自动地将网页包含的信息转化为具有一定语义的结构化数据。本文采用web信息抽取技术来对用户感兴趣的信息项进行提取,构建信息抽取模型,设计信息抽取系统完成对网页信息的抽取。 本文的抽取信息源来自电子商务网页,以某类商品作为数据源,来设计本文的Web信息抽取系统。首先说明本课题的当前研究现状,从现状分析研究的不足之处,从而引出本课题的研究意义之所在。同时对电子商务网站、DOM、信息抽取的知识进行了简单概述;然后根据电子商务网站的结构特征,将DOM引入到Web信息抽取技术中,使得本文抽取算法的实现成为可能。论文研究重点是设计适用于抽取电子商务网站某类产品信息的抽取模块。首先对于一定量的同类商品网页通过聚类方法找到关键词组(我们要抽取的商品信息项),然后结合DOM树的可操作性,通过Web信息抽取算法实现对商品网页信息的抽取。其次,对提取关键词组和信息抽取模块的设计进行了重点的研究。最后,实现了界面简单且容易上手,用户体验效果较佳的信息抽取系统,对电子商务站点进行信息抽取,从中可以清楚的看到商品信息项的结构化数据。 将基于DOM树的信息抽取方法与其他方法相比,理论上精确商品关键词组可以提高信息抽取查准率,论文的研究有助于信息抽取的可适应性以及查准查全率的提高,具有一定的实际意义。

著录项

  • 作者

    杨文超;

  • 作者单位

    山东师范大学;

  • 授予单位 山东师范大学;
  • 学科 管理科学与工程
  • 授予学位 硕士
  • 导师姓名 乔鸿;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    DOM树; 电子商务网站;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号