首页> 中文学位 >基于Xpath的台职院新闻信息抽取系统的设计与实现
【6h】

基于Xpath的台职院新闻信息抽取系统的设计与实现

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 本课题研究的背景和意义

1.2 国内外研究现状

1.3 本文研究的内容和结构组织

1.4 本章小结

第2章 相关的技术介绍

2.1 Web挖掘概述

2.1.1 Web挖掘的定义

2.1.2 Web挖掘的分类

2.2 Web信息抽取

2.2.1 Web信息抽取的定义及特点

2.2.2 Web信息抽取的分类

2.2.3 现有信息抽取技术的内容对比

2.3 新闻网页的特征和结构分析

2.4 XML技术分析

2.4.1 XML的特点

2.4.2 XML在信息抽取系统中的优势及其应用

2.5 DOM、XPath与XSLT

2.5.1 DOM

2.5.2 XPath

2.5.3 XSLT

2.6 本章小结

第3章 基于XPath的信息抽取方法的实现与优化

3.1 目前信息抽取存在的问题

3.2 基于XPath的信息抽取方法

3.2.1 抽取方法概述

3.2.2 基于XPath的信息抽取模型整体框架

3.2.3 抽取规则描述

3.2.4 抽取规则优化

3.3 本章小结

第4章 台职院新闻抽取系统的设计与实现

4.1 系统目标分析

4.2 系统开发环境的构建

4.2.1 操作系统平台的选择

4.2.2 Web服务器的选择

4.2.3 数据库软件的选择

4.2.4 编程语言的选择

4.3 系统的组成

4.4 系统的实现过程

4.4.1 采集数据

4.4.2 数据预处理

4.4.3 抽取规则

4.4.4 信息抽取

4.4.5 XML文档导入MySQL数据库

4.4.6 系统定时任务设置

4.5 用户使用前端页面组成结构

4.6 本章小结

第5章 系统的运行流程及结果分析

5.1 系统运行流程

5.1.1 系统登录与新用户注册

5.1.2 数据采集模块

5.1.3 数据清理模块

5.1.4 生成抽取规则

5.1.5 抽取数据

5.1.6 查看数据与导出数据表

5.2 系统运行结果分析

5.2.1 测试指标分析

5.2.2 二级网站单独测试分析

5.2.3 二级网站整体测试分析

第6章 总结与展望

6.1 论文总结

6.2 进一步的研究工作

参考文献

致谢

展开▼

摘要

随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。针对人们对Web新闻信息的需求,各类搜索引擎相继推出了相关的搜索服务。但是人们在使用搜索引擎进行信息检索时,总是会产生大量的信息垃圾或是冗余信息,因此为解决从网络中快速有效得获取信息,Web信息抽取技术应运而生。
   本文在分析新闻网页的基础上,并分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。该系统主要应用于台职院的二级网站,便于网站信息采集者及时获取各网站的新闻更新情况。
   本系统主要能使用户能从海量信息的HTML页面中抽取出感兴趣的信息点,并转换成结构性和扩展性强的XML文档。它的最大优点就是,在Web信息抽取包装器生成过程中,用户能够快速定制构建良好的包装器,这使得整个系统具有较好的灵活性和高效性。
   本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。
   本系统与传统的人工采集相比较,不仅能缩减采集时间,节约大量人力物力,同时能减少人工采集中出现的错误、遗漏和偏差,为信息获取提供了一个方便高效的管理平台。

著录项

  • 作者

    阮娟;

  • 作者单位

    浙江工业大学;

  • 授予单位 浙江工业大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 梁荣华;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    数据挖掘; 信息抽取; 新闻抽取; 搜索引擎;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号