首页> 中文学位 >Web信息自动标引研究
【6h】

Web信息自动标引研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究意义

1.3 研究目标与内容

1.4 论文的组织结构

第2章 Web信息自动标引相关研究

2.1 Web信息采集的研究

2.2 Web信息抽取的研究

2.3 自动标引的研究

2.4 众多研究所涉及的算法

第3章 Web构架分析及信息采集

3.1 HTML、XML和DOM

3.2 HTML转换为XML

第4章 Web信息抽取关键技术:信息块判析

4.1 网页坐标系

4.2 VIPS算法

4.3 网页九宫格

4.4 网页信息去噪技术

第5章 三种类型网站的关键信息块判定

5.1 新闻类站点

5.1.1 网站特点简介

5.1.2 基于不同分割比例的信息块提取实验

5.2 体育类站点

5.2.1 网站特点简介

5.2.2 基于不同分割比例的信息块提取实验

5.3 科学类网站

5.3.1 网站特点简介

5.3.2 基于不同分割比例的信息块提取实验

第6章 标引词抽取及实现技术

6.1 标引词

6.1.1 标引词的来源

6.1.2 标引词的评价

6.2 科学类、新闻类网页标引源权重的探析

6.2.1 网页标引源权重设计

6.2.2 科学类站点网页各标引源表达能力统计与分析

6.2.3 新闻类站点网页各标引源表达能力统计与分析

6.3 自动标引的实现与评价

6.3.1 自动标引实现步骤

6.3.2 实验结果评价

第7章 Web信息自动标引系统设计与实现

7.1 系统开发环境

7.1.1 系统硬件配置

7.1.2 系统开发软件环境

7.2 系统开发工作流程

7.3 系统简介

7.4 系统模块功能介绍

7.4.1 Web页面采集及预处理模块

7.4.2 Web页面数据处理及检验模块

7.4.3 数据浏览模块

7.4.4 标引模块

7.4.5 标引结果查询模块

7.4.6 参数设置模块

7.4.7 帮助模块

7.5 系统数据库结构

7.5.1 数据库设计

7.5.2 数据库实现

第8章 总结与展望

8.1 论文工作总结

8.2 工作展望

参考文献

攻读博士学位期间主要研究成果

致谢

展开▼

摘要

互联网络的发展及信息化工程的推进,促使Web信息逐步累积成为一个能够提供信息交互、信息共享,并影响人类生活各个层面的巨大资源空间。为了从具有海量性、无序性、异构性、实时更新性、多样性等特征的Web信息中快速、准确地获取所需资源,人们开始逐渐认识到Web信息组织管理的重要性,并开始探索各种Web信息处理方法,自动标引即为其中之一。
  本研究以自动提取Web信息标引词为切入点,以Web坐标系、Web页面组织结构和Web页面浏览者的阅读习惯等特点为研究对象,探索Web信息自动标引过程中的具体影响因素。在总结前人研究工作的基础上,提出设想:根据网页坐标系,按照不同站点类型,用不同分割比例把网页划分若干区域;判析Web信息块归属区域并针对网站类型,探索各区域信息块在自动标引过程中的权重,最后编写程序验证以上设想,完成自动标引各个环节。具体步骤如下:(1)研究实现Web页面采集。根据研究需要,分别实现Web页面批量采集和手动采集,解决Web页面采集过程中的页面编码转换、html转换xml等问题。
  (2)利用Web页面坐标系,结合页面浏览者阅读习惯,将Web页面划分成9个区域。每个区域占据页面一定比例,且区域中信息块被视为一个信息块集群,在后期运算中具有同样的标引权重并被统一处理。
  (3)寻找发现不同类型网站的适宜页面分割比例。不同类型网站有着自己独特的页面信息发布方式。如新闻类站点,往往图片较少,文字报道占主要部分;大部分新闻类站点都向页面浏览者提供对某新闻进行评价的功能,从而造成网页高度变动幅度较大。本文分别选择新闻类、体育类、科学类站点页面,用不同页面分割比例进行测试,找出各类型站点的适宜页面分割比例值。
  (4)摸索不同区域信息块在自动标引过程中的权重。浏览者在访问Web页面时,总会有视觉焦点、阅读习惯等特性,从而Web页面设计者在制作网页时,也会有所重点地安排Web页面信息。因此能否发现不同Web页面区域的信息重要程度,对后期自动标引结果的准确性有着直接影响。本文通过样本实验,对新闻类、科学类站点网页的不同区域信息块重要性进行了摸索,并分别得出不同类型站点的Web页面区域信息块在自动标引中的权重。
  (5)实现对Web页面进行自动标引。在考虑Web页面信息噪音和区域特性的基础上,结合文本方法特色,给出一种Web信息自动标引的方法,编写程序予以实现和验证。
  此外,本文还分别对网页宽度、网页高度与不同页面分割比例下的信息抽取查全率、准确率等的相关性等问题进行了探讨,以期对以后该领域研究有所帮助。
  综上所述,本文对Web信息自动标引过程中各环节的关键技术进行了探索,探讨了不同类型站点网页的适宜分割比例,研究了网页坐标系与Web信息自动标引过程的相互关系,对相关研究有着借鉴和参考意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号