Web信息自动标引研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网络的发展及信息化工程的推进，促使Web信息逐步累积成为一个能够提供信息交互、信息共享，并影响人类生活各个层面的巨大资源空间。为了从具有海量性、无序性、异构性、实时更新性、多样性等特征的Web信息中快速、准确地获取所需资源，人们开始逐渐认识到Web信息组织管理的重要性，并开始探索各种Web信息处理方法，自动标引即为其中之一。
　　本研究以自动提取Web信息标引词为切入点，以Web坐标系、Web页面组织结构和Web页面浏览者的阅读习惯等特点为研究对象，探索Web信息自动标引过程中的具体影响因素。在总结前人研究工作的基础上，提出设想:根据网页坐标系，按照不同站点类型，用不同分割比例把网页划分若干区域;判析Web信息块归属区域并针对网站类型，探索各区域信息块在自动标引过程中的权重，最后编写程序验证以上设想，完成自动标引各个环节。具体步骤如下:(1)研究实现Web页面采集。根据研究需要，分别实现Web页面批量采集和手动采集，解决Web页面采集过程中的页面编码转换、html转换xml等问题。
　　(2)利用Web页面坐标系，结合页面浏览者阅读习惯，将Web页面划分成9个区域。每个区域占据页面一定比例，且区域中信息块被视为一个信息块集群，在后期运算中具有同样的标引权重并被统一处理。
　　(3)寻找发现不同类型网站的适宜页面分割比例。不同类型网站有着自己独特的页面信息发布方式。如新闻类站点，往往图片较少，文字报道占主要部分;大部分新闻类站点都向页面浏览者提供对某新闻进行评价的功能，从而造成网页高度变动幅度较大。本文分别选择新闻类、体育类、科学类站点页面，用不同页面分割比例进行测试，找出各类型站点的适宜页面分割比例值。
　　(4)摸索不同区域信息块在自动标引过程中的权重。浏览者在访问Web页面时，总会有视觉焦点、阅读习惯等特性，从而Web页面设计者在制作网页时，也会有所重点地安排Web页面信息。因此能否发现不同Web页面区域的信息重要程度，对后期自动标引结果的准确性有着直接影响。本文通过样本实验，对新闻类、科学类站点网页的不同区域信息块重要性进行了摸索，并分别得出不同类型站点的Web页面区域信息块在自动标引中的权重。
　　(5)实现对Web页面进行自动标引。在考虑Web页面信息噪音和区域特性的基础上，结合文本方法特色，给出一种Web信息自动标引的方法，编写程序予以实现和验证。
　　此外，本文还分别对网页宽度、网页高度与不同页面分割比例下的信息抽取查全率、准确率等的相关性等问题进行了探讨，以期对以后该领域研究有所帮助。
　　综上所述，本文对Web信息自动标引过程中各环节的关键技术进行了探索，探讨了不同类型站点网页的适宜分割比例，研究了网页坐标系与Web信息自动标引过程的相互关系，对相关研究有着借鉴和参考意义。

著录项

作者
张力;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科信息资源管理
授予学位博士
导师姓名叶鹰;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动标引;
关键词
互联网; 信息化工程; 自动标引; 网页坐标系; 页面分割; 区域信息块;

相似文献

中文文献
外文文献
专利

1. 基于遗传算法的Web信息自动标引研究 [J] . 田苗苗 ,许建潮 ,汪津 . 吉林大学学报（信息科学版） . 2006,第005期
2. 基于UCL的网页信息自动分类及标引技术研究 [J] . 李丹阳 . 计算机光盘软件与应用 . 2013,第007期
3. 基于UCL的网页信息自动标引技术研究 [J] . 沈静 ,周金治 ,马建国 . 现代图书情报技术 . 2008,第008期
4. WWW科技信息资源自动标引的理论与实践研究 [J] . 肖明 . 图书情报工作动态 . 2001,第4期
5. 文献信息自动标引研究 [J] . 苏新宁 ,邹晓明 . 现代图书情报技术 . 2000,第001期
6. 基于多词表的自动标引技术研究——新华社新闻稿自动标引实验 [C] . 查贵庭 ,侯汉清 . 第十五届全国计算机信息管理学术研讨会 . 2001
7. 文本信息自动标引技术研究与改进 [A] . 许爱琴 . 2013

Web信息自动标引研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅