HTML网页主题信息抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中，通常我们在浏览Web上的网页时会发现两部分内容：一部分内容体现的是网页的主题信息，比如一张新闻网页中的新闻部分，称之为“主题”内容；另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问卷等内容，我们称之为“噪音”内容。大量的无关内容存在使得用户不能迅速获取主题信息，准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。本文基于Dog规范，把网页的HTML文档表示成一棵DOM树，然后提出一种新的结点主题相关判定方法，这种方法综合了局部相关度和上下文相关度的网页主题内容块判定算法。依据此判定方法判定出要抽取的内容，并删除掉无关的内容，最后输出只含有主题信息的HTML文档。与现有采用的算法相比，新方法利用一个更加精确的主题内容块判定算法，能够准确地提取出主题信息。方法不依赖于网页的模板信息，是一种通用的主题信息提取方法。实验结果也证明了方法的准确性和有效性。

著录项

作者
许文;
展开▼
作者单位

北京信息科技大学;

北京机械工业学院;

展开▼
授予单位北京信息科技大学;北京机械工业学院;
学科计算机应用
授予学位硕士
导师姓名都云程;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
文档对象模型; 结点主题相关判定; 局部相关度; 主题内容块判定算法; 主题信息提取;

相似文献

中文文献
外文文献
专利

1. 基于HTMLParser的BT种子网页信息抽取 [J] . 张丽娜 ,陈俊杰 ,赵丽欣 . 电脑开发与应用 . 2010,第003期
2. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
3. 一种通用HTML网页主题信息提取方法 [J] . 许文 ,都云程 ,李渝勤 . 现代图书情报技术 . 2007,第001期
4. 任意网页的主题信息抽取研究 [J] . 张儒清 ,郭岩 ,刘悦 . 中文信息学报 . 2017,第005期
5. 基于视觉特征的主题型网页信息抽取 [J] . 胡瑞 ,郭星 ,黄永聪 . 赤峰学院学报（自然科学版） . 2016,第006期
6. 一种通用HTML网页主题信息提取方法 [C] . 许文 ,都云程 ,李渝勤 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 网页主题信息抽取方法研究 [A] . 任玉 . 2010

HTML网页主题信息抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅