首页> 中文会议>第二十届全国计算机信息管理学术研讨会 >一种通用HTML网页主题信息提取方法

一种通用HTML网页主题信息提取方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。目前的提取方法多依赖于网页模板信息,而Web上的网页模板不计其数,因此这些方法缺乏通用性。且随着模板数量的增加,模板库的维护工作也变得日益复杂。本文基于DOM规范,把HTML网页表示成树结构,然后提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的内容,并删除无关内容,最后输出只含主题信息的HTML文档。方法不依赖于模板信息,是一种通用的主题信息提取方法。实验结果证明了方法的准确性和有效性。

著录项

来源
《第二十届全国计算机信息管理学术研讨会》|2006年|66-73|共8页
会议地点南昌
作者
许文; 都云程; 李渝勤; 施水才;
展开▼
作者单位

中国科学技术情报学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类国际互联网;
关键词
主题信息提取; 服务质量; 网页模板信息;

相似文献

中文文献
外文文献
专利

1. 一种通用HTML网页主题信息提取方法 [J] . 许文 ,都云程 ,李渝勤 . 现代图书情报技术 . 2007,第001期
2. 一种Web主题文本通用提取方法 [J] . 蒲强 ,李鑫 ,刘启和 . 计算机应用 . 2007,第006期
3. 基于改进HTML-Tree的中文网页特征向量提取方法 [J] . 李铭岳 ,周军 . 信息技术 . 2009,第001期
4. 一种改进混合文本密度的网页信息提取方法 [J] . 陈壮 ,葛斌 . 佳木斯大学学报（自然科学版） . 2022,第001期
5. 一种自适应网页结构化信息提取方法 [J] . 淮晓永 ,韩晓东 ,高若辰 . 电子技术应用 . 2020,第012期
6. 模板化网页主题信息的提取方法 [C] . 欧健文 ,董守斌 ,蔡斌 . 第三届全国搜索引擎和网上信息挖掘学术研讨会 . 2005
7. HTML网页主题信息抽取方法研究 [A] . 许文 . 2007

一种通用HTML网页主题信息提取方法

摘要

著录项

相似文献

相关主题

期刊订阅