一种基于分类算法的网页信息提取方法

汪建伟; 杨冬青; 高军; 王腾蛟

首页> 中文期刊>计算机科学 >一种基于分类算法的网页信息提取方法

一种基于分类算法的网页信息提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.

著录项

来源
《计算机科学》|2008年第3期|91-93|共3页
作者
汪建伟; 杨冬青; 高军; 王腾蛟;
展开▼
作者单位

北京大学信息科学技术学院,北京,100871;

军事交通学院,天津,300161;

北京大学信息科学技术学院,北京,100871;

北京大学信息科学技术学院,北京,100871;

北京大学信息科学技术学院,北京,100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
信息提取; 属性向量; Wrapper; 显示属性;
入库时间 2022-08-18 04:39:20

相似文献

中文文献
外文文献
专利

1. 一种基于SVM及文本密度特征的网页信息提取方法 [J] . 周艳平 ,李金鹏 ,宋群豹 . 计算机应用与软件 . 2019,第010期
2. 一种基于SVM的网页层次分类算法 [J] . 马乐 ,翁智生 ,罗军 . 北京师范大学学报：自然科学版 . 2009,第3期
3. 一种改进混合文本密度的网页信息提取方法 [J] . 陈壮 ,葛斌 . 佳木斯大学学报（自然科学版） . 2022,第001期
4. 一种自适应网页结构化信息提取方法 [J] . 淮晓永 ,韩晓东 ,高若辰 . 电子技术应用 . 2020,第012期
5. 一种通用HTML网页主题信息提取方法 [J] . 许文 ,都云程 ,李渝勤 . 现代图书情报技术 . 2007,第001期
6. 一种基于显示属性的网页信息提取方法 [C] . 汪建伟 ,军事交通学院 ,高军 . 2007年全国网络与信息安全技术研讨会 . 2007
7. 基于扩展网页和公平特征选择的网页分类算法研究 [A] . 王祖峰 . 2008

一种基于分类算法的网页信息提取方法

摘要

著录项

相似文献

相关主题

期刊订阅