基于单DOM树特征预分类的自适应Web信息抽取方法

彭艳兵; 谢馨庭

首页> 中文期刊>电子设计工程 >基于单DOM树特征预分类的自适应Web信息抽取方法

基于单DOM树特征预分类的自适应Web信息抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In traditional public opinion, mostly based on the template in acquisition mode, based on the reduction of artificial maintenance purposes, we propose a method based on adaptive Web information extraction single DOM tree features pre -classification, divided into the pre -classification and information extraction link two parts. Links presorting using SVM classification algorithm to extract information about hyperlinks in the pages of features to classify learning, then the results of the classification homologous Web information extraction. Experimental results show that this method of pre-classification accuracy rate of 94.48%, the recall rate was 94.77%.%在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分.链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取.实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%.

著录项

来源
《电子设计工程》|2017年第19期|56-59,63|共5页
作者
彭艳兵; 谢馨庭;
展开▼
作者单位

武汉邮电科学研究院湖北武汉 430074;

南京烽火星空通信发展有限公司江苏南京 210019;

武汉邮电科学研究院湖北武汉 430074;

展开▼
原文格式 PDF
正文语种 chi
中图分类各种数据传输系统;
关键词
DOM树; 标签路径; 信息抽取; SVM;

相似文献

中文文献
外文文献
专利

1. 基于视觉特征去噪和DOM树的网页信息提取方法 [J] . 陈壮 ,葛斌 . 山西师范大学学报（自然科学版） . 2021,第004期
2. 一种基于特征分类的红外图像自适应匹配增强的新方法 [J] . 胡窦明 ,赵海生 ,李云川 . 红外技术 . 2014,第003期
3. 基于trigram语体特征分类的语言模型自适应方法 [J] . 梁奇 ,郑方 ,徐明星 . 中文信息学报 . 2006,第004期
4. 一种基于视觉特征的Deep Web信息抽取方法 [J] . 孙璐 ,陈军华 ,廉德胜 . 计算机与数字工程 . 2016,第006期
5. 基于重建分类网络特征增强的盲域自适应分类器 [J] . 陶洋 ,胡昊 ,鲍灵浪 . 信息通信 . 2020,第006期
6. 基于自适应高斯混合模型的遥感影像分类方法研究——以武汉地区遥感影像分类为例 [C] . LI Dengchao ,李登朝 ,WU Jian . 2015湖北地质科技论坛 . 2015
7. 基于EM算法和DOM树的WEB信息抽取的研究 [A] . 乔爽爽 . 2013

基于单DOM树特征预分类的自适应Web信息抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅