基于文本对象模型的自动化网页内容提取方法

李桐宇; 任锐; 蔡鸿明; 姜丽红

首页> 中文期刊>上海交通大学学报 >基于文本对象模型的自动化网页内容提取方法

基于文本对象模型的自动化网页内容提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.

著录项

来源
《上海交通大学学报》|2018年第10期|1363-1369|共7页
作者
李桐宇; 任锐; 蔡鸿明; 姜丽红;
展开▼
作者单位

上海交通大学软件学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
文本对象模型; 网页内容提取; 文本密度; 节点熵;

相似文献

中文文献
外文文献
专利

1. 一种基于页面赋权的网页内容提取方法 [J] . 余杨奎 ,王旅 ,李婉茹 . 通化师范学院学报 . 2021,第010期
2. DVB-S/S2信道中网页内容的盲提取方法研究 [J] . 邸晨旭 . 无线电工程 . 2017,第006期
3. 基于分块的网页内容提取算法的研究 [J] . 杨丽萍 . 数字技术与应用 . 2012,第012期
4. 基于分块的网页内容提取算法的研究 [J] . 杨丽萍 . 数字技术与应用 . 2012,第012期
5. 基于块分布的新闻网页内容提取 [J] . 邱江涛 ,唐常杰 ,李川 . 吉林大学学报（工学版） . 2009,第005期
6. 基于多特征的网页内容提取研究 [C] . 李连霞 ,马军 ,陈竹敏 . 第三届和谐人机环境联合(第16届全国多媒体技术、第3届全国人机交互、第3届全国普适计算)学术会议 . 2007
7. 基于自动化文本规则提取的数据转换技术研究与实现 [A] . 朱逸晨 . 2018

基于文本对象模型的自动化网页内容提取方法

摘要

著录项

相似文献

相关主题

期刊订阅