基于超链接和 DOM 结构树的网页标题实时抽取方法

张兵; 汤进; 罗斌

首页> 中文期刊>计算机与现代化 >基于超链接和 DOM 结构树的网页标题实时抽取方法

基于超链接和 DOM 结构树的网页标题实时抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Correct extraction of Web title is significant to Web text information mining.This paper proposed a method which can get a real-time Web page title extraction.This method first used a real-time analysis model though the catalog page, and then used the hyperlink-based travelsal approach, and used the correspondence between the title and the release time to get the URL of the page and the corresponding anchor text.If the anchor text we have was not the title of the text page, we should get the Web page HTML source code and build a DOM tree for the corresponding theme-based Web page.Based on the visual characteristics of the Web page title, we traversed the DOM tree in depth-first order.The experimental results demonstrate that this method is of high accuracy and can be simply implemented and so on.%网页标题的正确抽取，在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析，接着采用基于超链接遍历的方法，并利用标题与发布时间的对应关系，最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题，则获取主题型网页的HTML源码并构建网页DOM树。在此基础上，结合网页标题的视觉特点，深度优先遍历DOM树，正确提取网页正文标题。实验结果表明，本文提出的Web网页标题实时抽取方法，具有实现简单，准确率高等优点。

著录项

来源
《计算机与现代化》|2015年第8期|84-88|共5页
作者
张兵; 汤进; 罗斌;
展开▼
作者单位

安徽大学计算机科学与技术学院;

安徽合肥 230601;

安徽大学计算机科学与技术学院;

安徽合肥 230601;

安徽省工业图像处理与分析重点实验室;

安徽合肥 230039;

安徽大学计算机科学与技术学院;

安徽合肥 230601;

安徽省工业图像处理与分析重点实验室;

安徽合肥 230039;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
超链接; 网页标题; 发布时间; 实时; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于DOM结构树的网页正文信息分段方法 [J] . 周建 ,汤进 ,罗斌 . 计算机与现代化 . 2013,第010期
2. 基于结构树的网页正文内容抽取方法 [J] . 孙明柱 ,魏海平 . 科学技术与工程 . 2011,第028期
3. 基于网页结构树的Web信息抽取方法 [J] . 陈琼 ,苏文健 . 计算机工程 . 2005,第020期
4. 基于DOM的动态网页信息抽取方法 [J] . 王平根 . 科技信息 . 2010,第031期
5. 基于相似度的网页标题抽取方法 [J] . 李国华 ,昝红英 . 中文信息学报 . 2011,第002期
6. 基于语句相似度的网页标题抽取方法 [C] . 李国华 ,昝红英 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 基于DOM信息抽取技术的网页自动翻译方法的应用研究 [A] . 徐瑶 . 2010

基于超链接和 DOM 结构树的网页标题实时抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅