基于统计的网页净化模板生成算法

胡飞; 黄军建; 成平广; 席海; 李军

首页> 中文期刊>科学技术与工程 >基于统计的网页净化模板生成算法

基于统计的网页净化模板生成算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A web site' s page purification template generation algorithm is proposed based on statistics. At first the DOM trees of a group of pretreated sample pages in a certain web site are extracted. For each DOM tree, the node with the most number of words in the sibling will be retained and form an unilateral subtree. Merging these subtrees, the highest number of node in the sibling is the important content node, and these important nodes form another unilateral subtree. In the subtree, if a child node has less than a half words of its parent node, its parent node will be the last one having the important content.%同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化.首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST；然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST.这个SPUST就是该站点的网页净化模板.

著录项

来源
《科学技术与工程》|2013年第4期|1060-1063|共4页
作者
胡飞; 黄军建; 成平广; 席海; 李军;
展开▼
作者单位

重庆第二师范学院网络中心,数学与信息工程系,重庆400065;

重庆第二师范学院网络中心,数学与信息工程系,重庆400065;

重庆第二师范学院网络中心,数学与信息工程系,重庆400065;

重庆第二师范学院网络中心财务处,重庆400065;

重庆第二师范学院网络中心教务处,重庆400065;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP393.09;
关键词
网页净化; 信息提取; 单边子树;
入库时间 2023-07-24 17:42:51

相似文献

中文文献
外文文献
专利

1. 浅谈基于模板和标签库JSP的网页自动生成的设计 [J] . 李桂芳 . 黑龙江科技信息 . 2007,第005期
2. 浅谈基于模板和标签库JSP的网页自动生成的设计 [J] . 李桂芳 . 黑龙江科技信息 . 2007,第03S期
3. 一种基于模板的快速网页文本自动抽取算法 [J] . 陈治昂 ,周知予 ,李大学 . 计算机应用研究 . 2009,第007期
4. 基于净化网页的改进消重算法 [J] . 虞曼 ,熊前兴 . 计算机系统应用 . 2011,第012期
5. 基于局部语义的网页净化算法 [J] . 谢华 ,刘卫国 . 计算机系统应用 . 2007,第005期
6. 面向终端用户的网页过滤模板动态生成技术研究 [C] . XU Hui ,徐慧 ,DOU Zi-hui . 中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会 . 2012
7. 基于模板的大数据统计分析报告生成方法研究与应用 [A] . 姚颖 . 2020

基于统计的网页净化模板生成算法

摘要

著录项

相似文献

相关主题

期刊订阅