首页> 中文学位 >基于标签路径特征的网页正文自适应抽取方法研究
【6h】

基于标签路径特征的网页正文自适应抽取方法研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景、目的及意义

1.2 研究内容

1.2.1 课题来源

1.2.2 本文研究思路和主要研究内容

1.2.3 内容组织

1.3 本章小结

第二章 网页正文抽取相关研究

2.1 相关工作

2.2 网页正文抽取的难点

2.3 网页正文抽取的评价体系

2.4 本章小结

第三章 基于标签路径特征融合的在线Web新闻内容抽取方法

3.1 概述

3.2 DOM树与标签路径

3.3 标签路径特征系

3.4 标签路径特征融合

3.4.1 组合特征选择

3.4.2 组合特征融合

3.5 基于标签路径特征融合的在线Web新闻内容抽取

3.5.1 基于标签路径编辑距离的加权高斯平滑

3.5.2 自适应阈值设置与内容抽取算法

3.6 实验结果与分析

3.6.1 对比算法及实验数据集

3.6.2 实验结果分析

3.7 本章小结

第四章 基于长文本标签比的网页正文抽取方法

4.1 概述

4.2 正文子树

4.3 长文本标签比

4.4 网页正文抽取

4.4.1 长文本阈值设置

4.4.2 子树聚类与正文抽取

4.5 实验结果与分析

4.5.1 实验数据集

4.5.2 实验结果分析

4.6 本章小结

第五章 网页正文抽取算法在Web新闻聚合系统中的应用

5.1 概述

5.2 面向领域主题的Web新闻动态聚合系统

5.3 网页正文抽取算法在实际应用中的优势和局限性

5.4 本章小结

第六章 总结与展望

6.1 研究工作总结

6.2 展望

参考文献

攻读学位期间的学术活动及成果情况

展开▼

摘要

随着互联网的飞速发展,Web已经成为重要的信息发布平台。然而,Web网页中除了正文信息,还包含着导航、广告和版权信息等大量与网页主题无关的“噪音”信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果,同时也为这些系统的存储造成了负担。因此,网页正文抽取问题具有重要的研究意义和应用价值。
  本文开展的研究工作如下:
  (1)提出了基于标签路径特征融合的在线Web新闻内容抽取方法CEPF。设计了标签路径特征系,并提出一种方法将标签路径系中的特征融合为一个新的特征TPF。相对于标签路径中的每个特征,TPF都具有更好的区分网页正文和噪音的能力。在特征融合阶段,一种基于谱聚类的特征选择方法被用来删除冗余的标签路径特征。CEPF利用基于标签路径编辑距离的高斯平滑方法更新TPF特征值,基于平滑后的TPF值和最大类间方差法自适应地从网页中抽取正文信息。CEPF方法是无监督的。实验结果表明,CEPF是一种准确、通用且与语言无关的的Web新闻内容抽取方法。
  (2)提出了基于长文本标签比的网页正文抽取方法CELTR,该方法从网页DOM树中抽取对应正文信息的子树。CELTR使用最大类间方差法自适应地为DOM树的每个子树计算长文本标签比(LTR)。在大多数情况下,对应网页正文的子树比对应网页噪音的子树具有更高的LTR值,但仍存在少数反常的情况,为此我们在LTR的基础上扩展出LTRS和RLTRS。CELTR利用LTR、LTRS和RLTRS三个特征通过对子树聚类的方法从网页中抽取正文。CELTR方法是无监督的。实验结果表明,CELTR是一种准确、通用且与语言无关的的网页正文抽取方法,且可以保留网页正文原有的结构。
  (3)设计并实现了一个面向领域主题的Web新闻动态聚合系统,并应用本文的CEPF和CELTR方法解决该系统中的网页正文抽取问题。并分析了网页正文抽取算法在实际应用中的优势与局限性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号