基于标签路径特征的网页正文自适应抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，Web已经成为重要的信息发布平台。然而，Web网页中除了正文信息，还包含着导航、广告和版权信息等大量与网页主题无关的“噪音”信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果，同时也为这些系统的存储造成了负担。因此，网页正文抽取问题具有重要的研究意义和应用价值。
　　本文开展的研究工作如下:
　　(1)提出了基于标签路径特征融合的在线Web新闻内容抽取方法CEPF。设计了标签路径特征系，并提出一种方法将标签路径系中的特征融合为一个新的特征TPF。相对于标签路径中的每个特征，TPF都具有更好的区分网页正文和噪音的能力。在特征融合阶段，一种基于谱聚类的特征选择方法被用来删除冗余的标签路径特征。CEPF利用基于标签路径编辑距离的高斯平滑方法更新TPF特征值，基于平滑后的TPF值和最大类间方差法自适应地从网页中抽取正文信息。CEPF方法是无监督的。实验结果表明，CEPF是一种准确、通用且与语言无关的的Web新闻内容抽取方法。
　　(2)提出了基于长文本标签比的网页正文抽取方法CELTR，该方法从网页DOM树中抽取对应正文信息的子树。CELTR使用最大类间方差法自适应地为DOM树的每个子树计算长文本标签比(LTR)。在大多数情况下，对应网页正文的子树比对应网页噪音的子树具有更高的LTR值，但仍存在少数反常的情况，为此我们在LTR的基础上扩展出LTRS和RLTRS。CELTR利用LTR、LTRS和RLTRS三个特征通过对子树聚类的方法从网页中抽取正文。CELTR方法是无监督的。实验结果表明，CELTR是一种准确、通用且与语言无关的的网页正文抽取方法，且可以保留网页正文原有的结构。
　　(3)设计并实现了一个面向领域主题的Web新闻动态聚合系统，并应用本文的CEPF和CELTR方法解决该系统中的网页正文抽取问题。并分析了网页正文抽取算法在实际应用中的优势与局限性。

著录项

作者
胡骏;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科软件工程
授予学位硕士
导师姓名吴共庆;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
计算机网页; 正文信息; 特征抽取; 标签路径;

相似文献

中文文献
外文文献
专利

1. 基于文本块密度和标签路径覆盖率的网页正文抽取 [J] . 刘鹏程 ,胡骏 ,吴共庆 . 计算机应用研究 . 2018,第006期
2. 基于正文特征和网页结构的网页正文抽取方法 [J] . 胡露露 ,刘小勤 ,孙凯 . 大气与环境光学学报 . 2017,第3期
3. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
4. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
5. 基于标签路径覆盖率和多文本特征的正文抽取算法 [J] . 郑野 ,宋旭东 ,于林林 . 大连交通大学学报 . 2019,第005期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 结合块密度和标签路径特征的网页正文抽取方法研究 [A] . 刘鹏程 . 2017

基于标签路径特征的网页正文自适应抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅