首页> 中文学位 >基于分块的新闻网页信息抽取算法研究
【6h】

基于分块的新闻网页信息抽取算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 网页信息抽取研究现状

1.3 论文的主要研究内容和组织结构

第二章 基于分块的新闻网页信息抽取算法

2.1 问题的提出

2.2 相关技术简介

2.3 网页噪音清洗

2.4 新闻内容抽取

2.5 实验

2.6 本章小结

第三章 基于分块的新闻网页信息抽取并行算法

3.1 问题的提出

3.2 多核计算机上网页文档划分方法

3.3 常规网页噪音清洗、网页分块和相同噪音块清洗并行算法

3.4 实验

3.5 本章小结

第四章 总结与展望

4.1 主要工作

4.2 贡献和创新

4.3 下一步研究工作

参考文献

致谢

攻读硕士学位期间参加的科研项目

攻读硕士学位期间发表的学术论文

展开▼

摘要

网页信息抽取是数据挖掘中的一个重要研究领域,旨在从半结构化的网页文档中提取出有价值的信息,已广泛应用于新闻领域、学科专业知识领域、金融领域、电子商务领域、军事领域、医学领域等。在网页文档中除了用户感兴趣的信息外,往往包含其他较多的无用信息,如为了便于用户浏览网页而加入的页面导航链接信息以及出于商业目的而附加的广告、图片信息等,这些内容被称之为“网页噪音”。由于网页文档之间的异构性,如果采用人工操作的方式从来源于不同网站的新闻网页文档中准确的提取出新闻信息,往往会花费较多的时间和精力,处理过程繁琐且效率不高。因此,如何快速、准确的从新闻网页文档中抽取出新闻信息是本文的主要研究内容。
  本文利用网页解析技术,在常规网页噪音清洗的基础上,以块为基本单位,研究提出基于模板页的相同噪音块清洗方法、基于class属性的同类噪音块和特殊噪音块清洗方法,以使网页噪音清洗的更彻底、减少网页噪音对新闻内容抽取准确率的影响;并利用网页新闻在内容布局结构上的特征,研究提出一种基于新闻起始块和终止块的新闻网页信息抽取算法,以期能够同时处理新闻正文内容存放在单块和多块内的情形、有效解决新闻正文内容较短无法有效抽取的问题,同时本文的模板页选取不需要经过大量的样本学习。实验结果表明,与已有的网页信息抽取算法相比,该方法获得了较高的准确率。
  在实际应用中,为了进一步提高新闻网页信息抽取的效率,本文提出了一种负载相对平衡的网页文档划分方法,确保了网页标签在网页文档中的实际先后顺序,保留了网页标签自身的原始结构以及标签之间的嵌套关系,并充分利用计算机多核结构和线程级并行技术,提出了基于分块的新闻网页信息抽取并行算法。实验结果表明,本文设计实现的新闻网页信息抽取线程级并行算法在获得与串行抽取算法相同处理结果的同时,也获得了较好的加速比,有效提高了网页新闻内容的抽取效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号