基于分块的新闻网页信息抽取算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网页信息抽取是数据挖掘中的一个重要研究领域,旨在从半结构化的网页文档中提取出有价值的信息,已广泛应用于新闻领域、学科专业知识领域、金融领域、电子商务领域、军事领域、医学领域等。在网页文档中除了用户感兴趣的信息外,往往包含其他较多的无用信息,如为了便于用户浏览网页而加入的页面导航链接信息以及出于商业目的而附加的广告、图片信息等,这些内容被称之为“网页噪音”。由于网页文档之间的异构性,如果采用人工操作的方式从来源于不同网站的新闻网页文档中准确的提取出新闻信息,往往会花费较多的时间和精力,处理过程繁琐且效率不高。因此,如何快速、准确的从新闻网页文档中抽取出新闻信息是本文的主要研究内容。
　　本文利用网页解析技术,在常规网页噪音清洗的基础上,以块为基本单位,研究提出基于模板页的相同噪音块清洗方法、基于class属性的同类噪音块和特殊噪音块清洗方法,以使网页噪音清洗的更彻底、减少网页噪音对新闻内容抽取准确率的影响;并利用网页新闻在内容布局结构上的特征,研究提出一种基于新闻起始块和终止块的新闻网页信息抽取算法,以期能够同时处理新闻正文内容存放在单块和多块内的情形、有效解决新闻正文内容较短无法有效抽取的问题,同时本文的模板页选取不需要经过大量的样本学习。实验结果表明,与已有的网页信息抽取算法相比,该方法获得了较高的准确率。
　　在实际应用中,为了进一步提高新闻网页信息抽取的效率,本文提出了一种负载相对平衡的网页文档划分方法,确保了网页标签在网页文档中的实际先后顺序,保留了网页标签自身的原始结构以及标签之间的嵌套关系,并充分利用计算机多核结构和线程级并行技术,提出了基于分块的新闻网页信息抽取并行算法。实验结果表明,本文设计实现的新闻网页信息抽取线程级并行算法在获得与串行抽取算法相同处理结果的同时,也获得了较好的加速比,有效提高了网页新闻内容的抽取效率。

著录项

作者
姬鑫;
展开▼
作者单位

广西大学;

展开▼
授予单位广西大学;
学科计算机技术
授予学位硕士
导师姓名钟诚;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP311.13;
关键词
网页信息抽取算法; 数据挖掘; 分块矩阵; 模板页;

相似文献

中文文献
外文文献
专利

1. 基于分块的新闻网页信息抽取算法 [J] . 姬鑫 ,钟诚 . 计算机应用与软件 . 2015,第004期
2. 基于分块的网页正文信息提取算法研究 [J] . 黄文蓓 ,杨静 ,顾君忠 . 计算机应用 . 2007,第0z1期
3. 基于分块的网页正文信息提取算法研究 [J] . 黄文蓓 ,杨静 ,顾君忠 . 计算机应用 . 2007,第B06期
4. 基于分块的网页主题文本抽取 [J] . 任玉 ,樊勇 ,郑家恒 . 广西师范大学学报（自然科学版） . 2009,第001期
5. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
6. 基于链接分块的大容量网页信息隐藏算法 [C] . PENG Deng ,彭登 ,CHEN Fan . 第十二届全国信息隐藏暨多媒体信息安全学术大会 . 2015
7. 基于网页分块的Web信息抽取的研究与应用 [A] . 庞秋奔 . 2009

基于分块的新闻网页信息抽取算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅