首页> 中文学位 >大规模Web信息抽取与文本分类研究
【6h】

大规模Web信息抽取与文本分类研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

专用术语注释表

第一章 绪论

1.1研究背景

1.2研究现状

1.3研究内容与组织结构

第二章 相关背景知识介绍

2.1 Web信息抽取涉及的理论与方法

2.2 Web文本分类涉及的理论与方法

2.3本章小结

第三章 大规模Web信息的抽取方法

3.1研究思路

3.2大规模Web信息的抽取过程

3.3实验结果与分析

3.4本章小结

第四章 大规模Web文本的分类

4.1研究思路

4.2大规模Web文本的分类过程

4.3实验结果与分析

4.4本章小结

第五章 Web信息抽取与文本分类系统设计

5.1背景与系统简介

5.2 Web信息抽取系统详细设计

5.3 Web文本分类系统详细设计

5.4本章小结

第六章 总结与展望

6.1工作总结

6.2研究展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

随着互联网技术的迅速普及,Web平台已经发展成为一个巨大的信息共享空间,如何高效的从此平台中抽取信息已经成为一个亟待解决的问题;与此同时,在这些信息中文本类信息占据着极其重要的地位,而Web文本信息的结构特点与内容特点给传统的文本分类方法带来了新的挑战。针对以上情况,本文对大规模数据环境下的Web信息抽取以及Web文本分类进行了研究,主要工作如下:
  首先,从Web信息抽取角度出发,提出一种基于DOM树节点属性与视觉特征的大规模Web信息抽取方法。该方法主要包含以下三个模块:(1)提出剪枝与融合方法,对Web页面对应的DOM树进行简化操作;(2)定义DOM树节点的密度属性和内容块的视觉特征,根据属性值与特征值对Web页面内容进行抽取;(3)引入MapReduce计算框架,对上述方法进行并行化处理,实现大规模Web信息的抽取。实验结果表明该方法是高效且可行的。
  其次,从Web文本分类角度出发,提出一种面向大规模文本类Web信息的分类方法。该方法主要包含以下三个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,网络中的边对应于词条之间的关联,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于 kNN的SVM决策树分类方法;(3)对于Web短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的一次检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。
  最后,基于上述的理论和方法,本文构建了面向大规模Web信息抽取与文本类Web信息的分类系统,分别从相关背景、系统结构以及各子模块展开详细的描述,包括需求分析、概要设计、详细设计及其实现流程,实验结果表明该系统具备较高的稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号