首页> 中文学位 >基于多特征挖掘的网页信息抽取方法研究
【6h】

基于多特征挖掘的网页信息抽取方法研究

代理获取

目录

第一个书签之前

摘 要

Abstract

第1章 绪 论

1.1 研究背景和意义

1.2 国内外相关研究和综述

1.3 问题的总结与分析

1.4 本文主要工作

1.5 本文组织结构

第2章 网页信息抽取的相关基础知识

2.1 CSS DOM树

2.2 文本统计和视觉信息特征

2.2.1 文本统计特征

2.2.2 视觉信息特征

2.3 网络爬虫

2.4 分类算法

2.4.1 逻辑回归算法

2.4.2 GBDT算法

2.4.3 Xgboost算法

2.4.4 随机森林算法

2.4.5 深度神经网络

2.5 交叉验证

2.6 网页正文信息抽取的评价标准

2.7 本章小结

第3章 基于多特征挖掘的CSS DOM节点分类

3.1 引言

3.2 传统启发式信息抽取算法和特征

3.2.1 基于文本统计特征的算法

3.2.2 基于文本统计和结构特征的算法

3.3 基于多特征挖掘的特征提取方法

3.4 NCMF算法模型介绍

3.4.1 自动标注数据

3.4.2 NCMF算法节点分类流程

3.5 节点分类实验结果与分析

3.5.1 节点分类实验环境

3.5.2 节点分类实验数据

3.5.3 节点分类评价指标

3.5.4 节点分类对比算法

3.5.5 节点分类实验结果与分析

3.6 本章小结

第4章 基于多特征挖掘的网页信息抽取

4.1 引言

4.2 CSS DOM节点选择算法

4.3 CEMF算法网页正文抽取流程

4.4 网页正文抽取实验结果与分析

4.4.1 网页正文抽取实验环境

4.4.2 网页正文抽取实验数据

4.4.3 网页正文抽取评价指标

4.4.4 网页正文抽取对比算法

4.4.5 网页正文抽取实验结果与分析

4.5 本章小结

第5章 基于多特征挖掘的信息抽取系统

5.1 引言

5.2 系统功能和环境

5.3 网页信息抽取系统设计

5.3.1总体设计

5.3.2详细设计

5.4 系统应用

5.5 本章小结

结 论

参考文献

哈尔滨工业大学学位论文原创性声明和使用权限

致 谢

展开▼

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号