首页> 中文学位 >基于多特征挖掘的网页信息抽取方法研究

【6h】

基于多特征挖掘的网页信息抽取方法研究

代理获取

页面导航

目录
著录项
相似文献
相关主题

目录

第一个书签之前

摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.2 国内外相关研究和综述

1.3 问题的总结与分析

1.4 本文主要工作

1.5 本文组织结构

第2章网页信息抽取的相关基础知识

2.1 CSS DOM树

2.2 文本统计和视觉信息特征

2.2.1 文本统计特征

2.2.2 视觉信息特征

2.3 网络爬虫

2.4 分类算法

2.4.1 逻辑回归算法

2.4.2 GBDT算法

2.4.3 Xgboost算法

2.4.4 随机森林算法

2.4.5 深度神经网络

2.5 交叉验证

2.6 网页正文信息抽取的评价标准

2.7 本章小结

第3章基于多特征挖掘的CSS DOM节点分类

3.1 引言

3.2 传统启发式信息抽取算法和特征

3.2.1 基于文本统计特征的算法

3.2.2 基于文本统计和结构特征的算法

3.3 基于多特征挖掘的特征提取方法

3.4 NCMF算法模型介绍

3.4.1 自动标注数据

3.4.2 NCMF算法节点分类流程

3.5 节点分类实验结果与分析

3.5.1 节点分类实验环境

3.5.2 节点分类实验数据

3.5.3 节点分类评价指标

3.5.4 节点分类对比算法

3.5.5 节点分类实验结果与分析

3.6 本章小结

第4章基于多特征挖掘的网页信息抽取

4.1 引言

4.2 CSS DOM节点选择算法

4.3 CEMF算法网页正文抽取流程

4.4 网页正文抽取实验结果与分析

4.4.1 网页正文抽取实验环境

4.4.2 网页正文抽取实验数据

4.4.3 网页正文抽取评价指标

4.4.4 网页正文抽取对比算法

4.4.5 网页正文抽取实验结果与分析

4.5 本章小结

第5章基于多特征挖掘的信息抽取系统

5.1 引言

5.2 系统功能和环境

5.3 网页信息抽取系统设计

5.3.1总体设计

5.3.2详细设计

5.4 系统应用

5.5 本章小结

结论

参考文献

哈尔滨工业大学学位论文原创性声明和使用权限

致谢

展开▼

著录项

作者
高兆远;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名叶允明;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;遥感技术;
关键词
特征挖掘; 网页信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于多特征融合的网页正文信息抽取 [J] . 刘利 ,戴齐 ,尹红风 . 计算机应用与软件 . 2014,第007期
2. 基于卷积神经网络的网页信息资源定向抽取方法研究 [J] . 周沭玲 . 齐齐哈尔大学学报（自然科学版） . 2021,第004期
3. 基于视觉特征的网页信息抽取方法研究 [J] . 王宪发 ,郭岩 ,刘悦 . 中文信息学报 . 2019,第005期
4. 一种基于网页信息抽取的OA期刊资源采集方法研究 [J] . 黄政 ,张学福 . 数字图书馆论坛 . 2017,第005期
5. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于多特征的网页信息抽取技术的研究与应用 [A] . 陈屹 . 2015

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号