首页> 中文学位 >深网查询接口判定技术的研究
【6h】

深网查询接口判定技术的研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1深网简介

1.1.1深网的概念

1.1.2深网的价值

1.2深网信息搜索方法

1.3选题方向及其意义

1.4论文的主要研究内容和步骤

1.5论文的结构

第2章特征解析及分类算法

2.1 HTML接口表单

2.1.1 HTML表单标签

2.1.2 HTML表单常用控件

2.2 DOM文档对象模型

2.2.1 DOM表示的HTML文档

2.2.2 DOM对HTML文档的操作

2.3分类算法

2.3.1决策树分类算法

2.3.2支持向量机

2.3.3朴素贝叶斯

2.3.4 k-近邻算法

2.3.5机器学习工具WEKA简介

2.4本章小结

第3章深网查询接口研究和识别

3.1深网信息查询的一般流程

3.2深网查询接口研究

3.2.1深网表单

3.2.2深网表单特征提取

3.3深网查询接口识别技术

3.3.1数据集的准备

3.3.2数据集的预处理

3.3.3分类模型生成

3.3.4分类准确性估计和性能度量

3.4本章小结

第4章深网查询接口识别实验

4.1实验数据收集和处理

4.2实验结果

4.2.1决策树C4.5算法实验

4.2.2支持向量机实验

4.2.3朴素贝叶斯分类器实验

4.2.4 k-近邻算法实验

4.3实验分析

第5章结论和未来工作

5.1结论

5.2未来工作

参考文献

致 谢

攻读硕士学位期间的论文和参加的项目

展开▼

摘要

深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无法获取在线数据库中的信息,导致大量高价值和权威信息变成“不可见”的深网信息。由于查询接口是进入深网后台数据库的唯一入口,用户只能通过向查询接口提交查询来获取深网信息,所以对查询接口的正确判断和识别将是获取深网信息的关键所在。 围绕着深网查询接口的识别和判断,本文做了以下主要研究工作: 首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网的概念、价值,以及深网信息的搜索方法等,并提出了本文的研究问题和方向; 其次,搜集不同领域的各种表单,对其特征进行DOM解析和提取,并将提取出来的特征保存到数据库中; 再次,对原始数据集做预处理操作,包括去除冗余和噪声,属性选择,格式变换,离散化处理等; 最后,运用几种典型的分类算法对数据集进行分类和预测,包括决策树C4.5分类算法、支持向量机SVM、k—近邻算法和朴素贝叶斯分类器,在分类和预测过程中,选择了随机取样中的保持法和十折交叉验证法,通过实验结果的分析和比较,选出精确度最高的算法作为判断和识别深网查询接口的算法。 在本文结论中,提出了针对深网查询接口所要做的进一步研究工作。 对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断深入,深网研究必将取得更大的突破和收获。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号