首页> 美国卫生研究院文献>Data in Brief >Malicious and Benign Webpages Dataset
【2h】

Malicious and Benign Webpages Dataset

机译:恶意和良性网页数据集

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Web Security is a challenging task amidst ever rising threats on the Internet. With billions of websites active on Internet, and hackers evolving newer techniques to trap web users, machine learning offers promising techniques to detect malicious websites. The dataset described in this manuscript is meant for such machine learning based analysis of malicious and benign webpages. The data has been collected from Internet using a specialized focused web crawler named MalCrawler [1]. The dataset comprises of various extracted attributes, and also raw webpage content including JavaScript code. It supports both supervised and unsupervised learning. For supervised learning, class labels for malicious and benign webpages have been added to the dataset using the Google Safe Browsing API.1 The most relevant attributes within the scope have already been extracted and included in this dataset. However, the raw web content, including JavaScript code included in this dataset supports further attribute extraction, if so desired. Also, this raw content and code can be used as unstructured data input for text-based analytics. This dataset consists of data from approximately 1.5 million webpages, which makes it suitable for deep learning algorithms. This article also provides code snippets used for data extraction and its analysis.
机译:在互联网上的威胁上升,Web安全是一个具有挑战性的任务。在互联网上有数百班的网站,以及陷阱陷阱网络用户的黑客,机器学习提供了有希望的检测恶意网站的技术。本手稿中描述的数据集旨在获得基于机器学习的恶意和良性网页的分析。数据已经从Internet收集了使用名为MalcRawler [1]的专用聚焦的Web爬虫收集。数据集包括各种提取的属性,以及包括JavaScript代码的原始网页内容。它支持监督和无监督的学习。对于监督学习,使用Google安全浏览API1将恶意和良性网页的类标签添加到DataSet中.1范围内的最相关属性已被提取并包含在此数据集中。但是,如果需要,则在该数据集中包含的JavaScript代码包括在此数据集中的JavaScript代码支持进一步的属性提取。此外,该原始内容和代码可以用作基于文本的分析的非结构化数据输入。此数据集由来自大约150万个网页的数据组成,这使其适用于深度学习算法。本文还提供用于数据提取的代码片段及其分析。

著录项

  • 期刊名称 Data in Brief
  • 作者

    A.K. Singh;

  • 作者单位
  • 年(卷),期 2020(-1),-1
  • 年度 2020
  • 页码 -1
  • 总页数 11
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

    机译:Web安全;恶意网页;机器学习;深入学习;恶意JavaScript;

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号