首页> 中国专利> 一种基于云平台的网站信息采集系统

一种基于云平台的网站信息采集系统

摘要

本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,对云计算存储服务器中存储的网站数据进行管理。本发明通过代理服务器来对目标网站进行网站信息的获取,实现对所述网站中的数据的下载。用于实现任务管理模块的客户端并不会受到网站的反爬虫机制的影响,能够灵活地使用不同的代理服务器进行网站信息的采集,有效地提高了网站信息采集的成功率。

著录项

  • 公开/公告号CN113190737A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 上海慧洲信息技术有限公司;

    申请/专利号CN202110491388.X

  • 发明设计人 项超;

    申请日2021-05-06

  • 分类号G06F16/951(20190101);G06F21/31(20130101);G06F21/45(20130101);G06K9/00(20060101);G06K9/40(20060101);G06K9/46(20060101);G06T5/00(20060101);G06T7/12(20170101);G06T7/136(20170101);G06T7/194(20170101);G06T7/90(20170101);

  • 代理机构11530 北京高航知识产权代理有限公司;

  • 代理人乔浩刚

  • 地址 200120 上海市浦东新区上丰路977号1幢一层

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本发明涉及信息采集领域,尤其涉及一种基于云平台的网站信息采集系统。

背景技术

现有技术中,对网站信息的获取一般通过爬虫技术来实现。然而,为了防止爬虫的访问连接占用正常的访问带宽,很多网站都设置了反爬虫机制,如果采用单一的客户端来爬取网站的信息,容易被反爬虫机制识别,从而导致对网站的信息采集失败。

发明内容

鉴于上述问题,本发明的目的在于提供一种基于云平台的网站信息采集系统。

本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;

所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;

所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;

所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。

优选地,所述任务管理模块包括权限控制单元和任务管理单元;

所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;

所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。

优选地,所述任务管理单元还用于对已存在的网站信息采集任务进行管理,具体包括:

删除已存在的网站信息采集任务、对已存在的网站信息采集任务进行修改。

优选地,所述网站信息采集任务包括需要进行信息采集的网站的网址、需要进行信息采集的网站的登录信息和使用所述代理服务器的身份验证公钥进行加密的身份验证信息。

优选地,所述代理服务器在对所述网站信息采集任务进行处理,生成爬虫任务之前,还包括:

使用所述身份验证公钥对应的身份验证私钥对所述身份验证信息进行解密,获取身份验证识别码;

将所述身份验证信息中包含的身份验证识别码与所述代理服务器预存的身份验证识别码进行对比,判断两者是否一致,若是,则对所述网站信息采集任务进行处理,生成爬虫任务,若否,则不对所述网站信息采集任务进行处理。

优选地,所述基于所述网站信息采集任务生成爬虫任务,包括:

使用所述代理服务器对所述网址进行访问,下载所述网址对应的网页数据;

判断所述网页数据中是否存统一资源定位符,若是,则分别获取每一个所述统一资源定位符对应的网址,基于所述网址生成爬虫任务。

优选地,所述爬虫任务包括所述统一资源定位符对应的网址和对所述统一资源定位符对应的网址进行数据下载的时间间隔。

优选地,所述数据管理模块包括设置在云计算服务器上的数据管理单元和存储单元;

所述数据管理单元用于将所述网站数据存发送至所述存储单元;

所述存储单元用于对所述网站数据进行存储。

与现有技术相比,本发明的优点在于:

本发明通过代理服务器来对目标网站进行网站信息的获取,实现对所述网站中的数据的下载。由于使用的是代理的方式,本申请用于实现任务管理模块的客户端并不会受到网站的反爬虫机制的影响,能够灵活地使用不同的代理服务器进行网站信息的采集,有效地提高了网站信息采集的成功率。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。

图1,为本发明一种基于云平台的网站信息采集系统的一种示例性实施例图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

如图1所示的一种实施例,本发明提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;

所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;

所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;

所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。

对网站信息采集任务的管理和网站信息采集任务的管理的执行分开,有利于灵活地选用不同的代理服务器来执行网站信息采集任务,避免单一的客户端被反爬虫机制识别后影响网页下载的效率。

在一种实施方式中,所述任务管理模块包括权限控制单元和任务管理单元;

所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;

所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。

在一种实施方式中,所述任务管理模块包括输入单元和判断单元;

所述输入单元用于所述人员输入所述任务管理单元的使用账号和使用密码;

所述判断单元用于判断所述使用账号和所述使用密码是否正确,若是,则判定所述人员具有使用所述任务管理单元的权限;若否,则判定所述人员不具有使用所述任务管理单元的权限。

在另一种实施方式中,所述任务管理模块包括拍摄单元、图像处理单元和权限判断单元;

所述拍摄单元用于获取所述人员的脸部图像;

所述图像处理单元用于对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息;

所述权限判断单元用于将所述图像处理单元获取的特征信息与任务管理模块中预存的所有具有使用所述任务管理单元的权限的人员的脸部图像的特征信息进行匹配,若匹配成功,则判定所述人员具有使用所述任务管理单元的权限;若匹配失败,则判定所述人员不具有使用所述任务管理单元的权限。

在一种实施方式中,所述对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息,包括:

对所述脸部图像进行灰度化处理,获得灰度化图像;

对所述脸部图像进行差异度计算,获得差异图像;

对所述灰度化图像进行边缘检测,获得边缘图像;

对所述灰度化图像进行降噪处理,获得降噪图像;

对所述降噪图像进行图像分割处理,获取前景图像;

基于所述差异图像、所述前景图像和所述边缘图像生成目标图像;

采用预设的特征信息采集算法获取所述目标图像中包含的特征信息。

本发明上述实施例,通过差异图像、前景图像和边缘图像生成目标图像,然后再提取目标图像中包含的特征信息,极大地提升了特征信息的准确性。现有技术中,一般是对灰度图像进行降噪后,直接提取降噪图像的特征信息。但是由于降噪是一个使得图像中的有效信息减少的过程,因此,获得的特征信息并不够准确。而本申请是对目标图像进行特征信息的提取,能够有效地获得准确的特征信息。差异图像中包含的像素点之间的差异信息、边缘图像中包含的边缘信息、前景信息能够在目标图像中进行体现,从而实现对降噪图像中损失的特征信息的回补。

在一种实施方式中,所述对所述脸部图像进行差异度计算,获得差异图像,包括:

将所述脸部图像转换到Lab颜色空间,获取所述脸部图像在所述Lab颜色空间中对应的L分量图像、a分量图像和b分量图像;

分别获取所述脸部图像中每个像素点的差异度参数:

式中,表示csn(nod)表示所述脸部图像中的像素点nod的差异度参数,nodU表示nod的d×d大小的邻域中的所有像素点的集合,nodu表示nodU中的元素,w

获取所述L分量图像中的像素值的中值对应的像素点,将所述像素点记为mxn;

通过下述方式获取差异图像:

将所述L分量图像中的像素点存入集合dlU

式中,xc(dlu)表示dlu在差异图像中的像素值,csn(dlu)和csn(mxn)分别表示dlu和mxn的差异度参数,L(mxn)表示mxn在L分量图像中的像素值;

分别计算dlU

本发明上述实施方式,在获取差异图像时,先将脸部图像转换到Lab颜色空间中,然后基于Lab颜色空间中的三个变量计算每个像素点的差异度参数,然后从L分量图像中像选取一个像素点作为基准像素点,为不同的像素点计算其在差异图像中的像素值,有利于在避免光照影响的同时综合获取像素点之间的差异信息。差异度参数在计算时与邻域像素点相关,通过邻域像素点与当前进行计算的像素点在三种分量上的差异的加权值来获得差异度参数,有利于差异度参数充分反映当前进行计算的像素点与邻域像素点之间的差异。而在基准像素点的选择上,选取了L分量图像中的像素值的中值对应的像素点作为基准像素点在,这种设置方式,有利于避免错误地将噪点的像素值作为基准像素值,有利于获得准确的差异图像。

在一种实施方式中,所述对所述灰度化图像进行边缘检测,获得边缘图像,包括:

使用sobel边缘检测算法对所述灰度化图像进行边缘检测,获得边缘图像。

在一种实施方式中,所述对所述灰度化图像进行降噪处理,获得降噪图像,包括:

对所述灰度化图像进行小波分解处理,获得小波高频系数和小波低频系数;

对所述小波高频系数中的像素点进行下述处理:

式中,tsl(p)表示所述小波高频系数中的位置p对应的像素点的像素值,btsl(p)表示对tsl(p)进行上述处理的结果;vb和vc表示预设的处理阈值,sh表示判断运算,若tsl(p)大于预设的阈值tp,则sh[tsl(p)]的值为1.2,若tsl(p)小于等于预设的阈值tp,则sh[tsl(p)]的值为1.05,

对所述小波高频系数中的所有像素点进行上述处理,获得第一处理系数;

对所述小波低频系数中的像素点进行下述处理:

式中,tllU

式中,ntllU

对所述小波低频系数中的所有像素点进行上述处理,获得第二处理系数;

将第一处理系数和第二处理系数进行小波重构,获得降噪图像。

本发明上述实施例,在进行降噪处理时,采用的是将灰度图像分解为小波高频系数和小波低频系数的方式,然后再分别对小波高频系数和小波低频系数进行处理,将处理后的小波高频系数和小波低频系数进行重构,获得降噪图像。有利于在保持图像的边缘信息等特征信息的同时,实现对准确的降噪处理。现有技术中,例如采用高斯函数进行降噪时,会造成像素点模糊,像素点之间的差异变小,从而使得细节信息丢失。而本申请则是能够很好地避免这个问题。在对小波高频系数进行处理时,本申请采用的是改进的处理函数,通过处理阈值与当前处理的像素点的像素值之间的关系,为当前处理的像素点自适应地选取不同的处理函数进行处理,有利于提高对小波高频系数进行处理的准确性。另外,本申请还对小波低频系数进行了处理,在处理时,通过低频小波系数中的像素点与其邻域的像素点在直线距离和像素值上的差异,为低频小波系数中当前进行处理的像素点提供了准确的处理结果。从而有效地提高了降噪的准确性,进而提升本发明的采集系统的安全性。

在一种实施方式中,所述对所述降噪图像进行图像分割处理,获取前景图像,包括:

使用otsu算法对所述降噪图像进行图像分割处理,获的所有前景像素点的集合frU

使用下述方式对frU

对于frU

所述下一步判断包括:

获取处于以fru为圆心,半径为sr的圆形范围内的所有像素点的集合frU

判断frU

判断

对frU

将frU

本发明上述实施例,在获取前景图像时,先通过ostu算法获得前景像素点,然后再对前景像素点进行筛选,将筛选后得到的像素点组成前景图像。与现有技术相比,本申请并不是直接由前景像素点组成前景图像,有利于提高前景图像获取的准确性。因为采用otsu算法进行图像分割时,除了脸部皮肤像素点之外,背景中的部分像素点由于像素是比较接近,因而可能会被错误地归入到前景像素点中,这样的话,后续获得的目标图像中便包含了错误的信息,不利于对人脸进行准确识别。因此,本申请先通过距离来对前景像素点进行判断,若距离基准像素点过远,显然并不属于脸部皮肤像素点,因此,可以将这种像素点进行删除。而若距离符合要求,但是由于人脸并不是一个圆形,因此,距离满足也有可能不属于脸部皮肤像素点,因此本申请通过获取fru的圆形领域中的像素点中皮肤像素点的比例来判断其是否属于脸部皮肤像素点,进而能够准确地在背景图像中选出脸部皮肤区域的像素点,组成前景图像。从而提升本发明的前景图像的准确性。

优选地,所述基准像素点为降噪图像中距离脸部皮肤像素点的平均坐标最近的像素点。

在一种实施方式中,所述基于所述差异图像、所述前景图像和所述边缘图像生成目标图像,包括:

对于前景图像中的像素点rn,通过下述方式计算rn在目标图像中的像素值:

aimp(rn)=α×cs

式中,aimp(rn)表示rn在所述目标图像中的像素值,cs

进行身份验证能够避免无权限的人员对网站信息采集任务进行修改,增强本发明的安全性。

在一种实施方式中,所述任务管理单元还用于对已存在的网站信息采集任务进行管理,具体包括:

删除已存在的网站信息采集任务、对已存在的网站信息采集任务进行修改。

在一种实施方式中,所述网站信息采集任务包括需要进行信息采集的网站的网址、需要进行信息采集的网站的登录信息和使用所述代理服务器的身份验证公钥进行加密的身份验证信息。

在一种实施方式中,所述代理服务器在对所述网站信息采集任务进行处理,生成爬虫任务之前,还包括:

使用所述身份验证公钥对应的身份验证私钥对所述身份验证信息进行解密,获取身份验证识别码;

将所述身份验证信息中包含的身份验证识别码与所述代理服务器预存的身份验证识别码进行对比,判断两者是否一致,若是,则对所述网站信息采集任务进行处理,生成爬虫任务,若否,则不对所述网站信息采集任务进行处理。

身份验证公钥和身份验证私钥是互相匹配的关系,可以采用RSA算法、Elgamal算法等算法生成。基于网站信息采集任务进行身份验证,能够避免代理服务器被攻击,进行无用的爬虫任务,从而影响正常的爬虫的任务的执行。从而有效地增强了本发明的安全性。

在一种实施方式中,所述基于所述网站信息采集任务生成爬虫任务,包括:

使用所述代理服务器对所述网址进行访问,下载所述网址对应的网页数据;

判断所述网页数据中是否存统一资源定位符,若是,则分别获取每一个所述统一资源定位符对应的网址,基于所述网址生成爬虫任务。

在一种实施方式中,所述爬虫任务包括所述统一资源定位符对应的网址和对所述统一资源定位符对应的网址进行数据下载的时间间隔。

时间间隔的设置主要是为了避免过于频繁地访问所述网址,从而被反爬虫机制识别出来,影响爬虫任务的执行,同时也能够避免占用所述网址所对应的服务器的正常访问带宽,影响所述网址的正常访问。

在一种实施方式中,所述数据管理模块包括设置在云计算服务器上的数据管理单元和存储单元;

所述数据管理单元用于将所述网站数据存发送至所述存储单元;

所述存储单元用于对所述网站数据进行存储。

在另一种实施方式中,所述数据管理模块包括设置在云计算服务器上的数据清洗单元、数据管理单元和存储单元;

所述数据清洗单元用于对所述代理服务模块获取的网站数据进行数据清洗,获得清洗后的网站数据;

所述数据管理单元用于将所述清洗后的网站数据存发送至所述存储单元;

所述存储单元用于对所述清洗后的网站数据进行存储。

尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号