首页> 中国专利> 一种在互联网中管理IDC资源的方法和运营商网络

一种在互联网中管理IDC资源的方法和运营商网络

摘要

本发明实施例提供一种在互联网中管理IDC资源的方法和运营商网络,生成爬取任务,所述爬取任务记载了在当前的运营商网络内需要获取的IDC资源,执行所述爬取任务,在至少一个网站中遍历以识别出相应类别的IDC资源,提取所述IDC资源的标示信息,将所述IDC资源和标示信息发送给互联网数据中心,分析所述IDC资源和标示信息后生成分析报告,分析报告中记载IDC资源的真实存放位置。获取IDC资源及其标示信息,根据标示信息识别IDC资源的真实存放位置,掌握IDC资源的准确分布,并为后续引入IDC资源提供了依据。

著录项

  • 公开/公告号CN104038471A

    专利类型发明专利

  • 公开/公告日2014-09-10

    原文格式PDF

  • 申请/专利权人 中国移动通信集团浙江有限公司;

    申请/专利号CN201310074225.7

  • 申请日2013-03-08

  • 分类号H04L29/06;H04L29/08;G06F17/30;

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人许静

  • 地址 310006 浙江省杭州市环城北路288号

  • 入库时间 2023-12-17 02:04:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-08-11

    授权

    授权

  • 2014-10-15

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20130308

    实质审查的生效

  • 2014-09-10

    公开

    公开

说明书

技术领域

本发明涉及互联网技术,特别是指一种在互联网中管理IDC资源的方法 和运营商网络。

背景技术

互联网中,资源引入一般有IDC(Internet Data Center,互联网数据中心) 引入和缓存两种手段。通过引入IDC资源保证用户尽可能访问运营商网络内 资源,减少去往其他运营商的互联互通流量。

包括域名(泛域名、子域名)和视频资源等在内的IDC资源都需要由网络内 容服务商(ICP,Internet Content Provider)提供,但无法保证ICP提供的IDC资 源的正确性,也无法核实缓存系统中的资源是否与IDC中的IDC资源相同。

现有技术存在如下问题:ICP提供的IDC资源不具备可控性和科学性,且 IDC中网站的具体内容变化频繁,因此也不具备实时性。运营商需要时常联系 ICP以核实IDC资源,降低了工作效率;其次,因为无法精确获得已引入运营 商网络内的IDC资源,运营商的导航网站无法引导用户行为,其推荐的具体 内容往往并不在运营商网络内,影响了用户感知和运营商的引导效果;ICP提 供IDC资源的正确性较差,导致缓存系统重复缓存了相同的资源,降低了缓 存的工作效能,也增加了流量结算的成本;无法快速获取分片段放置的影片中 每片的信息;运营商无法及时发现和纠错ICP调度错误。

发明内容

本发明要解决的技术问题是提供一种在互联网中管理IDC资源的方法和 运营商网络,解决现有技术中,由于无法精确获得已引入运营商网络内的资源, 导致运营商间的互联互通频繁及缓存结算成本高昂的缺陷。

为解决上述技术问题,本发明的实施例提供一种在互联网中管理IDC资 源的方法,方法包括:生成爬取任务,所述爬取任务记载了在当前的运营商网 络内需要获取的IDC资源,执行所述爬取任务,在至少一个网站中遍历以识 别出相应类别的IDC资源,提取所述IDC资源的标示信息,将所述IDC资源 和标示信息发送给互联网数据中心,分析所述IDC资源和标示信息后生成分 析报告,分析报告中记载IDC资源的真实存放位置。

所述的方法中,在至少一个网站中遍历以识别出相应类别的IDC资源, 提取所述IDC资源的标示信息具体包括:当IDC资源是视频资源时,在一个 视频资源网站上遍历并获取所有网页的URL,将视频资源所在的网页的URL 作为所述标示信息的一部分;以及,将视频资源的名称和分集数目作为所述标 示信息的一部分。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告,分析报 告中记载IDC资源的真实存放位置具体包括:当IDC资源是视频资源时,由 内容识别服务器模拟运行视频资源所在的网页中的播放插件,得到所述视频资 源的真实URL并根据该真实URL得到放置所述视频资源的服务器IP地址作 为所述真实存放位置。

所述的方法中,提取所述IDC资源的标示信息还包括:当视频资源是分 片式视频资源时,监控网页中的播放插件与视频调度服务器之间的交互过程, 得到播放每一片的播放清单,采用Http head请求根据播放清单向由内容识别 服务器获取当前一片的真实URL并根据该真实URL得到放置所述视频资源的 服务器IP地址作为所述真实存放位置之后,模拟运行网页中的快进插件到下 一片。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告,分析报 告中记载IDC资源的真实存放位置包括:向内容识别服务器获取每一片的真 实URL,以及计算每一片在互联网数据中心的分布情况,根据所述真实URL 和分布情况生成所述分析报告。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告之后还包 括:结合深度包检测(DPI,Deep Packet Inspection)中的日志以及所述IDC资源 的分布情况,获取不同分布的IDC资源受到的关注程度。

所述的方法中,在至少一个网站上遍历网页识别出相应类别的IDC资源, 以及提取所述IDC资源的标示信息具体包括:当IDC资源是域名时,根据入 口域名进行爬取,发现有新域名时解析该新域名并记录在标示信息中。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告之后还包 括:对子域名进行归并分析得到泛域名,根据泛域名得到IDC资源的目录清 单作为所述分析报告的一部分。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告之后还包 括:进行调度纠错,其中,获得IDC资源的真实URL,当其中的ip地址为网 外地址ipx时,使用运营商网络内IDC资源所在网站所属的ip地址逐个替换 网外地址ipx,替换之后,若能够通过Http head请求获得所述IDC资源,表 明存在关于该IDC资源的调度错误,与ICP协调纠正该调度错误。

所述的方法中,分析所述IDC资源和标示信息后生成分析报告之后还包 括:进行引入评估,其中,当IDC资源是域名时,利用网站引入深度进行评 价;引入深度定义为:已引入运营商网络内该网站子域名/网站所有子域名数; 当IDC资源是视频资源时,采用文件大小运营商网络内占比和文件数量运营 商网络内占比进行评价;其中,文件大小运营商网络内占比定义为:已引入运 营商网络内视频资源文件大小/网站所有视频资源大小;文件数量运营商网络 内占比定义为:已引入运营商网络内视频资源数量/网站所有视频资源数量。

一种运营商网络,包括:爬虫控制装置、爬虫装置、互联网数据中心和行 为内容分析网元;爬虫控制装置,用于生成爬取任务,所述爬取任务记载了在 当前的运营商网络内需要获取的IDC资源,爬虫装置,用于执行爬取任务, 在至少一个网站中遍历以识别出相应类别的IDC资源,以及提取所述IDC资 源的标示信息,互联网数据中心,用于接收所述IDC资源和标示信息,传输 给行为内容分析网元;行为内容分析网元,用于分析所述IDC资源和标示信 息后生成分析报告,分析报告中记载IDC资源的真实存放位置。

所述的运营商网络中,行为内容分析网元包括:视频资源分析单元,用于 结合DPI中的日志以及所述IDC资源的分布情况,获取不同分布的IDC资源 受到的关注程度,IDC资源是视频资源;域名分析单元,用于对子域名进行归 并分析得到泛域名,根据泛域名得到IDC资源的目录清单作为所述分析报告 的一部分,IDC资源是域名。

所述的运营商网络中,还包括:内容识别服务器,用于当IDC资源是视 频资源时,模拟运行视频资源所在的网页中的播放插件,得到所述视频资源的 真实URL并根据该真实URL得到放置所述视频资源的服务器IP地址作为所 述真实存放位置;当视频资源是分片式视频资源时,监控网页中的播放插件与 视频调度服务器之间的交互过程,得到播放每一片的播放清单,采用Http head 请求根据播放清单向由内容识别服务器获取当前一片的真实URL并根据该真 实URL得到放置所述视频资源的服务器IP地址作为所述真实存放位置之后, 模拟运行网页中的快进插件到下一片;所述互联网数据中心,还用于计算每一 片在互联网数据中心的分布情况,根据所述真实URL和分布情况生成所述分 析报告。

本发明的上述技术方案的有益效果如下:获取IDC资源及其标示信息, 根据标示信息识别IDC资源的真实存放位置,掌握IDC资源的准确分布,并 为后续引入IDC资源提供了依据。

附图说明

图1表示一种在互联网中管理IDC资源的方法流程示意图;

图2表示互联网的组织结构示意图;

图3表示获取及分析IDC资源的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附 图及具体实施例进行详细描述。

本发明中涉及的互联网,如图2所示,包括:DNS服务器(Domain Name  System),互联网数据中心IDC和缓存系统。IDC资源引入到IDC后,DNS服 务器解析用户的访问,ICP通过DNS服务器反馈相应运营商IDC机房内IDC 资源的地址,引导用户去往IDC访问;缓存系统则是缓存没有引入IDC的热 点资源,以及通过分光截取、DNS重定向等方式引导用户访问缓存系统。

本发明实施例提供一种在互联网中管理IDC资源的方法,如图1所示, 包括:

步骤101,生成爬取任务,所述爬取任务记载了在当前的运营商网络内需 要获取的IDC资源,

步骤102,执行所述爬取任务,在至少一个网站中遍历以识别出相应类别 的IDC资源,提取所述IDC资源的标示信息,

步骤103,将所述IDC资源和标示信息发送给互联网数据中心,分析所述 IDC资源和标示信息后生成分析报告,分析报告中记载IDC资源的真实存放 位置。

应用所提供的技术,获取IDC资源及其标示信息,根据标示信息识别IDC 资源的真实存放位置(真实URL,Uniform Resource Locator),掌握IDC资源的 准确分布,并为后续引入IDC资源提供了依据。

在一个优选实施例中,由行为内容分析网元分析所述IDC资源和标示信 息以得到分析报告,具体包括:

由行为内容分析网元结合DPI中的日志分析所述IDC资源的分布情况, 以及受到的关注程度作为所述分析报告的一部分。

IDC资源可以是视频资源或者是域名。当IDC资源是视频资源时,

在一个优选实施例中,在至少一个网站中遍历以识别出相应类别的IDC 资源,提取所述IDC资源的标示信息具体包括:

当IDC资源是视频资源时,在一个视频资源网站上遍历并获取所有网页 的URL,将视频资源所在的网页的URL作为所述标示信息的一部分;

以及,将视频资源的名称和分集数目作为所述标示信息的一部分。

IDC资源是视频资源,将视频资源和标示信息返回互联网数据中心之后, 由内容识别服务器与视频调度服务器通过交互得到视频资源的真实URL。

因此在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报 告具体包括:

当IDC资源是视频资源时,由内容识别服务器模拟运行视频资源所在的 网页中的播放插件,得到所述视频资源的真实URL并分析得到其所放置的服 务器IP地址作为所述真实存放位置。

插件是运行在客户端浏览器上的一个程序,通常是一个FLASH程序,视 频网站的播放插件一般是FLASH播放器。页面插件动态运行技术,就是模拟 运行这些插件,并可以对插件的行为进行监控和判断。

在一个优选实施例中,提取所述IDC资源的标示信息还包括:

当视频资源是分片式视频资源时,监控网页中的播放插件与视频调度服务 器之间的交互过程,得到播放每一片的播放清单,

采用Http head请求根据播放清单向由内容识别服务器获取当前一片的真 实URL并分析得到其所放置的服务器IP地址作为所述真实存放位置之后,模 拟运行网页中的快进插件到下一片。

模拟FLASH播放器的播放,监控客户端浏览器-具体是播放插件与视频调 度服务器之间的交互,得到分片的播放清单。

在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报告包 括:

向内容识别服务器获取每一片的真实URL,以及计算每一片在互联网数 据中心的分布情况,根据所述真实URL和分布情况生成所述分析报告。

对于分片式视频资源,采用分片识别技术,得到插件播放视频时需要的播 放清单,利用Http head请求获取并分析视频资源的第一片后,模拟运行网页 中的插件快进到下一片,通过Http head请求识别每一片视频资源的真实URL; IDC向内容识别网元查询每一片视频资源的真实URL地址,以及计算每一片 视频资源在IDC中的分布情况。

在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报告之 后还包括:

结合DPI中的日志以及所述IDC资源的分布情况,获取不同分布的IDC 资源受到的关注程度。

在一个应用场景中,如图3所示,获取及分析视频资源包括:

步骤1,爬虫控制装置向爬虫下发爬取任务,爬取任务记载了在确定的互 联网资源范围内遍历网页,识别出视频资源,以及提取视频资源的标示信息,

确定的互联网资源范围通常是指至少一个视频网站。

步骤2,爬虫爬取至少一个视频网站,遍历视频网站中所有的网页,获取 视频资源的URL地址,URL地址标识了视频资源的播放页,提取各个视频资 源的标示信息,比如片名,集数等。

步骤3,爬虫将播放页和标示信息返回给IDC,由IDC进行存储和管理。

步骤4,内容识别服务器采用页面插件动态运行技术,模拟运行网页中的 插件以与视频调度服务器进行交互,得到视频资源的真实URL。

对于分片式视频资源,采用分片识别技术,得到插件播放视频时需要的播 放清单;利用Http head请求获取并分析视频资源的第一片后,模拟运行网页 中的插件快进到下一片,通过Http head请求识别每一片视频资源的真实URL;

IDC向内容识别网元查询每一片视频资源的真实URL地址,以及计算每 一片视频资源在IDC中的分布情况。

步骤5,IDC向行为内容分析网元上报视频资源的分布及标示信息,行为 内容分析网元结合DPI的日志综合分析视频资源的分布及标示信息。

在内容展示平台上显示视频资源的分布情况以及受到的关注程度。

步骤6,行为内容分析网元可以将非IDC的热点信息输出给缓存系统, 及时进行缓存。

获取互联网数据中心内容的目录,识别IDC资源的真实存放位置,对IDC 资源视图化,获取IDC资源的真实来源,监测IDC资源的建设质量,并为后 续引入IDC资源提供依据。

在一个优选实施例中,在至少一个网站上遍历网页识别出相应类别的IDC 资源,以及提取所述IDC资源的标示信息具体包括:

当IDC资源是域名时,根据一些入口域名进行爬取,发现有新的域名时 解析该域名并记录在标示信息中。

爬虫需要一个起始的入口URL,然后通过入口URL的网页中的其它链接 再次爬取更深层次的URL,这是一个广度遍历的过程,入口一般会选择链接 比较丰富的URL。

在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报告之 后还包括:

对子域名进行归并分析得到泛域名,根据泛域名得到IDC资源的目录清 单作为所述分析报告的一部分。

在一个应用场景中,如图3所示,获取及分析域名包括:

步骤1,爬虫控制装置下发获取域名的爬取任务给各个爬虫装置。

步骤2,爬虫装置根据一些入口域名进行爬取,如果发现有新的域名,则 进行地址解析,并记录入库。

步骤3,行为内容分析网元对子域名进行归并分析。

步骤4,内容展示平台上显示子域名及主域名的IP地址,及统计IP地址 是否在IDC中。

在如图2所示的网络中,将IDC资源和标示信息返回互联网数据中心, 由行为内容分析网元分析IDC资源和标示信息以得到分析报告,以及管理IDC 资源并进行应用,包括:

行为引导,与运营商的导航网站或者主动推送页面链接,从分析报告中摘 取部分或者全部的所述IDC资源对应的目录清单发送给所述导航网站或者主 动推送页面。

在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报告之 后还包括:

进行调度纠错,其中,获得IDC资源的真实URL具体为url://ip/*.flv,当 其中的ip地址为网外地址ipx时,使用运营商网络内IDC资源所在网站所属 的ip地址逐个替换网外地址ipx,

替换之后,若能够通过Http head请求获得所述IDC资源,表明存在关于 该IDC资源的调度错误,与ICP协调纠正该调度错误。

运营商的IP地址段为网内,其他IP地址段则为网外。如果网内有IDC资 源,应该将用户请求调度到网内,用户的体验会更好。通过爬虫对视频资源或 域名资源进行探测,若发现网内有相应资源,而ICP又把用户请求调度至网外 的CDN节点中,则将该IDC资源的URL中的HOST部分替换成网内CDN节 点的IP地址,如果仍访问成功说明网内存在此IDC资源,则认为该调度存在 调度错误问题,通知ICP修改调度策略。

采用常规手段发现各种调度错误,或者采用地址置换技术发现ICP调度错 误,在确保访问质量的情况下进行纠错,对于存放在IDC内的IDC资源不再 进行缓存。

通过内容管理平台获取的资源全景图,实施对资源引入完成情况的评估和 考核。

在一个优选实施例中,分析所述IDC资源和标示信息后生成分析报告之 后还包括:

进行引入评估,其中,

当IDC资源是域名时,利用网站引入深度进行评价;

当IDC资源是视频资源时,采用文件大小运营商网络内占比和文件数量 运营商网络内占比进行评价;

引入深度定义为:已引入运营商网络内该网站子域名/网站所有子域名数;

文件大小运营商网络内占比定义为:已引入运营商网络内视频资源文件大 小/网站所有视频资源大小;

文件数量运营商网络内占比定义为:已引入运营商网络内视频资源数量/ 网站所有视频资源数量。

本发明实施例提供一种运营商网络,如图3所示,包括:爬虫控制装置、 爬虫装置、互联网数据中心和行为内容分析网元;

爬虫控制装置,用于生成爬取任务,所述爬取任务记载了在当前的运营商 网络内需要获取的IDC资源,

爬虫装置,用于执行爬取任务,在至少一个网站中遍历以识别出相应类别 的IDC资源,以及提取所述IDC资源的标示信息,

互联网数据中心,用于接收所述IDC资源和标示信息,传输给行为内容 分析网元;

行为内容分析网元,用于分析所述IDC资源和标示信息后生成分析报告, 分析报告中记载IDC资源的真实存放位置。

在一个优选实施例中,行为内容分析网元包括:

视频资源分析单元,用于结合DPI中的日志以及所述IDC资源的分布情 况,获取不同分布的IDC资源受到的关注程度,IDC资源是视频资源;

域名分析单元,用于对子域名进行归并分析得到泛域名,根据泛域名得到 IDC资源的目录清单作为所述分析报告的一部分,IDC资源是域名。

在一个优选实施例中,还包括:

内容识别服务器,用于

当IDC资源是视频资源时,模拟运行视频资源所在的网页中的播放插件, 得到所述视频资源的真实URL作为所述真实存放位置;

当视频资源是分片式视频资源时,监控网页中的播放插件与视频调度服务 器之间的交互过程,得到播放每一片的播放清单,采用Http head请求根据播 放清单向由内容识别服务器获取当前一片的真实URL并分析得到其所放置的 服务器IP地址作为所述真实存放位置之后,模拟运行网页中的快进插件到下 一片;

所述互联网数据中心,还用于计算每一片在互联网数据中心的分布情况, 根据所述真实URL和分布情况生成所述分析报告。

采用本方案之后的优势是:采用运营商内容管理平台,利用网页插件动态 运行、分片识别等技术主动获取运营商网络内的IDC资源,无需与ICP进行 协作配合而获取IDC资源的全景图;利用地址置换技术和引入评估实现了用 户行为引导、调度纠错和引入评估等应用,保证了用户正确的访问运营商网络 内已引入的IDC资源,减少了运营商间的互联互通及缓存结算成本。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号