首页> 中国专利> 计算机系统及其构成服务器、作业执行控制方法和程序

计算机系统及其构成服务器、作业执行控制方法和程序

摘要

本发明提供一种计算机系统及其构成服务器、作业执行控制方法和程序,在网格计算中,可执行从计算机的种类或使用状态及作业种类等方面看最适当的调度,可容易地应对系统结构的变更。在网格计算系统中,向网络上的处理服务器发出作业执行请求的中央服务器(100)具备:向处理服务器分配应执行的作业,发出作业执行请求的调度部(110);和PS代理部(120),在管理处理服务器(200)的信息的同时,接收调度部(110)发出的请求,依据被分配以有关该请求的作业的处理服务器(200)的操作状态,将该请求发送到处理服务器(200)。代理部(120)可连接进行询问的类型的处理服务器(200)和不进行询问的类型的处理服务器(200)两者。

著录项

  • 公开/公告号CN1934536A

    专利类型发明专利

  • 公开/公告日2007-03-21

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200580008715.0

  • 发明设计人 米泽隆;杉本和敏;美园和久;

    申请日2005-03-16

  • 分类号G06F9/50(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人曲瑞

  • 地址 美国纽约

  • 入库时间 2023-12-17 18:21:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2008-10-22

    授权

    授权

  • 2007-05-16

    实质审查的生效

    实质审查的生效

  • 2007-03-21

    公开

    公开

说明书

技术领域

本发明涉及网格计算,特别涉及向计算机分配作业的调度方法及实现该方法的系统结构。

背景技术

近年来,综合利用通过网络而连接的异质性(heterogeneous)(不同机种混杂)的信息系统、被称为网格计算的系统倍受关注。在该系统中,共享网络上多个计算机中的CPU功率或数据存储等计算机资源,并用作1台虚拟的高性能计算机。通过使多个计算机执行并列处理,即便1台计算机的性能降低,也能高速地执行大量的处理。

在网格计算中,用以根据作业的特性或优先顺序来确定提供给系统的作业(程序的处理单位)的执行顺序的调度是非常重要的。在以不同机种混杂的环境为前提的网格环境中,除必需向性能不同的多个计算机分配作业之外,所分配的作业的大小也是各式各样的。另外,由于不只是从本地用户、还从远程用户处提供作业,所以必需适当地设定各种作业的执行调度。

网格计算中的作业调度方式大致有推(Push)型和挽(Pull)型。

在推型(例如参照非专利文献1)调度方式中,在调度程序中有作业加入时,调度程序分配应处理该作业的计算机,请求该计算机执行作业。这时,调度程序监视各计算的利用状态,根据作业的负荷信息等来分配最适当的计算机和作业。

该推型调度方式多用于主要由称为网格簇的、几百台左右的服务器(计算机)构成且它们被配置在同一站点内的类型的网格系统。另外,推型调度方式可特别地向最适当的计算机分配作业,可执行最适当的调度。尤其是,各计算机的行为存在差异、且在用户使用计算机时取消作业的环境中,在附加了这样的操作环境的基础上,通过最适当的调度,可期待效率非常好的运用。

另外,在挽型(例如参照非专利文献2)调度方式中,在各计算机成为可执行作业的状态时,以询问的形式向调度程序请求作业。然后,在发出该请求时,如果是应执行的作业,则调度程序向该计算机分配作业,计算机执行分配的作业。在没有应执行的作业时,计算机经过一定时间后再次进行询问。

该挽型调度方式由于能以非常简单的结构进行安装,所以多在几千台规模的网格系统中使用。尤其是,针对构筑于互联网络上的网格,由于网络的限制,多使用该挽型调度方式。另外,在挽型调度方式中,计算机的管理信息简单,易适用于多个计算机。于是,通过基于询问的自身最适当化(越是具有裕度的计算机越频繁地进行询问)来谋求某种程度的效率化。

非专利文献1:Chirs Smith,“Open Source Metascheduling forVirtual Organizations with the Community SchedulerFramework(CSF)”,Technical Whitepaper,Platform ComputingInc.2003年8月

非专利文献2:Erie Korpe,Dan Werthimer,David Anderson,Jeff Cobb,Matt Lebolsky,“Massively Distributed Computing forSETI”,computing in Science & amp;Engineering,Vol:3,Issue:1,Jan.-Feb.2001,Pages:78-83.

发明内容

如上所述,网格计算中的现有调度方式可在推型调度方式的情况下分配最适当的作业。

可是,为了进行最适当的调度,必需管理各计算机的使用状态。因此,调度程序的操作变得复杂,不能容易地应对系统结构的变更(增减执行作业的计算机等)。

另外,由于是从调度程序访问各计算机后请求执行作业的方式,所以不能适用于防火墙内侧的计算机等。

另外,如果是挽型调度方式,则如上所述,由于调度程序所需的计算机管理信息简单,所以可容易应对系统结构的变更,另外,由于利用来自计算机的询问来进行网络上的访问,所以也可以向防火墙内部的计算机分配作业。

可是,尽管基于询问来进行自身最适当化,但在挽型调度方式中,即便存在应执行的作业,也会因等待来自计算机的询问、请求执行作业,而产生时间的损失。

另外,在进行询问时,分配应执行的多个作业中、最适合进行该询问的计算机的作业,但是根据该作业的种类,有可能存在更适合的其他计算机,所以从整个系统看未必是效率最高的最适当调度。

因此,本发明的目的在于提供一种系统及其作业执行控制方法,其在网格计算中,从计算机的种类或使用状态以及作业种类两方面实现最适当的调度,同时,可容易地应对系统结构的变更。

另外,本发明的另一目的在于,在包含因防火墙等而具有访问限制的计算机的网格中,也可分配与推型调度方式同等的最适当作业。

本发明的另一目的还在于,提供组合了推型和挽型的调度方式及使用该调度方式的系统。

为了实现上述目的,本发明被实现为利用经网络连接的多个计算机而实现网格计算系统的、如下构成的计算机系统。即,该计算机系统具备:中央服务器,是向网络上的计算机发出作业执行请求的计算机;和处理服务器,是响应来自中央服务器的要求而执行作业的计算机。而且,该中央服务器具备:调度部,用以向处理服务器分配应执行的作业并发出作业执行请求;和代理部,在管理处理服务器的信息的同时,接收调度部发到的请求,根据被分配以有关该请求的作业的处理服务器的状态,将该请求发送到处理服务器。

其中,更具体而言,代理部相对于多个处理服务器一一对应设置。

另外,最好代理部从处理服务器取得与对应的处理服务器的能力及操作状态有关的信息并进行管理。然后,调度部根据由代理部管理的信息,向处理服务器分配作业。

另外,代理部根据对处理服务器的访问类型、或响应由来自处理服务器的询问导致的访问,发送从调度部接收到的请求,或在由代理部管理的定时发送从所述调度部接收到的请求。

更具体地说,由于在存在经防火墙与中央服务器连接的处理服务器的情况下,不能越过防火墙从中央服务器访问处理服务器,所以在等待由来自处理服务器的询问而导致的访问后发送请求。

另外,为实现上述目的的另一本发明作为利用计算机执行网格计算系统中的作业调度及发出该作业的执行请求的如下作业执行控制方法而实现。即,该作业执行控制方法的特征在于,包含根据存储于存储装置中的、构成系统且执行作业的处理服务器的能力,与该处理服务器的操作状态无关地分配作业的步骤;和向被分配以作业的处理服务器发出作业执行请求的步骤;和暂时保持发出的作业执行请求,并根据被分配以作业的处理服务器的操作状态,将其发送到该处理服务器的步骤。

进而,本发明被实现为控制计算机来实现上述中央服务器的功能的程序,或使计算机执行与上述作业执行控制方法的各步骤相对应的处理的程序。该程序可通过存储于磁盘、光盘或半导体存储器等记录媒体中进行分发,或通过经网络分发来提供。

根据如上述构成的本发明,在网格计算中,在中央服务器中设置用以中继调度程序与处理服务器之间的通信的代理部,利用代理部的控制来吸收处理服务器的访问类型的差异,从而无论处理服务器的访问类型的差异如何,均可从计算机的种类或使用状态及作业种类这两方面进行最适当的调度。于是,通过针对每个处理服务器来设置代理部,可容易地增减处理服务器,以变更系统结构。

另外,根据本发明,通过利用代理部的控制来吸收在处理服务器的访问类型上的差异,使现有的直接接收用以执行推型调度的作业执行请求的处理服务器、和现有的在执行了进行挽型调度的询问之后接收作业执行请求的处理服务器混合存在于系统中,并且可分配与推型调度方式同等的最适当作业。

附图说明

图1是表示依据本实施方式的网格计算系统的整体结构的图。

图2是模式性地示出了在实现依据本实施方式的网格计算系统中的中央服务器及处理服务器的过程中的最适当计算机装置硬件结构的例图。

图3是表示本实施方式中的处理服务器的功能结构的图。

图4是表示本实施方式中的进行询问的处理服务器的功能结构与PS代理部的关系的图。

图5是表示本实施方式中的不进行询问的处理服务器的功能结构与PS代理部的关系的图。

图6是说明本实施方式中各PS代理部发出作业执行请求时的动作流程的图。

具体实施方式

下面,参照附图详细说明实施本发明的最适当方式(下面称为实施方式)。

图1是表示依据本实施方式的网格计算系统的整体结构的图。

如图1所示,本实施方式的系统具备根据用以分配作业的中央服务器(CS)100所执行的分配来实际执行作业的处理服务器(PS)200。中央服务器100和处理服务器200通过因特网等计算机网络而连接。该计算机网络不管通信协议、和有线还是无线等通信方式如何,都可设置防火墙或其他的访问限制。

图2是模式性地表示在实现依据本实施方式的网格计算系统中的中央服务器100及处理服务器200的过程中的最适当计算机装置硬件结构的例图。

图2示出的计算机装置具备:作为运算单元的CPU(CentralProcessing Unit:中央处理单元)11;经M/B(母板)芯片组12及CPU总线而连接于CPU11的主存储器13;同样地经M/B芯片组12及APG(Accelerated Graphics Port)而连接于CPU11的视频卡14;经PCI(Peripheral Component Interconnect)总线而连接于M/B芯片组12的磁盘装置(HDD)15;网络接口16;经桥接电路17及ISA(IndustryStandard Architecture)总线等低速总线而从该PCI总线连接到M/B芯片组12的软盘驱动器18及键盘/鼠标19。

另外,图2不过例示了实现本实施方式的计算机装置的硬件结构,如果可适用本实施方式,也可采用其他各种结构。例如,替代设置视频卡14,也可构成为仅安装视频存储器,通过CPU11处理图像数据;作为外部存储装置,也可经ATA(AT Attachment)或SCSI(SmallComputer System Interface)等接口,来设置CD-R(Compact DiscRecordable)或DVD-RAM(Digital Versatile Disc Random AccessMemory)驱动器。

图3是表示中央服务器100的功能结构图。

中央服务器100具备:调度部110,向各处理服务器200分配(调度)作业;PS代理部120,在管理处理服务器200的同时,中继针对处理服务器200的请求及响应的发送接收。针对每个构成网格计算系统的处理服务器200来设置PS代理部120。然后,调度部110经该PS代理部120访问各处理服务器200。

调度部110例如通过图2示出的、进行程序控制的CPU11和主存储器13或磁盘装置15等存储单元来实现,作为其具体的功能,如图3所示,具备PS能力检查部111、最适当PS选择部112和作业委托部113。

PS能力检查部111向与各处理服务器200对应的PS代理部120询问处理服务器200的能力,并取得信息。

最适当PS选择部112根据由PS能力检查部111取得的处理服务器200的能力信息,响应作业而选择并分配最适当的处理服务器200。该作业分配中的最适当化的逻辑可以是任意的。

作业委托部113向在最适当PS选择部112中选择的处理服务器200的PS代理部120发出要求作业执行的请求。

在本实施方式中,PS代理部120中继调度部110和处理服务器200之间的通信,代替处理服务器200来接收调度部110发出的作业执行请求。因此,虽然PS能力检查部111的询问目标和作业委托部113的请求发出目标为PS代理部120,但如上所述,调度部110的功能本身并未变化为现有的推型调度程序。因此,在调度部110中,可使用现有的网格计算系统中利用的调度程序。

PS代理部120例如通过图2示出的、被程序控制的CPU11和主存储器13或磁盘装置15等存储单元来实现,作为其具体功能,如图3所示,具备PS状态管理部121、PS能力管理部122、作业接收部123、作业委托部124和询问等待接收部125。

PS状态管理部121访问对应的处理服务器200,掌握处理服务器200的当前操作状态。

PS能力管理部122管理与处理服务器200的作业执行能力有关的统计信息等,响应来自调度部110的PS能力检查部111的询问,而返回所管理的信息。这里,所谓与作业执行能力有关的统计信息等,不仅包含CPU本身的处理能力和存储装置的存储容量等静态信息,还包含对负荷相对于CPU的时间变动和操作模式等动态内容进行统计处理而得到的信息。

从PS代理部120对应的处理服务器200中取得PS状态管理部121及PS能力管理部122所管理的信息,并将其存储于图2的主存储器13或磁盘装置15等存储单元中。

作业接收部123接收从调度部110的作业委托部113发出的作业执行请求。

作业委托部124将作业接收部123接收到的作业执行请求发送到对应的处理服务器200。

询问等待接收部125接收基于来自处理服务器200的询问的、可执行作业的通知。

尽管详情后述,但在本实施方式中,可边使用推型调度程序,边接收由来自处理服务器200的询问导致的访问,然后发送作业执行请求。PS代理部120的询问等待接收部125用于接收该询问,但对于不进行询问就接收中央服务器100在期望定时发送的作业执行请求的处理服务器200的PS代理部120而言,它不是必需的构成要素。

下面,说明处理服务器200的功能结构与对应的PS代理部120的关系。

如上所述,本实施方式中假定的处理服务器200具有进行询问和不进行询问这两种形式。

图4是表示进行询问的处理服务器200的功能结构和PS代理部120的关系的图。

处理服务器200具备PS插入部210,用于将图2所示的计算装置用作网格计算系统中的处理服务器200。

PS插入部210例如由图2示出的受程序控制的CPU11和主存储器13或磁盘装置15等存储单元实现,作为其具体功能,如图4所示,具备PS状态监视部211、PS状态通知部212、作业接收部213、作业执行部214和询问执行部125。

PS状态监视部211监视自装置(处理服务器200)当前的使用状态或资源状态,并收集信息。

PS状态通知部212将与由PS状态监视部211收集的PS的使用状态或资源状态等有关的信息通知给中央服务器100的PS代理部120。在PS代理部120中,PS状态管理部121及PS能力管理部122接收该通知,将其存储于主存储器13或磁盘装置15等存储装置中进行管理。可定期进行从PS状态通知部212向中央服务器100的通知,也可在变更处理服务器200的操作状态时进行通知。另外,也可在任意定时从中央服务器100的对应的PS代理部120向处理服务器200进行询问。

作业接收部213接收从中央服务器100的PS代理部120的作业委托部124发送的作业执行请求。

作业执行部214使用处理服务器200的资源来执行由作业接收部213接收的作业。

询问执行部215基于PS状态监视部211的监视等,在处理服务器200是可执行作业的状态时,向中央服务器100的PS代理部120发出表示该情况的通知。在PS代理部120中,询问等待接收部125接收来自询问执行部215的通知,以使作业委托部124发送作业执行请求。

另外,在处理服务器200不进行询问就接收从中央服务器100发送的作业执行请求时,即没有位于防火墙内侧等访问限制时,不必设置询问执行部215。

图5是表示不进行询问的处理服务器200的功能结构与PS代理部120的关系的图。

下面,说明如上述构成的本实施方式的网格计算系统的操作。

如上所述,由于中央服务器100的调度部110与现有的推型调度程序相同,所以一旦产生应执行的作业,则以处于中央服务器100的管理之下的全部处理服务器200为对象来分配该作业。这时,从PS代理部120取得处理服务器200的能力或操作模式等统计信息等,根据这些信息及作业的种类或特性来进行最适当的调度。而且,不管被分配以作业的处理服务器200的操作状态如何都发出作业执行请求,在将其发送到对应于该处理服务器200的PS代理部120后,执行作业执行请求。

PS代理部120的动作根据处理服务器200的访问类型是直接接收来自中央服务器100的作业执行请求的类型还是处于防火墙内侧等、在进行询问后接收作业执行请求的类型的不同,而动作不同。

图6是说明各PS代理部120在发出作业执行请求时的动作流程的图。

如图6所示,PS代理部120通过作业接收部123从调度部110接收作业执行请求(步骤601),如果对应于该PS代理部120的处理服务器200是直接接收作业执行请求的类型,则立即向处理服务器200发送该作业执行请求(步骤602、604))。

另一方面,如果是在对应于该PS代理部120的处理服务器200进行询问之后接收作业执行请求的类型,则PS代理部120在处理服务器200进行询问之前待机(步骤602、603),在进行询问之后将从调度部110接收到的作业执行请求发送到处理服务器200(步骤604)。另外,PS代理部120在处理服务器200进行询问时不具有应发送的作业执行请求时,不进行任何处理地等待接收作业及下一次询问的定时。

在处理服务器200是直接接收来自中央服务器100的作业执行请求的类型时,一旦从中央服务器100的PS代理部120接收到作业执行请求,则对应于该请求地执行作业,并将执行结果返回给中央服务器100的PS代理部120。

另外,在是处理服务器200进行询问之后接收作业执行请求的类型时,该处理服务器200在变成可执行作业的操作状态的时刻进行询问,并等待发送作业执行请求。于是,如果接收到从中央服务器100中的对应PS代理部120发送的作业执行请求,则对应于该请求地执行作业,并将执行结果返回给中央服务器100的PS代理部122。在未接收到作业执行请求时,经过一定时间之后重复再次进行询问。

上述处理服务器200的动作与现有的网格计算系统中处理服务器的动作相同。但是,如上所述,依据本实施方式,在中央服务器100中,对应于各处理服务器200的PS代理部120能够依据处理服务器200的访问类型来控制是在由代理部管理的定时发出作业执行请求,还是等待由来自处理服务器200的询问导致的访问、发出作业执行请求。即,由于可通过PS代理部120的控制而吸收处理服务器200在访问类型上的差异,所以本实施方式的系统可使直接接收来自中央服务器100的作业执行请求的处理服务器200、和位于防火墙内侧等、在进行询问后接收作业执行请求的处理服务器200混合存在。

另外,本实施方式如上所述,可构成为包含在进行询问后接收作业执行请求的处理服务器200。于是,这时,调度部100也经PS代理部120向处理服务器200发出作业执行请求,所以能够不受处理服务器200的操作状态的影响地根据处理服务器200的能力和作业种类或特性,进行最适当的调度。

并且,本实施方式如上所述,在中央服务器100中设置与每个处理服务器200一一对应的PS代理部120,由该PS代理部120管理与对应的处理服务器相关的信息并控制请求或响应的发送接收。另外,调度部110根据由PS代理部120管理的处理服务器200的信息,向处理服务器200分配作业。因此,在增减处理服务器200而变更系统结构时,通过追加或删除对应的PS代理部120,可容易地应对。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号