首页> 中国专利> 具有后期同步的图形虚拟化的装置和方法

具有后期同步的图形虚拟化的装置和方法

页面导航

摘要
著录项
说明书
相似文献

摘要

针对具有后期同步的图形虚拟化描述了装置和方法。例如，在主机上实现虚拟化的图形执行环境，该虚拟化的图形执行环境包括管理程序，该管理程序用于针对一个或多个虚拟机(VM)使图形处理资源虚拟化。响应于在VM中的一个VM中执行图形应用，接收多个图形命令。保存图形命令，直到帧触发事件被检测到为止。在检测到帧触发事件时，将保存的图形命令提交到主机。

著录项

公开/公告号CN112292665A

专利类型发明专利
公开/公告日2021-01-29

原文格式PDF
申请/专利权人英特尔公司;
展开▼

申请/专利号CN201880094794.9
发明设计人王卫汉;何杰;侯俊华;张华;马湘宁;余志洪;
展开▼

申请日2018-09-27
分类号G06F9/451(20180101);
代理机构72002 永新专利商标代理有限公司;
代理人刘瑜
地址美国加利福尼亚
入库时间 2023-06-19 09:41:38

说明书

技术领域

本发明总体上涉及图形处理器的领域。更具体地，本发明涉及具有后期同步(latesynchronization)的图形虚拟化的装置和方法。

背景技术

存在三种不同的方式来实现图形虚拟化：(1)API转发；(2)直接通过；以及(3)全面的GPU虚拟化。在支持的图形虚拟化的类型中的每一种之间都存在性能、能力和共享方面的权衡。这里，性能指代直接GPU加速，能力指代视觉体验的一致性，并且共享表示多个虚拟机(VM)通过管理程序或虚拟机监视器(VMM)访问图形处理资源。

API转发方法能够经由API支持任意数量的客体，并且其性能是合理的。另外地，API转发可以使OpenGL*API序列化以通过网络执行传送，从而允许VM将渲染内容分发到不同位置中的不同的图形卡，由此扩展服务器渲染能力并移除地理约束。

然而，当前的API转发技术触发频繁的VM退出，从而导致高的性能损失。因此，这些频繁的VM退出可以对服务器的整体性能产生负面影响。通常，如果OpenGL*命令没有返回值，则VM客体OS不需要将命令传递给主机以避免VM退出。由于OpenGL*是状态机，因此GPU不会立即执行OpenGL*命令，除非OpenGL*命令需要返回值或显示帧。

换言之，如果VM客体OS需要运行需要返回值的OpenGL*命令，则VM客体OS必须触发VM退出以使主机运行该命令，然后从主机获得返回值以驱动客体OS图形子系统运行。

附图说明

根据下面结合附图的详细描述，可以获得对本发明的更好的理解，其中：

图1是包括具有一个或多个处理器核心和图形处理器的处理器的计算机系统的实施例的框图；

图2是具有一个或多个处理器核心、集成存储器控制器和集成图形处理器的处理器的一个实施例的框图；

图3是图形处理器的一个实施例的框图，该图形处理器可以是分立的图形处理单元，或者可以是与多个处理核心集成的图形处理器；

图4是用于图形处理器的图形处理引擎的实施例的框图；

图5是图形处理器的另一实施例的框图；

图6是包括处理元件的阵列的线程执行逻辑的框图；

图7示出了根据实施例的图形处理器执行单元指令格式；

图8是图形处理器的另一实施例的框图，该图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线；

图9A是示出根据实施例的图形处理器命令格式的框图；

图9B是示出根据实施例的图形处理器命令序列的框图；

图10示出了根据实施例的用于数据处理系统的示例性图形软件架构；

图11示出了根据实施例的可以用于制造集成电路以执行操作的示例性IP核心开发系统；

图12示出了根据实施例的可以使用一个或多个IP核心来制造的示例性片上系统集成电路；

图13示出了可以使用一个或多个IP核心来制造的片上系统集成电路的示例性图形处理器；

图14A-14B示出了根据本文描述的实施例的附加示例性图形处理器逻辑；

图15示出了说明具有在管理程序上运行的客体OS的VM的一个实施例；

图16示出了示例命令分组，其包括虚拟资源ID、与虚拟资源ID相关联的图形命令以及一组命令参数；

图17示出了根据本发明的一个实施例的方法；

图18示出了由EE后端执行以处理从EE前端发送的图形命令的方法的一个实施例；

图19可以由V-R资源ID管理器使用以管理虚拟到真实的映射；

图20示出了EE前端的一个实施例；

图21示出了由EE后端执行的操作。

具体实施方式

在下面的描述中，出于解释的目的，阐述了许多具体细节，以便提供对下面描述的本发明的实施例的透彻理解。然而，对于本领域技术人员而言将显而易见的是，可以在没有这些具体细节中的一些细节的情况下实践本发明的实施例。在其他实例中，以框图形式示出了公知的结构和设备，以避免模糊本发明的实施例的基本原理。

示例性图形处理器架构和数据类型

图1是根据实施例的处理系统100的框图。在各种实施例中，系统100包括一个或多个处理器102以及一个或多个图形处理器108，并且系统100可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中，系统100是结合在片上系统(SoC)集成电路内以在移动、手持或嵌入式设备中使用的处理平台。

在一个实施例中，系统100可以包括或结合在基于服务器的游戏平台、游戏控制台内，该游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中，系统100是移动电话、智能电话、平板计算设备或移动互联网设备。处理系统100还可以包括可穿戴设备(例如，智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)、与该可穿戴设备耦合或集成在该可穿戴设备内。在一些实施例中，处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。

在一些实施例中，一个或多个处理器102各自包括用于处理指令的一个或多个处理器核心107，当该指令被执行时执行针对系统和用户软件的操作。在一些实施例中，一个或多个处理器核心107中的每一个被配置用于处理特定的指令集109。在一些实施例中，指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核心107可以各自处理不同的指令集109，不同的指令集109可以包括用于促进对其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备，例如，数字信号处理器(DSP)。

在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102可以具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中，高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中，处理器102还使用外部高速缓存(例如，3级(L3)高速缓存或最后一级高速缓存(LLC))(未示出)，其可以使用已知的高速缓存一致性技术在处理器核心107之间共享。寄存器文件106另外地包括在处理器102中，该寄存器文件106可以包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以是特定于处理器102的设计的。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与系统100中的其他组件之间发送诸如地址信号、数据信号或控制信号之类的通信信号。在一个实施例中，接口总线110可以是处理器总线，例如，直接媒体接口(DMI)总线的版本。然而，处理器总线不限于DMI总线，并且可以包括一个或多个外围组件互连总线(例如，PCI、PCI快速)、存储器总线或其他类型的接口总线。在一个实施例中，(多个)处理器102包括集成存储器控制器116和平台控制器中心130。存储器控制器116促进存储器设备与系统100的其他组件之间的通信，而平台控制器中心(PCH)130提供经由本地I/O总线与I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪速存储器设备、相变存储器设备或具有合适性能以用作过程存储器的一些其他存储器设备。在一个实施例中，存储器设备120可以作为系统100的系统存储器操作，以存储数据122和指令121，以便在一个或多个处理器102执行应用或过程时使用。存储器控制器116还与可选的外部图形处理器112耦合，该外部图形处理器112可以与处理器102中的一个或多个图形处理器108通信以执行图形操作和媒体操作。在一些实施例中，显示设备111可以连接到(多个)处理器102。显示设备111可以是内部显示设备(如在移动电子设备或膝上型设备中)或者经由显示接口(例如，显示端口(DisplayPort)等)附接的外部显示设备中的一个或多个。在一个实施例中，显示设备111可以是头戴式显示器(HMD)，例如，用于虚拟现实(VR)应用或增强现实(AR)应用的立体显示设备。

在一些实施例中，平台控制器中心130使得外围设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O外围设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储设备124(例如，硬盘驱动器、闪速存储器等)。数据存储设备124可以经由存储接口(例如，SATA)或经由外围总线(例如，外围组件互连总线(例如，PCI、PCI快速))连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126可以是Wi-Fi收发器、蓝牙收发器或诸如3G、4G或长期演进(LTE)收发器之类的移动网络收发器。固件接口128实现与系统固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以实现与有线网络的网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。在一个实施例中，音频控制器146是多通道高清晰度音频控制器。在一个实施例中，系统100包括用于将旧有(例如，个人系统2(PS/2))设备耦合到系统的可选的旧有I/O控制器140。平台控制器中心130还可以连接到一个或多个通用串行总线(USB)控制器142以连接输入设备，例如，键盘和鼠标143组合、相机144或其他USB输入设备。

将认识到的是，所示的系统100是示例性的而非限制性的，因为还可以使用被不同配置的其他类型的数据处理系统。例如，存储器控制器116和平台控制器中心130的实例可以集成到分立的外部图形处理器(例如，外部图形处理器112)中。在一个实施例中，平台控制器中心130和/或存储器控制器可以在一个或多个处理器102的外部。例如，系统100可以包括外部存储器控制器116和平台控制器中心130，其可以被配置作为在与(多个)处理器102通信的系统芯片组内的存储器控制器中心和外围控制器中心。

图2是具有一个或多个处理器核心202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2中具有与本文任何其他附图中的元件相同的附图标记(或名称)的那些元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。处理器200可以包括附加的核心，直到包括由虚线框表示的附加核心202N。处理器核心202A-202N中的每一个包括一个或多个内部高速缓存单元204A-204N。在一些实施例中，每个处理器核心还具有对一个或多个共享高速缓存单元206的访问权。

内部高速缓存单元204A-204N和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括每个处理器核心内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享中间级别高速缓存，例如，2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存，其中外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206和204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一个或多个总线控制器单元216的集合和系统代理核心210。一个或多个总线控制器单元216管理外围总线的集合(例如，一个或多个PCI或PCI快速总线)。系统代理核心210为各种处理器组件提供管理功能。在一些实施例中，系统代理核心210包括一个或多个集成存储器控制器214以管理对各种外部存储器设备(未示出)的存取。

在一些实施例中，处理器核心202A-202N中的一个或多个包括对同时多线程的支持。在这样的实施例中，系统代理核心210包括用于在多线程处理期间协调并操作核心202A-202N的组件。系统代理核心210可以另外地包括功率控制单元(PCU)，其包括用于调节处理器核心202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200另外地包括用于执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与共享高速缓存单元206的集合以及包括一个或多个集成存储器控制器214的系统代理核心210耦合。在一些实施例中，系统代理核心210还包括显示控制器211，其用于将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块，或者显示控制器211可以集成在图形处理器208内。

在一些实施例中，基于环形的互连单元212用于耦合处理器200的内部组件。然而，可以使用替代的互连单元，例如，点对点互连、交换互连或包括本领域公知的技术的其他技术。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218(例如，eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中，处理器核心202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享的最后一级高速缓存。

在一些实施例中，处理器核心202A-202N是执行相同指令集架构的同构核心。在另一实施例中，处理器核心202A-202N在指令集架构(ISA)方面是异构的，其中处理器核心202A-202N中的一个或多个执行第一指令集，而其他核心中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中，处理器核心202A-202N在微架构方面是异构的，其中具有相对较高功耗的一个或多个核心与具有较低功耗的一个或多个功率核心耦合。另外地，处理器200可以在一个或多个芯片上实现或者实现为具有所示组件以及其他组件的SoC集成电路。

图3是图形处理器300的框图，图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核心集成的图形处理器。在一些实施例中，图形处理器经由与图形处理器上的寄存器的存储器映射的I/O接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于对存储器进行存取的存储器接口314。存储器接口314可以是与本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或系统存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302，其用于将显示输出数据驱动到显示设备320。显示控制器302包括用于显示或组成视频或用户界面元素的多个层的一个或多个覆盖平面的硬件。显示设备320可以是内部或外部显示设备。在一个实施例中，显示设备320是头戴式显示设备，例如，虚拟现实(VR)显示设备或增强现实(AR)显示设备。在一些实施例中，图形处理器300包括视频编解码器引擎306，其用于将媒体编码、解码为一种或多种媒体编码格式，将媒体从一种或多种媒体编码格式进行编码、解码或者将媒体在一种或多种媒体编码格式之间进行转码，该一种或多种媒体编码格式包括但不限于运动图像专家组(MPEG)格式(例如，MPEG-2)、高级视频编码(AVC)格式(例如，H.264/MPEG-4AVC)以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(例如，JPEG和运动JPEG(MJPEG)格式)。

在一些实施例中，图形处理器300包括块图像传送(BLIT)引擎304，其用于执行二维(2D)光栅化操作，包括例如位边界块传送。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件来执行2D图形操作。在一些实施例中，GPE 310是用于执行图形操作的计算引擎，该图形操作包括三维(3D)图形操作和媒体操作。

在一些实施例中，GPE 310包括用于执行3D操作(例如，使用作用于3D基元形状(例如，矩形、三角形等)的处理功能来渲染三维图像和场景)的3D流水线312。3D流水线312包括可编程功能元件和固定功能元件，其执行元件内的各种任务和/或向3D/媒体子系统315产生执行线程。虽然3D流水线312可以用于执行媒体操作，但是GPE 310的实施例还包括媒体流水线316，该媒体流水线316专门用于执行媒体操作，例如，视频后处理和图像增强。

在一些实施例中，媒体流水线316包括固定功能逻辑单元或可编程逻辑单元，以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作，例如，视频解码加速、视频反交错和视频编码加速。在一些实施例中，媒体流水线316另外地包括线程产生单元以产生用于在3D/媒体子系统315上执行的线程。产生的线程在3D/媒体子系统315中包括的一个或多个图形执行单元上执行针对媒体操作的计算。

在一些实施例中，3D/媒体子系统315包括用于执行由3D流水线312和媒体流水线316产生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3D/媒体子系统315，该3D/媒体子系统315包括用于对针对可用线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，其包括寄存器和可寻址存储器，以在线程之间共享数据并且存储输出数据。

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3中所示的GPE 310的一个版本。图4中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。例如，示出了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的，并且可以不明确地包括在GPE 410内。例如，在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 410。

在一些实施例中，GPE 410与命令流送器403耦合或者包括命令流送器403，该命令流送器403向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中，命令流送器403与存储器耦合，该存储器可以是系统存储器或者是内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流送器403接收来自存储器的命令并且将命令发送到3D流水线312和/或媒体流水线316。该命令是从环形缓冲器获取的指令，该环形缓冲器存储用于3D流水线312和媒体流水线316的命令。在一个实施例中，环形缓冲器可以另外地包括存储多个命令的批的批命令缓冲器。用于3D流水线312的命令还可以包括对存储在存储器中的数据的引用，例如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派给图形核心阵列414来处理命令和数据。在一个实施例中，图形核心阵列414包括一个或多个图形核心块(例如，(多个)图形核心415A、(多个)图形核心415B)，每个块包括一个或多个图形核心。每个图形核心包括图形执行资源的集合，其包括用于执行图形和计算操作的通用执行逻辑和图形特定执行逻辑，以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各种实施例中，3D流水线312包括固定功能逻辑和可编程逻辑，以通过处理指令以及将执行线程分派给图形核心阵列414来处理一个或多个着色器程序，例如，顶点着色器程序、几何着色器程序、像素着色器程序、片段着色器程序、计算着色器程序或其他着色器程序。图形核心阵列414提供统一的执行资源块以用于处理这些着色器程序。图形核心阵列414的(多个)图形核心415A-415B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器相关联的多个同时执行线程。

在一些实施例中，图形核心阵列414还包括用于执行媒体功能(例如，视频和/或图像处理)的执行逻辑。在一个实施例中，除了图形处理操作之外，执行单元另外地包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以并行地或结合图1的(多个)处理器核心107或如图2中的核心202A-202N内的通用逻辑来执行处理操作。

由在图形核心阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储用于多个线程的数据。在一些实施例中，URB418可以用于在图形核心阵列414上执行的不同线程之间发送数据。在一些实施例中，URB418可以另外地用于在图形核心阵列上的线程与共享功能逻辑420内的固定功能逻辑之间进行同步。

在一些实施例中，图形核心阵列414是可缩放的，使得阵列包括可变数量的图形核心，每个图形核心基于GPE 410的目标功率和性能级别具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可以根据需要启用或禁用执行资源。

图形核心阵列414与共享功能逻辑420耦合，该共享功能逻辑420包括在图形核心阵列中的图形核心之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核心阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外地，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。

在针对给定专用功能的需求对于包括在图形核心阵列414内而言不足的情况下实现共享功能。相反，该专用功能的单个实例化在共享功能逻辑420中实现为独立实体，并且在图形核心阵列414内的执行资源之间共享。在图形核心阵列414之间共享并且包括在图形核心阵列414内的功能的精确集合跨实施例而变化。在一些实施例中，共享功能逻辑420内的由图形核心阵列414广泛使用的特定共享功能可以被包括在图形核心阵列414内的共享功能逻辑416内。在各种实施例中，图形核心阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中，共享功能逻辑420内的所有逻辑元件可以在图形核心阵列414的共享功能逻辑416内复制。在一个实施例中，共享功能逻辑420被排除以支持图形核心阵列414内的共享功能逻辑416。

图5是根据本文所描述的一些实施例的图形处理器核心500的硬件逻辑的框图。图5中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。在一些实施例中，示出的图形处理器核心500被包括在图4的图形核心阵列414内。图形处理器核心500(有时称为核心切片)可以是模块化图形处理器内的一个或多个图形核心。图形处理器核心500是一个图形核心切片的示例，并且如本文所描述的图形处理器可以基于目标功率和性能包络包括多个图形核心切片。每个图形处理器核心500可以包括与多个子核心501A-501F(也称为子切片，其包括通用逻辑和固定功能逻辑的模块化块)耦合的固定功能块530。

在一些实施例中，固定功能块530包括几何/固定功能流水线536，其可以由图形处理器核心500中的所有子核心共享，例如，在较低性能和/或较低功率图形处理器实现方式中。在各种实施例中，几何/固定功能流水线536包括3D固定功能流水线(例如，如图3和图4中的3D流水线312)、视频前端单元、线程产生器和线程分派器，以及管理统一返回缓冲器(例如，图4的统一返回缓冲器418)的统一返回缓冲器管理器。

在一个实施例中，固定功能块530还包括图形SoC接口537、图形微控制器538和媒体流水线539。图形SoC接口537提供图形处理器核心500与片上系统集成电路内的其他处理器核心之间的接口。图形微控制器538是可编程子处理器，其可配置为管理图形处理器核心500的各种功能，包括线程分派、调度和抢占。媒体流水线539(例如，图3和图4的媒体流水线316)包括用于促进对多媒体数据(包括图像数据和视频数据)进行解码、编码、预处理和/或后处理的逻辑。媒体流水线539经由对在子核心501A-501F内的计算逻辑或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口537使得图形处理器核心500能够与通用应用处理器核心(例如，CPU)和/或SoC内的其他组件(包括存储器层级元件，例如，共享最后一级高速缓冲存储器、系统RAM和/或嵌入式片上或封装上DRAM)通信。SoC接口537还可以实现与SoC内的固定功能设备(例如，相机成像流水线)的通信，并且使得能够使用和/或实现可以在图形处理器核心500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现对图形处理器核心500的功率管理控制，并且启用图形核心500的时钟域与SoC内的其他时钟域之间的接口。在一个实施例中，SoC接口537实现对来自命令流送器和全局线程分派器的命令缓冲器的接收，命令流送器和全局线程分派器被配置为向图形处理器内的一个或多个图形核心中的每一个提供命令和指令。当要执行媒体操作时，可以将命令和指令分派给媒体流水线539，或者当要执行图形处理操作时，可以将命令和指令分派给几何和固定功能流水线(例如，几何和固定功能流水线536、几何和固定功能流水线514)。

图形微控制器538可以被配置为执行针对图形处理器核心500的各种调度和管理任务。在一个实施例中，图形微控制器538可以对子核心501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各种图形并行引擎执行图形和/或计算工作负载调度。在该调度模型中，在包括图形处理器核心500的SoC的CPU核心上执行的主机软件可以提交多个图形处理器门铃中的一个的工作负载，该图形处理器门铃在适当的图形引擎上调用调度操作。调度操作包括确定下一个要运行的工作负载，将工作负载提交到命令流送器，抢占引擎上运行的现有工作负载，监视工作负载的进程，以及当工作负载完成时通知主机软件。在一个实施例中，图形微控制器538还可以促进图形处理器核心500的低功率或空闲状态，从而独立于操作系统和/或系统上的图形驱动软件而跨低功率状态转换为图形处理器核心500提供保存和恢复图形处理器核心500内的寄存器的能力。

图形处理器核心500可以具有多于或少于所示的子核心501A-501F，最多具有N个模块化子核心。对于N个子核心的每个集合，图形处理器核心500还可以包括共享功能逻辑510、共享和/或高速缓冲存储器512、几何/固定功能流水线514以及用于加速各种图形和计算处理操作的附加的固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420(例如，采样器逻辑、数学逻辑和/或线程间通信逻辑)相关联的逻辑单元，这些逻辑单元可以由图形处理器核心500内的N个子核心中的每一个共享。共享和/或高速缓冲存储器512可以是针对图形处理器核心500内的N个子核心501A-501F的集合的最后一级高速缓存，并且还可以用作可由多个子核心存取的共享存储器。在固定功能块530内可以包括几何/固定功能流水线514而不是几何/固定功能流水线536，并且可以包括相同或类似的逻辑单元。

在一个实施例中，图形处理器核心500包括附加的固定功能逻辑516，该固定功能逻辑516可以包括供图形处理器核心500使用的各种固定功能加速逻辑。在一个实施例中，附加的固定功能逻辑516包括用于仅位置着色的附加几何流水线。在仅位置着色中，存在两种几何流水线：剔除(cull)流水线以及几何/固定功能流水线536内的完整几何流水线，该剔除流水线是可以被包括在附加的固定功能逻辑516内的附加的几何流水线。在一个实施例中，剔除流水线是完整几何流水线的经裁减的版本。完整流水线和剔除流水线可以执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏已丢弃的三角形的长剔除运行，从而使得能够在某些实例中更早地完成着色。例如，在一个实施例中，附加的固定功能逻辑516内的剔除流水线逻辑可以与主应用并行地执行位置着色器，并且通常比完整流水线更快地生成关键结果，因为剔除流水线仅获取顶点的位置属性并对其进行着色，而没有执行光栅化以及将像素渲染到帧缓冲器。剔除流水线可以使用生成的关键结果来计算所有三角形的可见性信息，而不考虑这些三角形是否被剔除。完整流水线(在该实例中可以称为重放流水线)可以消耗可见性信息以跳过经剔除的三角形以仅对最终传递到光栅化阶段的可见三角形进行着色。

在一个实施例中，附加的固定功能逻辑516还可以包括机器学习加速逻辑，例如，固定功能矩阵乘法逻辑，其用于包括针对机器学习训练或推理的优化在内的实现方式。

在每个图形子核心501A-501F内包括执行资源的集合，该执行资源的集合可以用于响应于图形流水线、媒体流水线或着色器程序的请求来执行图形、媒体和计算操作。图形子核心501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如，纹理)采样器505A-505F、媒体采样器506A-506F、着色器处理器507A-507F、以及共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F各自包括多个执行单元，多个执行单元是能够在图形、媒体或计算操作的服务(包括图形、媒体或计算着色器程序)中执行浮点和整数/定点逻辑操作的通用图形处理单元。TD/IC逻辑503A-503F针对子核心内的执行单元执行本地线程分派和线程控制操作，并且促进在子核心的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其他3D图形相关数据读取到存储器中。3D采样器可以基于配置的样本状态以及与给定纹理相关联的纹理格式来不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核心501A-501F可以替代地包括统一3D和媒体采样器。在子核心501A-501F中的每一个内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器508A-508F，以使得在线程组内执行的线程能够使用片上存储器的公共池来执行。

图6A-6B示出了根据本文所描述的实施例的包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑600。图6A-6B中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。图6A示出了线程执行逻辑600的概述，该线程执行逻辑600可以包括利用图5的每个子核心501A-501F示出的硬件逻辑的变体。图6B示出了执行单元的示例性内部细节。

如图6A中示出的，在一些实施例中，线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A-608N的可缩放执行单元阵列、采样器610、数据高速缓存612和数据端口614。在一个实施例中，可缩放执行单元阵列可以通过基于工作负载的计算要求启用或禁用一个或多个执行单元(例如，执行单元608A、608B、608C、608D到608N-1和608N中的任一个)来动态地缩放。在一个实施例中，所包括的组件经由互连结构互连，该互连结构链接到组件中的每一个。在一些实施例中，线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个与存储器(例如，系统存储器或高速缓冲存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，608A)是独立的可编程通用计算单元，其能够执行多个同时硬件线程，同时针对每个线程并行处理多个数据元素。在各种实施例中，执行单元608A-608N的阵列是可缩放的以包括任何数量的单独的执行单元。

在一些实施例中，执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以经由线程分派器604处理各种着色器程序并且分派与着色器程序相关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形流水线和媒体流水线的线程启动请求并且在执行单元608A-608N中的一个或多个执行单元上对所请求的线程进行实例化的逻辑。例如，几何流水线可以将顶点着色器、曲面细分着色器或几何着色器分派给线程执行逻辑以进行处理。在一些实施例中，线程分派器604还可以处理来自正在执行的着色器程序的运行时线程产生请求。

在一些实施例中，执行单元608A-608N支持包括对许多标准3D图形着色器指令的本地支持的指令集，使得来自图形库(例如，Direct 3D和OpenGL)的着色器程序在最小转换的情况下执行。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算着色器和媒体着色器)。执行单元608A-608N中的每一个能够进行多发单指令多数据(SIMD)执行，并且多线程操作在面对较高时延的存储器存取时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器文件和相关联的独立线程状态。执行是每时钟多发到能够进行整数、单精度和双精度浮点运算、具有SIMD分支能力、能够进行逻辑运算、超越运算和其他杂项运算的流水线的。在等待来自共享功能中的一个或存储器的数据时，执行单元608A-608N内的相关性逻辑使得等待线程休眠，直到已经返回所请求的数据。当等待线程处于休眠时，硬件资源可能专用于处理其他线程。例如，在与顶点着色器操作相关联的延迟期间，执行单元可以执行针对像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。

在执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或者用于指令的通道的数量。执行通道是用于数据元素访问、掩蔽和指令内流控制的逻辑执行单元。通道的数量可以独立于针对特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽向量进行操作时，向量的256位存储在寄存器中，并且执行单元按照四个单独的64位打包数据元素(四字(QW)大小数据元素)、八个单独的32位打包数据元素(双字(DW)大小数据元素)、十六个单独的16位打包数据元素(字(W)大小数据元素)或者三十二个单独的8位数据元素(字节(B)大小数据元素)对向量进行操作。然而，不同的向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可以组合成具有线程控制逻辑(607A-607N)的融合执行单元609A-609N，该线程控制逻辑对于融合EU是公共的。多个EU可以融合成EU组。融合EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。融合EU组中的EU的数量可以根据实施例而变化。另外地，可以针对每个EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合图形执行单元609A-609N包括至少两个执行单元。例如，融合执行单元609A包括第一EU 608A、第二EU 608B和线程控制逻辑607A，该线程控制逻辑607A对于第一EU 608A和第二EU608B是公共的。线程控制逻辑607A控制在融合图形执行单元609A上执行的线程，从而允许融合执行单元609A-609N内的每个EU使用公共的指令指针寄存器来执行。

一个或多个内部指令高速缓存(例如，606)被包括在线程执行逻辑600中，以对用于执行单元的线程指令进行缓存。在一些实施例中，一个或多个数据高速缓存(例如，612)被包括以在线程执行期间对线程数据进行缓存。在一些实施例中，采样器610被包括以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器610包括专用纹理或媒体采样功能，以在采样过程期间在将采样数据提供给执行单元之前对纹理或媒体数据进行处理。

在执行期间，图形流水线和媒体流水线经由线程产生和分派逻辑将线程启动请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并且光栅化为像素数据，则调用着色器处理器602内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使得结果被写入到输出表面(例如，颜色缓冲器、深度缓冲器、模板缓冲器等)。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象插值的各种顶点属性的值。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)——供应的像素或片段着色器程序。为了执行着色器程序，着色器处理器602经由线程分派器604将线程分派给执行单元(例如，608A)。在一些实施例中，着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理图中的纹理数据。对纹理数据和输入几何数据进行的算术运算计算每个几何片段的像素颜色数据，或丢弃一个或多个像素以免进一步处理。

在一些实施例中，数据端口614提供用于线程执行逻辑600的存储器存取机制，以将处理后的数据输出到存储器以便在图形处理器输出流水线上进行进一步处理。在一些实施例中，数据端口614包括一个或多个高速缓冲存储器(例如，数据高速缓存612)或耦合到该一个或多个高速缓冲存储器，以经由数据端口对用于存储器存取的数据进行缓存。

如图6B中示出的，图形执行单元608可以包括指令获取单元637、通用寄存器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、SIMD浮点单元(FPU)的集合634，并且在一个实施例中包括专用整数SIMD ALU的集合635。GRF 624和ARF 626包括通用寄存器文件和架构寄存器文件的集合，该通用寄存器文件和架构寄存器文件的集合与可以在图形执行单元608中活动的每个同时硬件线程相关联。在一个实施例中，每个线程架构状态维持在ARF 626中，而在线程执行期间使用的数据存储在GRF 624中。每个线程的执行状态(包括针对每个线程的指令指针)可以保持在ARF 626中的线程特定的寄存器中。

在一个实施例中，图形执行单元608具有作为同时多线程(SMT)和细粒度交织多线程(IMT)的组合的架构。该架构具有模块化配置，该模块化配置可以基于每个执行单元的同时线程的目标数量和寄存器数量在设计时进行微调，其中跨用于执行多个同时线程的逻辑对执行单元资源进行划分。

在一个实施例中，图形执行单元608可以共同发布多个指令，多个指令可以各自是不同的指令。图形执行单元线程608的线程仲裁器622可以将指令分派给发送单元630、分支单元632或(多个)SIMD FPU 634中的一个以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器，其中每个寄存器可以存储32个字节，该32个字节可以作为32位数据元素的SIMD 8元素向量访问。在一个实施例中，每个执行单元线程具有对GRF624内的4千字节的访问权，但是实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，多达七个线程可以同时执行，但是每个执行单元的线程数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中，GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器被一起寻址以高效地构建更宽的寄存器或者以表示跨步矩形块数据结构。

在一个实施例中，经由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中，将分支指令分派给专用分支单元632以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元608包括一个或多个SIMD浮点单元(FPU)634以执行浮点运算。在一个实施例中，(多个)FPU 634还支持整数计算。在一个实施例中，(多个)FPU 634可以SIMD执行多达数量M个32位浮点(或整数)运算，或者SIMD执行多达2M个16位整数运算或16位浮点运算。在一个实施例中，(多个)FPU中的至少一个提供扩展的数学能力以支持高吞吐量的超越数学函数和双精度64位浮点。在一些实施例中，还存在8位整数SIMDALU的集合635，并且可以专门地对该集合进行优化以执行与机器学习计算相关联的操作。

在一个实施例中，图形执行单元608的多个实例的阵列可以在图形子核心分组(例如，子切片)中实例化。对于可缩放性，产品架构师可以选择每个子核心分组的执行单元的精确数量。在一个实施例中，执行单元608可以跨多个执行通道执行指令。在另一实施例中，在图形执行单元608上执行的每个线程在不同的通道上执行。

图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出了通常被包括在执行单元指令中的组件，而虚线包括可选的或仅包括在指令的子集中的组件。在一些实施例中，所描述并示出的指令格式700是宏指令，因为指令格式700是供应给执行单元的指令，而不是一旦指令被处理就由指令解码产生的微操作。

在一些实施例中，图形处理器执行单元本地地支持属于128位指令格式710的指令。基于所选定的指令、指令选项和操作数的数量，64位压缩指令格式730可用于某些指令。本地的128位指令格式710提供对所有指令选项的访问权，而在64位格式730中某些选项和操作受到限制。64位格式730中可用的本地指令因实施例而异。在一些实施例中，使用索引字段713中的索引值的集合来部分地压缩指令。执行单元硬件基于索引值引用压缩表的集合，并且使用压缩表输出来重构属于128位指令格式710的本地指令。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行地执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中，指令控制字段714实现对某些执行选项(例如，通道选择(例如，预测)和数据通道顺序(例如，混合))的控制。对于属于128位指令格式710的指令，exec-size字段716限制将要并行执行的数据通道的数量。在一些实施例中，exec-size字段716不可用于64位压缩指令格式730。

一些执行单元指令具有多达三个操作数，包括两个源操作数(src0 720、src1722)和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中隐含了目的地中的一个。数据操纵指令可以具有第三个源操作数(例如，SRC2 724)，其中指令操作码712确定源操作数的数量。指令的最后一个源操作数可以是与指令一起传递的立即数(例如，硬编码)值。

在一些实施例中，128位指令格式710包括存取/寻址模式字段726，该存取/寻址模式字段726指定例如是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式710包括存取/寻址模式字段726，该存取/寻址模式字段726指定指令的寻址模式和/或存取模式。在一个实施例中，存取模式用于定义指令的数据存取对齐。一些实施例支持包括16字节对齐的存取模式和1字节对齐的存取模式在内的存取模式，其中存取模式的字节对齐确定指令操作数的存取对齐。例如，当处于第一模式时，指令可以针对源操作数和目的地操作数使用字节对齐的寻址，并且当处于第二模式时，指令可以针对所有源操作数和目的地操作数使用16字节对齐的寻址。

在一个实施例中，存取/寻址模式字段726的寻址模式部分确定指令是要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行分组以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码分组742包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑分组742共享五个最高有效位(MSB)，其中移动(mov)指令是以0000xxxxb的形式，并且逻辑指令是以0001xxxxb的形式。流控制指令分组744(例如，调用、跳转(jmp))包括以0010xxxxb的形式(例如，0x20)的指令。杂项指令分组746包括指令的混合，包括以0011xxxxb的形式(例如，0x30)的同步指令(例如，等待、发送)。并行数学指令分组748包括以0100xxxxb的形式(例如，0x40)的按分量算术指令(例如，相加、相乘(mul))。并行数学分组748跨数据通道并行地执行算术运算。向量数学分组750包括以0101xxxxb的形式(例如，0x50)的算术指令(例如，dp4)。向量数学分组对向量操作数执行诸如点积计算之类的算术。

图8是图形处理器800的另一实施例的框图。图8中具有与本文任何其他附图中的元件相同的附图标记(或名称)的元件可以以与本文其他地方描述的方式类似的任何方式操作或起作用，但不限于此。

在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是在包括一个或多个通用处理核心的多核心处理系统内的图形处理器。图形处理器通过寄存器写入一个或多个控制寄存器(未示出)或通过经由环形互连802发布到图形处理器800的命令来控制。在一些实施例中，环形互连802将图形处理器800与其他处理组件(例如，其他图形处理器或通用处理器)耦合。来自环形互连802的命令由命令流送器803解释，该命令流送器803向几何流水线820或媒体流水线830的单独的组件提供指令。

在一些实施例中，命令流送器803指示顶点获取器805从存储器读取顶点数据并且执行由命令流送器803提供的顶点处理命令的操作。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，该顶点着色器807对每个顶点执行坐标空间变换和光照操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派给执行单元852A-852B来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852A-852B具有附接的L1高速缓存851，该L1高速缓存851特定于每个阵列或在阵列之间共享。可以将高速缓存配置为数据高速缓存、指令高速缓存或被划分以在不同分区中包含数据和指令的单个高速缓存。

在一些实施例中，几何流水线820包括曲面细分组件以执行对3D对象的硬件加速曲面细分。在一些实施例中，可编程外壳着色器811对曲面细分操作进行配置。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的方向上操作，并且包含专用逻辑以基于作为对几何流水线820的输入被提供的粗略几何模型来生成详细几何对象的集合。在一些实施例中，如果不使用曲面细分，则可以绕过曲面细分组件(例如，外壳着色器811、曲面细分器813和域着色器817)。

在一些实施例中，完整的几何对象可以通过几何着色器819经由分派给执行单元852A-852B的一个或多个线程来处理，或者完整的几何对象可以直接进行到剪切器829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前阶段中对顶点或顶点的图像块进行操作。如果禁用曲面细分，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，剪切器829处理顶点数据。剪切器829可以是固定功能剪切器或具有剪切和几何着色器功能的可编程剪切器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换为每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用可以绕过光栅化器和深度测试组件873并且经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有互连总线、互连结构或者允许在处理器的主要组件之间传递数据和消息的某种其他互连机制。在一些实施例中，执行单元852A-852B和相关联的逻辑单元(例如，L1高速缓存851、采样器854、纹理高速缓存858等)经由数据端口856互连，以执行存储器存取并且与处理器的渲染输出流水线组件通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852A-852B各自具有单独的存储器存取路径。在一个实施例中，纹理高速缓存858还可以被配置为采样器高速缓存。

在一些实施例中，渲染输出流水线870包含光栅化器和深度测试组件873，该光栅化器和深度测试组件873将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用于执行固定功能三角形和线光栅化的加窗器/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，但是在一些情况下，与2D操作相关联的像素操作(例如，具有混合的位块图像传送)由2D引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享L3高速缓存875可用于所有图形组件，从而允许在不使用主系统存储器的情况下共享数据。

在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834接收来自命令流送器803的流水线命令。在一些实施例中，媒体流水线830包括单独的命令流送器。在一些实施例中，视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能以产生线程以供经由线程分派器831分派给线程执行逻辑850。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800外部，并且经由环形互连802或某种其他互连总线或结构与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示设备(未示出)耦合，该显示设备可以是系统集成显示设备(如在膝上型计算机中)或者经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何流水线820和媒体流水线830可配置以基于多个图形和媒体编程接口执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动软件将特定于特定图形或媒体库的API调用转换为可以由图形处理器处理的命令。在一些实施例中，为开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API(其全部来自Khronos Group)提供支持。在一些实施例中，还可以为来自微软公司的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可以进行从具有兼容3D流水线的未来API的流水线到图形处理器的流水线的映射，则还将支持流水线未来API。

图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出了通常被包括在图形命令中的组件，而虚线包括可选的或仅包括在图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于标识客户端902、命令操作代码(操作码)904以及用于命令的数据906的数据字段。在一些命令中还包括子操作码905和命令大小908。

在一些实施例中，客户端902指定图形设备的处理命令数据的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节对命令的进一步处理并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应的处理流水线。一旦由客户端单元接收到命令，则客户端单元读取操作码904，并且如果存在，则读取子操作码905以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，期望显式命令大小908指定命令的大小。在一些实施例中，命令解析器基于命令操作码自动地确定命令中的至少一些的大小。在一些实施例中，命令经由双字的倍数对齐。

图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示的命令序列的版本来设置、执行和终止图形操作的集合。仅出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的命令批而发布，使得图形处理器将至少部分地同时处理命令的序列。

在一些实施例中，图形处理器命令序列910可以开始于流水线冲洗命令912，以使得任何活动的图形流水线完成流水线的当前未决的流水线命令。在一些实施例中，3D流水线922和媒体流水线924不同时地操作。执行流水线冲洗以使得活动的图形流水线完成任何未决的命令。响应于流水线冲洗，图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决的操作并且相关的读取高速缓存是无效的。可选地，渲染高速缓存中标记为“脏”的任何数据可以被冲洗到存储器。在一些实施例中，流水线冲洗命令912可以用于流水线同步或者在将图形处理器置于低功率状态之前使用。

在一些实施例中，当命令序列要求图形处理器明确地在流水线之间切换时，使用流水线选择命令913。在一些实施例中，在发布流水线命令之前，除非上下文要发布针对两个流水线的命令，否则在执行上下文内仅要求一次流水线选择命令913。在一些实施例中，紧接在经由流水线选择命令913切换流水线之前要求流水线冲洗命令912。

在一些实施例中，流水线控制命令914对用于操作的图形流水线进行配置，并且流水线控制命令914用于对3D流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914对活动流水线的流水线状态进行配置。在一个实施例中，流水线控制命令914用于流水线同步，并且在处理命令批之前在活动流水线内从一个或多个高速缓冲存储器清除数据。

在一些实施例中，返回缓冲器状态命令916用于针对相应的流水线配置返回缓冲器的集合以写入数据。某些流水线操作要求分配、选择或配置一个或多个返回缓冲器，在处理期间操作将中间数据写入该一个或多个返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并执行跨线程通信。在一些实施例中，返回缓冲器状态916包括选择要用于流水线操作的集合的返回缓冲器的大小和数量。

命令序列中的其余命令基于用于操作的活动流水线而不同。基于流水线确定920，流水线命令序列被定制用于开始于3D流水线状态930的3D流水线922，或者流水线命令序列被定制用于开始于媒体流水线状态940的媒体流水线924。

用于配置3D流水线状态930的命令包括针对顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及在处理3D基元命令之前要配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用的特定3D API来确定。在一些实施例中，如果将不使用某些流水线元素，则3D流水线状态930命令也能够选择性地禁用或绕过这些元素。

在一些实施例中，3D基元932命令用于提交要由3D流水线处理的3D基元。经由3D基元932命令传递到图形处理器的命令和相关联的参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3D基元932命令数据来生成顶点数据结构。顶点数据结构存储在一个或多个返回缓冲器中。在一些实施例中，3D基元932命令用于经由顶点着色器对3D基元执行顶点操作。为了处理顶点着色器，3D流水线922将着色器执行线程分派给图形处理器执行单元。

在一些实施例中，经由执行934命令或事件来触发3D流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用流水线同步命令来触发命令执行以冲洗命令序列通过图形流水线。3D流水线将执行针对3D基元的几何处理。一旦操作完成，生成的几何对象被光栅化，并且像素引擎对生成的像素进行上色。针对这些操作，还可以包括用于控制像素着色和像素后端操作的附加命令。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体流水线924路径。通常，针对媒体流水线924的特定用途和编程方式取决于要执行的媒体操作或计算操作。在媒体解码期间，可以将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还可以绕过媒体流水线，并且可以使用由一个或多个通用处理核心提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件，其中图形处理器用于使用与对图形基元的渲染不明确相关的计算着色器程序来执行SIMD向量操作。

在一些实施例中，媒体流水线924以与3D流水线922类似的方式配置。用于配置媒体流水线状态940的命令的集合在媒体对象命令942之前被分派或放置到命令队列中。在一些实施例中，针对媒体流水线状态940的命令包括用于配置将用于处理媒体对象的媒体流水线元素的数据。这包括用于在媒体流水线内配置视频解码逻辑和视频编码逻辑的数据，例如，编码格式或解码格式。在一些实施例中，针对媒体流水线状态940的命令还支持使用指向包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942供应指向用于由媒体流水线处理的媒体对象的指针。媒体对象包括存储器缓冲器，该存储器缓冲器包含要被处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队，则经由执行命令944或等效执行事件(例如，寄存器写入)触发媒体流水线924。然后，可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式来配置并执行GPGPU操作。

图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032以及一个或多个通用处理器核心1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。

在一些实施例中，3D图形应用1010包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)之类的高级着色器语言。该应用还包括采用适用于由通用处理器核心1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作系统1020是来自微软公司的

在一些实施例中，用户模式图形驱动程序1026包含后端着色器编译器1027，以将着色器指令1012转换为硬件特定表示。当使用OpenGL API时，采用GLSL高级语言的着色器指令1012被传递到用户模式图形驱动程序1026以进行编译。在一些实施例中，用户模式图形驱动程序1026使用操作系统内核模式功能1028来与内核模式图形驱动程序1029通信。在一些实施例中，内核模式图形驱动程序1029与图形处理器1032通信以分派命令和指令。

可以通过存储在机器可读介质上的代表性代码来实现至少一个实施例的一个或多个方面，该代表性代码表示和/或定义诸如处理器之类的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使得机器制造逻辑以执行本文所描述的技术。这种被称为“IP核心”的表示是用于集成电路的可重用的逻辑单元，其可以存储在有形的机器可读介质上，作为描述集成电路的结构的硬件模型。可以将硬件模型供应给各种客户或制造设施，这些客户或制造设施将硬件模型加载到制造集成电路的制造机器上。可以制造集成电路，使得该电路执行与本文所描述的实施例中的任何一个相关联地描述的操作。

图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核心开发系统1100的框图。IP核心开发系统1100可以用于生成模块化、可重用的设计，其可以结合到更大的设计中或用于构建整个集成电路(例如，SOC集成电路)。设计设施1130可以采用高级编程语言(例如，C/C++)生成IP核心设计的软件仿真1110。软件仿真1110可以用于使用仿真模型1112设计、测试并验证IP核心的行为。仿真模型1112可以包括功能、行为和/或定时仿真。然后可以根据仿真模型1112创建或合成寄存器传送级别(RTL)设计1115。RTL设计1115是对集成电路(其对数字信号在硬件寄存器之间的流动进行建模，包括使用经建模的数字信号执行的相关联的逻辑)的行为的抽象。除了RTL设计1115之外，还可以创建、设计或合成逻辑级别或晶体管级别的较低级别设计。因此，初始设计和仿真的特定细节可以变化。

RTL设计1115或等效物可以由设计设施进一步合成为硬件模型1120，该硬件模型1120可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核心设计。可以存储IP核心设计以使用非易失性存储器1140(例如，硬盘、闪速存储器或任何非易失性存储介质)递送到第三方制造设施1165。可替代地，可以通过有线连接1150或无线连接1160(例如，经由互联网)发送IP核心设计。然后，制造设施1165可以制造至少部分地基于该IP核心设计的集成电路。制造的集成电路可以被配置为执行根据本文所描述的至少一个实施例的操作。

图11B示出了根据本文所描述的一些实施例的集成电路封装组装件1170的横截面侧视图。集成电路封装组装件1170示出了如本文所描述的一个或多个处理器或加速器设备的实现方式。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地以可配置逻辑或固定功能逻辑硬件实现，并且可以包括本文所描述的(多个)处理器核心、(多个)图形处理器或其他加速器设备中的任一个中的一个或多个部分。每个逻辑单元1172、1174可以在半导体管芯内实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置为在逻辑1172、1174与衬底1180之间路由电信号，并且该互连结构1173可以包括互连，例如但不限于凸块或支柱。在一些实施例中，互连结构1173可以被配置为路由电信号，例如，与逻辑1172、1174的操作相关联的输入/输出(I/O)信号和/或电源或接地信号。在一些实施例中，衬底1180是基于环氧树脂的层压衬底。在其他实施例中，封装衬底1180可以包括其他合适类型的衬底。封装组装件1170可以经由封装互连1183连接到其他电子设备。封装互连1183可以与衬底1180的表面耦合以将电信号路由到其他电子设备，例如，母板、其他芯片组或多芯片模块。

在一些实施例中，逻辑单元1172、1174与桥1182电耦合，该桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供用于电信号的路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。可以在桥衬底上形成电路由特征，以提供逻辑1172、1174之间的芯片到芯片连接。

尽管示出了两个逻辑单元1172、1174和桥1182，但是本文所描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接，因为当逻辑被包括在单个管芯上时可以排除桥1182。可替代地，多个管芯或逻辑单元可以通过一个或多个桥连接。另外地，多个逻辑单元、管芯和桥可以以其他可能的配置(包括三维配置)连接在一起。

图12-14示出了根据本文所描述的各种实施例的可以使用一个或多个IP核心制造的示例性集成电路和相关联的图形处理器。除了所示的内容之外，还可以包括其他逻辑和电路，包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。

图12是示出根据实施例的可以使用一个或多个IP核心制造的示例性片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以另外地包括图像处理器1215和/或视频处理器1220，其中任何一个可以是根据相同的或多个不同的设计设施的模块化IP核心。集成电路1200包括外围设备或总线逻辑，包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I

图13A-13B是示出根据本文所描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的示例性图形处理器1310。图13B示出了根据实施例的可以使用一个或多个IP核心制造的片上系统集成电路的附加的示例性图形处理器1340。图13A的图形处理器1310是低功率图形处理器核心的示例。图13B的图形处理器1340是更高性能图形处理器核心的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变体。

如图13A中示出的，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D到1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器1305被优化以执行针对顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行针对片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形流水线的顶点处理阶段并且生成基元和顶点数据。(多个)片段处理器1315A-1315N使用由顶点处理器1305生成的基元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中，(多个)片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，该片段着色器程序可以用于执行与Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器1310另外地包括一个或多个存储器管理单元(MMU)1320A-1320B、(多个)高速缓存1325A-1325B和(多个)电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或(多个)片段处理器1315A-1315N)提供虚拟到物理地址映射，其除了存储在一个或多个高速缓存1325A-1325B中的顶点或图像/纹理数据之外还可以参考存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可以与系统内的其他MMU(包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU)同步，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器系统。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相接合。

如图13B所示，图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、高速缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核心1355A-1355N(例如，1355A、1355B、1355C、1355D、1355E、1355F到1355N-1和1355N)，一个或多个着色器核心1355A-1355N提供统一的着色器核心架构，其中单核心或类型或核心可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核心的精确数量可以在实施例和实现方式之间变化。另外地，图形处理器1340包括核心间任务管理器1345，该核心间任务管理器1345用作线程分派器以将执行线程分派给一个或多个着色器核心1355A-1355N和图块拼接单元1358，图块拼接单元1358用于加速用于基于图块的渲染的图块拼接操作，其中针对场景的渲染操作在图像空间中被细分，以例如利用场景内的本地空间一致性或优化内部高速缓存的使用。

图14A-14B示出了根据本文所描述的实施例的附加的示例性图形处理器逻辑。图14A示出了可以包括在图12的图形处理器1210内的图形核心1400，并且该图形核心1400可以是如图13B中的统一的着色器核心1355A-1355N。图14B示出了附加的高度并行通用图形处理单元1430，其是适用于部署在多芯片模块上的高度并行通用图形处理单元。

如图14A中示出的，图形核心1400包括共享指令高速缓存1402、纹理单元1418和高速缓冲/共享存储器1420，它们对于图形核心1400内的执行资源是公共的。图形核心1400可以包括多个切片1401A-1401N或者每个核心的分区，并且图形处理器可以包括图形核心1400的多个实例。切片1401A-1401N可以包括支持逻辑，该支持逻辑包括本地指令高速缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N以及寄存器的集合1410A-1410N。为了执行逻辑操作，切片1401A-1401N可以包括附加功能单元(AFU 1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU 1416A-1416N)、地址计算单元(ACU1413A-1413N)、双精度浮点单元(DPFPU 1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)的集合。

计算单元中的一些以特定精度操作。例如，FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点运算，而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU1416A-1416N可以以8位、16位和32位精度执行可变精度整数运算，并且ALU 1416A-1416N可以被配置用于混合精度运算。MPU 1417A-1417N也可以被配置用于混合精度矩阵运算，包括半精度浮点运算和8位整数运算。MPU 1417A-1417N可以执行各种矩阵运算以加速机器学习应用框架，包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算，包括三角函数运算(例如，正弦、余弦等)。

如图14B中示出的，通用处理单元(GPGPU)1430可以被配置为使得高度并行的计算操作能够由图形处理单元的阵列执行。另外地，GPGPU 1430可以直接链接到GPGPU的其他实例以创建多GPU集群以改进特别深的神经网络的训练速度。GPGPU 1430包括主机接口1432以实现与主机处理器的连接。在一个实施例中，主机接口1432是PCI快速接口。然而，主机接口也可以是供应商特定的通信接口或通信结构。GPGPU 1430接收来自主机处理器的命令并且使用全局调度器1434将与那些命令相关联的执行线程分发到计算集群的集合1436A-1436H。计算集群1436A-1436H共享高速缓冲存储器1438。高速缓冲存储器1438可以用作计算集群1436A-1436H内的高速缓冲存储器的更高级别的高速缓存。

GPGPU 1430包括经由存储器控制器的集合1442A-1442B与计算集群1436A-1436H耦合的存储器1444A-1444B。在各种实施例中，存储器1444A-1444B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据速率(GDDR)存储器。

在一个实施例中，计算集群1436A-1436H各自包括图形核心(例如，图14A的图形核心1400)的集合，该图形核心的集合可以包括多种类型的整数和浮点逻辑单元，其可以以包括适合于机器学习计算的精度范围执行计算操作。例如，在一个实施例中，至少计算集群1436A-1436H中的每一个中的浮点单元的子集可以被配置为执行16位或32位浮点运算，而浮点单元的不同子集可以被配置为执行64位浮点运算。

GPGPU 1430的多个实例可以被配置为作为计算集群操作。由计算集群使用以进行同步和数据交换的通信机制跨实施例而变化。在一个实施例中，GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中，GPGPU 1430包括I/O中心1439，该I/O中心1439将GPGPU 1430与GPU链路1440耦合，该GPU链路1440实现与GPGPU的其他实例的直接连接。在一个实施例中，GPU链路1440与专用GPU到GPU桥耦合，该专用GPU到GPU桥实现GPGPU 1430的多个实例之间的通信和同步。在一个实施例中，GPU链路1440与高速互连耦合以将数据发送到其他GPGPU或并行处理器，并且从其他GPGPU或并行处理器接收数据。在一个实施例中，GPGPU 1430的多个实例位于单独的数据处理系统中，并且经由网络设备进行通信，该网络设备可经由主机接口1432访问。在一个实施例中，除了主机接口1432之外或作为其替代，GPU链路1440可以被配置为实现与主机处理器的连接。

虽然GPGPU 1430的所示配置可以被配置用于训练神经网络，但是一个实施例提供了GPGPU 1430的替代配置，其可以被配置用于部署在高性能或低功率推理平台内。在推理配置中，GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。另外地，与存储器1444A-1444B相关联的存储器技术可以在推理配置与训练配置之间不同，其中更高带宽的存储器技术专用于训练配置。在一个实施例中，GPGPU 1430的推理配置可以支持推理特定的指令。例如，推理配置可以提供对一个或多个8位整数点积指令的支持，这些指令通常在部署的神经网络的推理运算期间使用。

利用GPU上的硬件加速的可编程射线追踪

如上面背景技术部分中所提到的，API转发技术的问题中的一个是其倾向于触发频繁的VM退出，从而导致高的性能损失。

本发明的实施例提供了针对该问题的解决方案。图15示出了说明具有在管理程序1530上运行的客体OS的VM的一个实施例。管理程序1530使GPU 1540的图形处理资源虚拟化，该GPU 1540包括渲染引擎1541、图形存储器1542和寄存器1543。例如，可以向每个VM1501分配渲染引擎1541、图形存储器1542和寄存器1543的一部分。管理程序1530包括用于访问GPU 1540的图形驱动程序1535。

在一个实施例中，执行引擎前端(EE或EE前端)1511实现后期同步图形命令转发。特别地，在VM客体OS 1501中创建的EE前端1511的实例处理所有图形命令1513(例如，响应于一个或多个图形应用/app 1515而生成的图形命令1513)。在一个实施例中，EE前端1511每帧触发有限数量的VM退出操作；在一个特定实施例中，每帧仅触发单个VM退出。

EE前端1511捕获所有图形命令，并且在保存命令缓冲器1512内本地保存存储这些命令。如果命令需要返回值，则资源ID生成器1514生成虚拟资源ID，然后立即返回。虚拟资源ID可以与存储在保存命令缓冲器1512中的命令一起打包。图16示出了示例命令分组1600，其包括虚拟资源ID 1601、与虚拟资源ID相关联的图形命令1602以及一组命令参数1603。

EE前端1511等待直到VM客体OS 1501需要显示帧为止，然后将所有保存的命令传递给主机。例如，当到了显示帧的时间时，EE前端1511可以将所有保存的命令发送到管理程序1530的后端1531，这使得该命令经由图形驱动程序1535在GPU 1540上被执行。例如，当EE前端1511需要执行与视频帧相关的交换缓冲器、冲洗或完成命令(例如分别为eglSwapBuffer、eglFlush或eglFinish)时，EE前端1511将所有保存的命令写入管理程序1530(例如，如果使用QEMU，则经由QEMU流水线进行写入)，并触发VM退出以将控制传递给管理程序1530。

在图17中示出了根据本发明的一个实施例的方法。在1701处，将挂钩插入到图形API中，使得可以捕获并处理图形命令。在需要新的帧之前(在1702处确定)，在1703处编码图形命令(例如，参见图16中的命令分组)。在1704处，将编码后的图形命令保存到本地命令缓冲器1705。然后在1706处更新GPU图形状态。

重复操作1701、1703-1706，直到在1702处需要新的帧为止(例如，以实现交换缓冲器、冲洗或完成命令)。当需要新的帧时，在1707处将保存的图形命令提交到主机，该主机执行图形处理命令以渲染新的帧。

EE前端1511的上述实现方式显著减少了由图形命令(例如，OpenGL*命令、DirectX*命令等)触发的VM退出，由此改进了性能。

如图18中示出的，一个实施例还包括执行引擎(EE)后端1831，其用于处理由资源ID生成器1514生成的虚拟资源ID。在该实施例中，虚拟到真实(V-R)资源ID管理器1832将与命令相关联的虚拟资源ID(例如，由资源ID生成器1514生成并关联)映射到真实资源ID(即，图形驱动程序1535可用于访问GPU 1540的资源的ID)。

图18示出了由EE后端1831执行以处理从EE前端1511发送的图形命令的方法的一个实施例。在接收到每个图形命令之后，在1902处，EE后端在1902处确定图形命令是否使用虚拟资源ID。如果没有使用虚拟资源ID，则在1905处，确定图形命令是否返回值。在任一种情况下，在1907处，由主机GPU驱动程序处理图形命令。

如果图形命令使用虚拟资源ID，则在1904处，标识与虚拟资源ID相对应的真实资源ID。在一个实施例中，V-R资源ID管理器1832可以使用例如图19中示出的V-R映射表1910来管理虚拟到真实的映射。在该实施例中，虚拟资源ID被用作V-R映射表的索引以标识对应的真实资源ID。在1906处，将虚拟资源ID(由VM/客体使用)替换为真实资源ID(由主机使用)。然后，过程返回到1905-1906，其中由GPU驱动程序处理命令(由真实资源ID标识)。

上面描述的本发明的实施例可以在仅触发单个VM退出的同时生成帧。另外地，EE前端仅需要生成虚拟资源ID，然后立即返回给客体。因为不需要等待主机的真实返回值，所以可以显著减少图形命令执行的时延。以下简单的EGL/OpenGL*代码片段将用作示例：

1.EGLContext cxt＝eglCreateContext(display,config,share_context,attrib_list)；

2.eglMakeCurrent(display,draw,red,cxt)；

...

20.eglSwapBuffer()；

使用该示例，EE前端1511的一个实施例执行以下操作，如图20中示出的：

图21示出了由EE后端1831执行的操作。在该实施例中，响应于eglCreateContext的执行，主机的EE后端1831提供真实资源ID 20，并且V-R资源ID管理器1832存储V-R映射表1910中的条目，从而以真实资源ID 20映射虚拟资源ID 10。响应于接收到具有eglMakeCurrent的命令分组，资源ID管理器1832使用虚拟资源ID(10)来定位真实资源ID(20)，并将虚拟资源ID替换为真实资源ID。

在一个实施例中，EE前端和EE后端可以彼此独立且异步地执行。因此，EE前端和EE后端不需要彼此等待。EE前端显著减少了VM退出，从而仅触发了单个VM退出。并且，EE后端1831根据EE前端状态来确保其状态正确，从而确保渲染正确性。

本发明的实施例可以包括上面已经描述的各种步骤。这些步骤可以体现在机器可执行指令中，该机器可执行指令可以用于使通用或专用处理器执行这些步骤。可替代地，这些步骤可以由包含用于执行步骤的硬连线逻辑的特定硬件组件来执行，或者由编程的计算机组件和定制硬件组件的任何组合来执行。

如本文中所描述的，指令可以指代硬件的特定配置，例如，被配置为执行某些操作或具有预定功能的专用集成电路(ASIC)，或存储在以非暂时性计算机可读介质体现的存储器中的软件指令。因此，可以使用在一个或多个电子设备(例如，终端站、网络元件等)上存储和执行的代码和数据来实现附图中示出的技术。此类电子设备使用计算机机器可读介质来(在内部和/或通过网络与其他电子设备)存储和通信代码和数据，所述计算机机器可读介质例如是非暂时性计算机机器可读存储介质(例如，磁盘；光盘；随机存储存储器；只读存储器；闪速存储器设备；相变存储器)和暂时性计算机机器可读通信介质(例如，电、光、声或其他形式的传播信号，例如，载波、红外信号、数字信号等)。

另外地，这种电子设备典型地包括与一个或多个其他组件(例如，一个或多个存储设备(非暂时性机器可读存储介质)、用户输入/输出设备(例如，键盘、触摸屏和/或显示器)以及网络连接)耦合的一个或多个处理器的集合。处理器的集合和其他组件的耦合典型地是通过一个或多个总线和桥(也称为总线控制器)进行的。存储设备和承载网络业务的信号分别表示一种或多种机器可读存储介质和机器可读通信介质。因此，给定电子设备的存储设备典型地存储用于在该电子设备的一个或多个处理器的集合上执行的代码和/或数据。当然，可以使用软件、固件和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。在整个具体实施方式中，出于解释的目的，阐述了许多具体细节以便提供对本发明的透彻理解。然而，将对本领域技术人员显而易见的是，可以在没有这些具体细节中的一些细节的情况下实践本发明。在某些实例中，没有详细描述公知的结构和功能，以免模糊本发明的主题。因此，本发明的范围和精神应根据所附权利要求书来判断。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 具有后期同步的图形虚拟化的装置和方法 [P] . 中国专利： CN112292665A . 2021-01-29
2. 图形处理器虚拟化方法及装置 [P] . 中国专利： CN108804199B . 2021.03.05
3. APPARATUS AND METHOD FOR GRAPHICS VIRTUALIZATION WITH LATE SYNCHRONIZATION [P] . 世界知识产权组织专利： WO2020061898A1 . 2020-04-02

机译：具有后期同步的图形虚拟化的装置和方法
4. APPARATUS AND METHOD FOR GRAPHICS VIRTUALIZATION WITH LATE SYNCHRONIZATION [P] . US2021263776A1 . 2021-08-26

机译：具有延迟同步的图形虚拟化的装置和方法
5. DEVICE AND METHOD FOR GRAPHICS VIRTUALIZATION WITH LATE SYNCHRONIZATION [P] . DE112018007652T5 . 2021-03-18

机译：具有延迟同步的图形虚拟化的设备和方法