首页> 中国专利> 用于提供经编辑的视频内容的方法、装置和计算机程序

用于提供经编辑的视频内容的方法、装置和计算机程序

页面导航

摘要
著录项
说明书
相似文献

摘要

描述了一种提供经编辑的媒体内容的方法。该方法包括：生成捕获内容和捕获内容的表示，捕获内容的表示的大小比捕获内容更小；通过跨网络的第一网络路径提供捕获内容且通过跨网络的第二网络路径提供捕获内容的表示，第一网络路径的延迟比第二网络路径高；生成所接收到的捕获内容的表示的编辑版本；并且提供捕获内容的编辑版本，捕获内容的编辑基于捕获内容的表示的编辑。

著录项

公开/公告号CN112740716A

专利类型发明专利
公开/公告日2021-04-30

原文格式PDF
申请/专利权人索尼公司;
展开▼

申请/专利号CN202080005311.0
发明设计人丹尼尔·卢克·胡珀;罗伯特·马克·斯特凡·波特;
展开▼

申请日2020-01-20
分类号H04N21/854(20060101);G11B27/031(20060101);H04N5/268(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人吴孟秋
地址日本东京
入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明涉及一种方法、装置和计算机程序。

背景技术

在本文中提供的“背景”描述是为了总体上呈现本公开的上下文的目的。目前命名的发明人的工作(就在背景技术部分中描述的程度而言)以及在提交时可能没有以其他方式限定为现有技术的描述的方面未明确地或隐含地被承认为本发明的现有技术。

现在可以使用诸如索尼的虚拟制作服务的云服务来执行媒体内容的实况编辑。在该服务中，在事件中捕获媒体内容(诸如音频内容和/或视频内容)并通过网络(诸如蜂窝网络)将其发送到服务器。该内容可以是高清内容、4K内容或8K内容等。因此，这种捕获内容需要大量的带宽，并且因此需要大量的网络资源。

除了捕获内容之外，还通过网络发送捕获内容的表示。制作团队使用膝上型计算机、平板计算机、智能电话等从服务器访问捕获内容的表示。在服务器内基于捕获内容的表示来编辑捕获内容，并经由广播方法(诸如地面、卫星或有线电视)或经由诸如

虽然这些类型的新服务是重大突破，但正在寻求进一步的改进。

这在执行实况编辑以减少正捕获的内容与正编辑的内容之间的时间延迟的系统中是理想的。通过减少时间延迟，可以在分布式制作人员中提供更多实时反馈。

本公开的至少一个目的是解决这个问题。

发明内容

根据本公开的一个方面，提供了一种提供经编辑的媒体内容的方法，该方法包括：生成捕获内容和捕获内容的表示，捕获内容的表示的大小比捕获内容更小；通过跨网络的第一网络路径提供捕获内容且通过跨网络的第二网络路径提供捕获内容的表示，第一网络路径的延迟比第二网络路径更高；生成所接收的捕获内容的表示的编辑版本；以及提供捕获内容的编辑版本，对捕获内容的编辑基于对捕获内容的表示的编辑。

在所附权利要求中提供了其他实施方式和特征。

已通过一般介绍提供了前述段落，并且不旨在限制所附权利要求的范围。通过参考以下结合附图的详细描述，将更好地理解所描述的实施方式以及进一步的优点。

附图说明

当结合附图考虑时，通过参考以下详细描述，本公开得到更好的理解，将容易获得对本公开的更全面的理解及其许多伴随的优点，其中：

图1示出根据本公开的实施方式的相机100；

图2示出了根据本公开的实施方式的服务器200；

图3示出了连接到服务器200的用户的图形用户界面；

图4示出了说明虚拟制作系统400的示意图；

图5示出了根据本公开的一个实施方式的系统；

图6示出了根据本公开的另一实施方式的系统；

图7示出了根据本公开的实施方式的虚拟现实的头戴式视图器(headset)；

图8示出了根据本公开的一个实施方式的系统；

图9A和图9B示出了虚拟现实环境内的视图；

图9C示出了图9B内的视图的变化的时序图；

图10示出了根据本公开的实施方式的时序图；以及

图11至图13示出了虚拟现实环境内的不同视图。

具体实施方式

现在参考附图，其中，贯穿若干视图，相同的参考标号指代相同或相应的部分。

图1描述了根据本公开的实施方式的相机100。相机包括相机处理器105。相机处理器105可包括被布置成运行计算机软件以控制相机100的操作的电路。例如，相机处理器105可以是微处理器或专用集成电路(ASIC)或任何种类的适当电路。

另外连接到相机处理器105的是相机控制电路125。相机控制电路125经由触摸屏或物理按键等接收来自用户的输入。

相机处理器105连接至相机存储器110。相机存储器可与相机100集成，或者可以是在操作期间被插入到相机100中的外部存储卡或其任意组合。设想相机存储器110将存储计算机程序和计算机指令，计算机程序和计算机指令将由相机处理器105使用以控制相机100的操作。在实施方式中，相机存储器110将用作至少临时存储内容的缓冲器，如稍后将说明的。

另外连接到相机处理器105的是相机通信电路120。相机通信电路120通过网络与服务器200通信(如将在图2中说明的)。网络可以是有线网络或者可以是无线网络，诸如使用长期演进(LTE)标准操作的电信网络。相机通信电路120通过网络将由相机100捕获的图像和声音传送到服务器200。

另外连接到相机处理器105的是相机控制电路115。相机控制电路115经由相机通信电路120通过网络接收控制指令，并根据接收到的控制信息控制相机100的操作。例如，控制信息可包括用于控制相机100用来捕获图像的镜头布置的俯仰、摇摄和缩放的信令。代替或另外地，相机控制电路115可从指示相机操作者执行不同功能的制作人的服务器200接收音频数据。例如，制作人可指示相机操作者捕获场景的不同部分或手动地更改相机100上的缩放设置。

图2示出了根据本公开的实施方式的服务器。服务器200包括服务器处理器205。服务器处理器是控制服务器200的操作的电路。因此，服务器处理器205可以是运行计算机可读指令以执行本公开的实施方式的专用集成电路或微处理器。

另外连接到服务器处理器205的是服务器存储器210。服务器存储器210可体现为固态存储器或磁可读存储器，并包含用于控制服务器处理器205的软件指令。此外，服务器存储器210还可包括由相机100捕获的图像和/或音频。服务器通信电路220从相机100接收存储在服务器存储器210中的图像/音频。服务器通信电路220连接到服务器处理器205并且是通过网络与相机200通信的电路。如参考图1所说明的，网络可以是符合LTE标准或任何更近的3GPP或类似标准的电信网络。

另外连接到服务器处理器205的是服务器控制电路225。服务器控制电路225接收来自用户的输入。用户可提供输入以使用类似于参考图3说明的图形用户界面的图形用户界面来控制编辑，或者可提供音频输入以经由服务器通信电路220向相机100的操作者传送口头指令，以便相机操作者以特定方式控制相机100以捕获在最终广播内容中使用的音频/视频。

图3示出了连接到服务器200的用户可使用的图形用户界面。服务器200可由经由服务器控制电路225将膝上型计算机或平板计算机等连接到服务器200的用户来控制。当被连接时，将向可以是制作人的服务器的用户呈现用户界面300。用户界面包含媒体内容的预览屏幕305，在实施方式中，媒体内容是音频内容和/或视频内容(下文中称为音频/视频内容)。然而，设想媒体内容还可包括静止图像或任何种类的媒体内容。预览屏幕305示出了显示了实况流在用户选择的应用到相机馈送上的编辑后的样子的预览屏幕。用户界面300还包括当前跨网络(诸如广播网络)或通过互联网分发到不同馈送(诸如

还示出了六个相机馈送320。每个相机馈送是由每个相机捕获的内容的表示。换言之，每个相机馈送示出了捕获内容的较低分辨率表示，使得控制界面300的编辑可使用编辑功能315来编辑内容，以生成部分310中所示的实况屏幕。通常，较低分辨率表示的大小较小(即，由较少像素组成)，但本公开不限于此。在每个相机馈送320下方的是突出显示部分325。它向用户提供视觉指示以示出哪个相机馈送当前正在馈送310中实况广播。例如，在相机馈送被广播时，指示器325可呈现绿色。

此外，在每个相机馈送下方的是方向箭头330。方向箭头允许用户界面300的操作者远程地调整相机100的俯仰、倾斜、摇摄和缩放。使用从服务器200发送到相机100的控制信号来提供这些控制。最后，示出了对话图标335，其允许制作人控制服务器200与相机100的操作者直接通信。换言之，这允许制作人直接与相机操作者通信以利用相机执行不同功能，诸如手动地改变所捕获的场景或相机参数。

图4示出了说明虚拟制作系统400的示意图，诸如来自

如稍后将说明的，内容被发送到位于互联网430上的云切换和混合器410。云切换和混合器410允许输出的现场编辑的内容根据多个输入内容制作。

另外，将控制数据发送到多个相机405。控制数据可以是控制多个相机中的一个或多个相机的操作的任何种类的控制数据。作为实例，控制数据可包括但决不限于控制相机的缩放操作的缩放控制数据、控制相机的摇动/倾斜的摇动/倾斜控制数据等。由于控制数据控制多个相机405中的一个或多个相机的操作，所以控制数据是时间关键数据。控制数据经由网络425从云切换和混合器410发送。如稍后将说明的，由使用图形用户界面300生成控制数据的制作团队生成控制数据。

最后，制作人员音频被发送到制作人员，诸如相机操作者或声音工程师。制作人员音频由制作团队生成并且由针对制作人员的口头指令组成。例如，制作团队可指示相机操作者改变正捕获的内容的主题或可指示声音工程师减小远程拾音器的灵敏度。当然，制作人员音频可以是双向或多向的，并且允许人员(诸如相机操作者或声音工程师)也对制作团队作出响应或向制作团队问问题。通常，制作人员音频是时间关键音频，因为制作人员将需要快速地改变相机或设备件上的设置或移动相机指向不同的主体。在实施方式中，制作人员音频由制作团队使用图形用户界面300生成。

内容分发网络415附接到云切换和混合器410。内容分发网络(CDN)415可以是软件平台，诸如

另外附接到云切换和混合器410的是制作团队420。制作团队可以是与位于用户的设备(诸如膝上型计算机、平板计算机等)上的图形用户界面300交互并且通过互联网430连接到云切换和混合器410的一个或多个人。如上所述，制作团队生成发送到云切换和混合器410的控制数据和制作人员音频。

应当注意，来自多个相机405中的每一个相机的相应内容馈送作为代理内容馈送被发送到制作团队。在该上下文中，“代理内容馈送”是指由相机捕获的内容的缩减版本。换言之，相机输出的代理内容是指捕获内容的表示，捕获内容的表示的大小比捕获内容小。在这种情况下，较小大小是指表示内的数据量小于捕获内容的数据量，且可指捕获内容的表示的分辨率比捕获内容更低，或可经受诸如I帧压缩等的压缩。代理内容的生成是已知的，因此为了简洁起见，将不再详细描述。在图形用户界面300的部分320中针对每个相机馈送示出了代理内容，并且该代理内容被制作团队用来生成图形用户界面300的预览部分305。这提供了编辑内容的缩减版本。然后，相应地编辑高质量的捕获内容。通过CDN 415发送编辑的、由相机捕获的高质量内容。换言之，提供捕获内容的编辑版本，其中，对捕获内容的编辑基于捕获内容的表示。

因此，为了增加生成编辑内容的速度，重要的是快速地提供捕获内容(代理内容馈送)的表示。假定在云切换和混合器410处生成捕获内容的表示，则向云切换和混合器410提供捕获内容的延迟延迟了捕获内容的表示的制作，并因此延迟了编辑内容的表示的制作。

如将明显的，捕获内容、控制数据、制作人员音频和代理视频馈送全部通过互联网430提供。具体地，经由电信网络将捕获内容、控制数据和制作人员音频提供给云切换和混合器410(其位于互联网上)。然后，由云切换和混合器410通过互联网将代理视频馈送提供给制作团队。

可以对图4的系统进行多项改进。首先，如上所述，控制数据和制作人员音频数据是分别传递到多个相机405和制作人员的时间关键信息。在图4的系统中，在生成控制数据和/或制作人员音频以及在所需目的地接收信息时可能存在一些延迟。这是不希望的。

此外，由于使用了长图片组(GOP)，因此在向云切换和混合器410提供视频内容时的延迟长。长GOP用于降低跨电信网络的数据速率。

图5示出了根据本公开的一个实施方式的系统。图5的系统500包含图4中也存在的特征。为了方便起见，相同的特征将具有相同的附图标记，并且为了简洁起见将不再描述。

图5的系统示出了均位于互联网上的内容分发网络415和制作团队420。这些特征中的每个特征的功能与参考图4描述的那些相同，因此在下文中将不再描述。

然而，在本公开的实施方式中，提供了跨网络的第一网络路径和第二网络路径。重要的是，第一网络路径和第二网络路径具有不同级别的延迟。具体地，第一网络路径具有比第二网络路径更高的延迟。在本公开的实施方式中，如将说明的，跨这两个网络路径的不同数据的路由旨在改进图4的系统。

根据本公开的实施方式，在捕获内容的同时，在多个相机505中的每个相机内生成捕获内容(代理馈送)的较小大小的表示。然后，捕获内容被通过第一网络路径发送到云切换和混合器410。具体地，然后，捕获内容被通过第一网络路径发送到云切换和混合器410A的第一部分，并且代理馈送被通过第二网络路径发送到云切换和混合器410B的第二部分。

然后，制作团队编辑捕获内容的表示以生成媒体内容的输出。换言之，制作团队的编辑是在通过第二网络路径接收的捕获内容的表示上执行的。编辑决策列表(或定义媒体内容的编辑步骤的其他指令)从云切换和混合器410B的第二部分发送至云切换混合器410A的第一部分。这些指令将被云切换混合器410A的第一部分用来编辑捕获内容。换言之，对捕获内容的表示执行的编辑步骤随后在云切换混合器410A的第一部分中对捕获内容本身执行。

在实施方式中，云切换和混合器410包括第一部分410A和第二部分410B；第一部分410A被配置为处理由多个相机505捕获的内容，并且第二部分410B被配置为处理制作人员音频、控制数据和代理馈送。

当然，本公开不受限制。例如，图4的云切换和混合器410可以在实施方式中使用，而不需要参考图5说明的特定配置。此外，本公开不限于制作代理馈送的相机505中的一个或多个相机。事实上，代理馈送可由任何设备制作。然而，重要的是内容的较小的大小表示是通过较低延迟(第二)网络路径发送的。

在图5的实施方式中，控制数据和制作人员音频也通过第二网络路径发送。在实施方式中，控制数据和制作人员音频被从云切换和混合器410B的第二部分分别发送至相机和制作人员。在实施方式中，控制数据和制作人员音频可选地通过第二网络路径发送。应注意，本公开不限于此。具体地，控制数据和制作人员音频中的一个可以或两个都不可以通过第二网络路径发送。当然，在其他实施方式中，控制数据和制作人员音频中的任一者或两者可通过第三网络路径或第四网络路径发送。

在实施方式中，由多个相机505捕获的内容通过第一网络路径425A发送。第一网络路径425A具有比第二网络路径425B更高的延迟。在实施方式中，第一网络路径425A具有比第二网络路径425B更高的带宽。这允许捕获内容被发送到云切换和混合器410A的第一部分。

由于捕获内容的表示(代理内容馈送)将先于由多个相机505捕获的内容到达云切换和混合器410，因此制作团队420可以比图4的系统400中的情况更快地开始编辑内容的表示。这是因为代理内容通过具有比第一网络路径425A更低的延迟的第二网络路径425B来发送。由于捕获内容的表示用于编辑捕获内容，并且由于捕获内容的表示通过较低延迟的网络路径被发送，因此将先于捕获内容到达云切换和混合器410，因此制作团队420可开始编辑内容。因而，当捕获内容到达云切换和混合器410时，可生成编辑内容。当基于捕获内容的表示来生成编辑内容时，图5的系统中的编辑内容比图4的系统中的编辑内容更快地被提供。

当代理内容馈送通过允许编辑更快地发生的第二网络路径425B发送时，可以使用长GOP压缩来压缩捕获内容。

由于捕获内容的表示是与捕获内容分开提供的，因此在捕获内容的表示内或在捕获内容本身内提供关联。该关联允许捕获内容的表示与捕获内容链接，使得基于该表示的编辑决定可被应用于捕获内容本身。该关联可以采取许多形式。例如，可将唯一标识符提供到捕获内容的表示和对应的捕获内容两者。这个唯一标识符可以是任何种类的元数据，诸如时间戳(或更一般地，定时信息)或唯一材料标识符(UMID)或允许这种关联的任何形式的机制。

尽管上文论述了在捕获内容的表示内或在捕获内容本身内提供关联，但本发明不受限制。例如，可将图像匹配算法应用于表示和捕获内容，且可基于图像匹配算法进行关联。这种图像匹配算法是本领域技术人员已知的，并且因此为了简洁起见，在此不再进一步描述。

编辑命令和捕获视频的帧作为切换器命令从云切换和混合器410B的第二部分被发送到云切换和混合器410A的第一部分。切换器命令是使得捕获内容能够基于内容的表示在云切换和混合器410A的第一部分内被编辑的命令。

在本公开的实施方式中，网络425A的第一部分和网络425B的第二部分可以是同一网络基础设施内的不同网络切片。如本领域技术人员将理解的，网络切片是在固定网络中使用软件定义网络(SDN)和网络功能虚拟化(NFV)背后的相同原理的虚拟网络架构的形式。当然，如将理解的，可以设想任何类型的网络切片，诸如延伸到但不限于空中接口、回程等的端到端网络切片。网络切片允许在公共共享物理基础设施之上创建多个虚拟网络。每个虚拟网络被隔离并且在带宽、延迟、误码率和甚至可用性方面具有不同的特性。

当然，本公开不限于此。例如，网络425A的第一部分和网络425B的第二部分可以是不同的网络。因此，网络425A的第一部分可以是无线网络，并且网络425B的第二部分可以是有线网络。

根据实施方式，图5的系统可以得到进一步改进。具体地，在图5的系统500中，仍然至少部分地通过互联网提供控制数据、代理内容馈送和制作人员音频(这些都是时间关键数据)。这导致抖动和延迟的增加。

为了尝试并解决这个问题，在实施方式中，提供了图6的系统。如将理解的，图5的许多特征存在于图6中。这些特征具有相同的附图标记，并且为了简洁起见将不再描述。

图5的系统500与图6的系统600之间的区别是在边缘计算上提供云切换和混合器410B的第二部分和制作团队420。如已知的，边缘计算通常是在网络边缘附近的设备上处理数据的实践，其中，通过第二网络路径425B接收数据。换言之，通过第二网络路径425B接收的数据在被提供给云切换和混合器410B的第二部分和制作团队420之前不经过许多路由器和防火墙。这减少了处理时间关键数据的延迟。

虽然上文描述了将云切换和混合器410B的第二部分和制作团队420置于边缘计算上，但是本公开不限于此。例如，云切换和混合器410A的第一部分可位于边缘计算上。

图7示出了根据本公开的实施方式的相机505的表示。如上所述，每个相机505在捕获内容的同时制作捕获内容的表示；通过第二网络路径425B发送捕获内容的表示。相机505非常类似于图1中所示的相机100。

相机505包括相机处理器605。相机处理器可由被布置为运行计算机软件以控制相机505的操作的电路组成。例如，相机处理器605可以是微处理器或专用集成电路(ASIC)或任何种类的适当电路。

相机处理器605被连接至相机存储器610。相机存储器可以与相机505集成，或者可以是在操作期间被插入到相机505中的外部存储卡或其任何组合。设想相机存储器610将存储计算机程序和计算机指令，该计算机程序和计算机指令将由相机处理器605使用以控制相机505的操作。在实施方式中，相机存储器610可以是永久的或半永久的(可删除的)，并且可以处于这样的配置：相机存储器610的部分是存储装置，该存储装置可以是临时存储装置，诸如缓冲器或更永久的存储装置，并且部分用于更永久地记录捕获内容。在实施方式中，相机存储器610将用作至少临时存储内容的缓冲器，如稍后将说明的。

另外连接到相机处理器605的是相机通信电路620。相机通信电路620通过上述网络与服务器200通信(如图2中所说明的)。

另外连接到相机处理器605的是相机控制电路615。相机控制电路615经由相机通信电路620通过网络接收控制指令，并且根据如参考图1所描述的接收的控制信息来控制相机100的操作。例如，控制信息可包括用于控制相机505捕获图像的镜头布置的俯仰、摇摄和缩放的信令。替代或另外地，相机控制电路615可从制作人的服务器200接收指示相机操作者执行不同功能的音频数据。例如，制作人可指示相机操作者捕获场景的不同部分或手动地更改相机505上的缩放设置。

在本公开的实施方式中，捕获的内容可选地被压缩并存储在存储器610中。在该实施方式中，存储器被配置为缓冲器，并且在相机处接收到来自云切换和混合器410B的第二部分的释放命令时，通过第一网络部分425A发送捕获内容。该释放命令包括在通过第二网络路径425B发送的控制数据中并且在大小上小于捕获内容。释放命令包括要释放的捕获内容的标识符。该标识符可以是唯一地标识捕获内容与其他内容的唯一材料标识符或时间码。

具体地，当制作团队420确定在云切换和混合器410A的第一部分中需要捕获内容来生成编辑的捕获内容时，从云切换和混合器410B的第二部分发送释放命令。换言之，如上所述，制作团队420使用通过较低延迟的第二网络部分425B发送的代理馈送来确定编辑内容，以及当需要相应的捕获内容来制作编辑的捕获内容时，向相机发出释放命令，指示相机505内的存储器610将捕获内容通过第一网络路径425A传送到云切换和混合器410A的第一部分。已被传送的捕获内容被提供给云切换和混合器410A的第一部分以制作编辑内容。

在一些实施方式中，释放命令可基本上同时被发送到两个或更多个相机。例如，如果需要一起编辑来自两个或更多个相机的捕获内容，则将发生这种情况。在该实例中，相机标识符可被包括在释放命令中以识别释放命令去往的相机。该相机标识符可以在相机的设置期间手动地设置，或者可以是相机的MAC地址等。当然，释放命令可直接发送到每个相机，并且在这种情况下，不需要相机标识符。

如果在预定时段内没有提供用于捕获内容的释放命令，则删除该捕获内容。这降低了对捕获内容的存储要求。此外，在实施方式中，可删除早于已经接收到释放命令的捕获内容捕获的内容。这是因为这种较早捕获的内容将不会用于编辑内容，并且将减少捕获内容所需的存储器。当然，本公开不限于此，捕获内容可被本地存储以供稍后使用，或者可在例如第一网络路径410A具有低使用率的稍后时间使用第一网络路径425A被传送到云切换和混合器410A的第一部分。

通过响应于释放命令提供捕获内容，跨第一网络路径425A传送的数据量较少。此外，由于释放命令在大小上小于捕获内容，所以作为整体跨网络425传送的数据量减少。

具体地，在图4的示例中，如果我们假设六个相机505中的每个相机是4K相机，则每个相机每小时将制作约22GB的媒体内容。因此，如果六个相机中的每一个相机都通过第一网络部分425A向第一云切换和混合器410A传送该数据，则一小时将存在约132GB的媒体内容跨第一网络部分425A传送。

然而，在仅需要来自两个相机的媒体内容的情况下，跨第一网络部分425A传送的媒体内容的量将约为每小时44GB。显然，明显节省了网络资源。

图8示出了其中虚拟现实的头戴式视图器700跨网络425连接到服务器1200的系统800。

服务器1200包括服务器处理器1205。服务器处理器1205是控制服务器1200的操作的电路。因此，服务器处理器1205可以是运行计算机可读指令以执行本公开的实施方式的专用集成电路或微处理器。

另外连接到服务器处理器1205的是服务器存储器1210。服务器存储器1210可以体现为固态存储器或磁可读存储器，并且包含用于控制服务器处理器1205的软件指令。此外，服务器存储器1210还可包括虚拟现实环境，如稍后将参考图9A至图9C说明的。服务器通信电路1220连接到服务器处理器1205并且是跨网络425与虚拟现实的头戴式视图器700通信的电路。如参考图1所说明的，网络425可以是符合LTE标准或任何3GPP标准的电信网络。

另外连接到服务器处理器1205的是服务器控制电路1215。服务器控制电路1215接收来自用户的输入。用户可使用图形用户界面提供输入。

网络425具有如以上参考图5所描述的第一网络部分425A和第二网络部分425B。图8的第一网络部分425A和第二网络部分425B具有与图5的这些特性类似的特性。具体地，第一网络部分425A具有比第二网络部分425B更高的延迟，并且在实施方式中，第一网络部分425A具有比第二网络部分425B更高的带宽。应注意，为了确保低延迟网络，应保守地执行第二网络部分425B的使用。换句话说，较低延迟网络上的资源通常比较高延迟网络上的资源更昂贵。

图9A至图9C说明了由本公开的实施方式解决的问题。在图9A中，示出了可在虚拟现实环境中使用的图像900。具体地，图像900示出了位于用户可在其周围移动的虚拟现实环境内的多个形状。在图9B中，示出用户从当前(第一)视图705移动到新(第二)视图710。换言之，用户移动他或她的头部，并且因此在虚拟现实的头戴式视图器上向用户示出的视图从当前视图705变为新视图710。使用虚拟现实的头戴式视图器700内的传感器(诸如已知的加速度计和陀螺仪)来确定用户的头部位置并且因此确定向佩戴虚拟现实的头戴式视图器700的用户显示的视图。

参考图9C，在曲线图715中示出了该移动。具体地，在当前偏转值处，向用户示出视图705。该视图包括一个或多个图片组。换言之，当前视图可能是运动图像。然而，当用户移动他们的头部并且因此视图从当前视图705移动到新视图710时，第二图片组流需要由虚拟现实的头戴式视图器700解码。具体地，如从曲线图715显而易见的，用户在当前视图705的GOP流的解码期间移动他们的头部。这是指在可以显示新视图的内容之前需要对第二GOP进行解码。因而，存在当用户将其头部从当前视图705移动到新视图710时将不被解码的缺失内容。这在图9C中被识别为散列区域。

目前，存在用于解决该问题的技术。首先，当用户从当前视图移动到新视图时，暂停当前视图以在对第二GOP进行解码的同时示出静止图像。这提供了避免向用户示出空白屏幕的机制，但是在诸如计算机游戏等的快速移动场景中，这是不期望的。

另一技术是除了当前视图705(其为高分辨率流)之外，整个图像900的低分辨率流被发送到头戴式视图器。这允许在解码高分辨率GOP的同时将低分辨率流示出为新视图。这提供了在新视图中示出运动图像的机制，但是在发送整个图像时，消耗大量带宽并且需要虚拟现实的头戴式视图器700内的额外处理。

本公开的实施方式旨在提供一种在用户的视图从当前视图705变为新视图710时允许向虚拟现实的头戴式视图器提供运动图像的机制。这是使用具有第一网络部分425A和第二网络部分425B的网络来实现的。

参考图10，示出了旨在解决参考图9A至图9C所描述的问题的本公开的实施方式。

如从图10显而易见，在时间801期间发送用于当前视图705的流。在第二GOP的传输期间(在时间805开始)，用户将其头部移动到新视图710。从当前视图到新视图的转变发生在时间810。在图9C的说明中，可在转变期间示出当前视图的静态图像，同时示出与新视图相关联的第二GOP。然而，在图10的实施方式的情况下，经由第二网络部分425B(较低延迟部分)发送新视图的低分辨率版本。该低分辨率版本是新视图的低分辨率运动图像。该内容在时段802期间被发送。

当经由第二网络部分425B发送新视图的低分辨率运动图像时，在向虚拟现实的头戴式视图器700提供缺失内容方面存在减少的延迟。这是指随着用户移动其头部，从解码的新视图中缺失了较少量的内容，并且因此确保在用户的视图改变时，用户不会感觉到任何内容缺失。换言之，当用户移动其头部时显示给用户的视图是用户不太可能注意到的低分辨率新视图的低分辨率版本移动图像，因为在提供较低分辨率版本的同时用户移动他们的头部。这改善了用户体验并且解决了图9A至图9C中提到的问题。

在时间段815处，通过第一网络部分425A(网络的较高延迟部分)提供新视图的运动图像的全分辨率版本(流B)。这是因为当用户将观察流B的较低分辨率版本时，立即提供流B的要求降低。通过在第一网络部分425A上发送新视图的全分辨率版本，减少了对网络的较低延迟部分的使用。这改进了网络425的资源的总体使用。在实施方式中，第一网络部分425A是比第二网络部分425B更高的带宽。这允许及时地向观察者提供流B，这确保快速提供全分辨率的新视图。

图11示出了对图10的实施方式的进一步改进。在图11的实施方式中，原始视图705与新视图710具有大量重叠。在实施方式中，为了减少经由较低延迟(第二网络部分425B)发送的数据量，新视图的重叠区域不跨第二网络部分425B传输。换言之，只有新视图的非重叠区域将通过第二网络部分425B传输。这减少了将通过第二网络部分425B发送的数据量。

当然，本公开不限于此。在其他实施方式中，新视图的重叠区域可以本地存储在虚拟现实的头戴式视图器700内，并且在这种情况下，重叠区域完全不需要跨网络传输。

还可以全分辨率地传输新视图的非重叠区域。换言之，将通过第二网络部分425B传输较小数量的像素。这是指当用户从原始视图移动到新视图的同时减少在第二网络部分425B中使用的资源量时，用户将注意到新视图的质量没有降低。因此，在实施方式中，通过第二网络部分425B发送新视图的非重叠区域的全分辨率版本。因而，可以结合通过第二网络部分425B发送的非重叠区域的全分辨率版本，使用新视图的重叠区域的全分辨率版本来全分辨率地重构新视图。

为了重构新视图，虚拟现实的头戴式视图器700将解码新视图的非重叠区域。新视图的解码的非重叠区域将与新视图的本地存储在虚拟现实的头戴式视图器700内的重叠区域一起显示(因为重叠区域先前由虚拟现实的头戴式视图器700显示)。这构造了新视图。设想将使用基带(未压缩)图像来执行构造。

另外，整个图像900的低分辨率版本可通过网络发送。这是可选的。在观察者非常快速地移动其头部并且在非重叠区域中的像素数量高于阈值数量的情况下，使用整个图像900的低分辨率版本。换言之，在一个视频帧周期中需要通过第二网络部分425B发送的像素的数量高于阈值数量。在这种情况下，整个图像900的低分辨率版本可用于填充不能通过第二网络部分425B发送的非重叠区域。换言之，从整个图像900的低分辨率版本提取非重叠区域并将其与重叠区域(其先前部分地显示在虚拟现实的头戴式视图器上)组合并且显示给用户。实际上，本公开内容不限于此，并且可以结合重叠区域向用户示出与非重叠区域对应的整个图像的低分辨率版本。这是指用户将仅具有以低分辨率示出的非重叠区域，并且因此将改善用户体验。

图12示出了与图11的实施方式不同的实施方式。在图12的实施方式中，通过第二网络部分425B发送局部背景1105。该局部背景1105小于整个视图1100。例如，局部背景可在大小上小于整个视图1100，或可具有比整个视图1100低的分辨率。特别地，局部背景1105稍微大于原始视图705和新视图710的边界。具体地，局部背景1105的边界的大小可以由用户在单个帧周期上将能够进行的最大移动量定义。换言之，用户可以在一个帧周期中实现的最大移动量。在实施方式中，该局部背景1105具有高分辨率。然而，本公开不限于此。这是指不需要将完整背景发送到头戴式视图器700。此外，通过发送局部背景1105，对通过第二网络路径425B发送的数据的需求是不变的。

局部背景的大小可取决于一个或多个因素。例如，局部背景的大小可以与虚拟现实的头戴式视图器700的用户的历史头部移动或正在显示的整个视图相关联。例如，在整个视图是快速移动计算机游戏(其中用户通常快速移动其头部)的情况下，那么边界的大小可大于用户通常在观看其他内容的同时缓慢移动其头部的情况。另外，在局部背景的大小较小的情况下，可以例如成比例地增加局部背景的分辨率。换言之，局部背景的分辨率可根据局部背景的大小而改变。

另外，局部背景的大小可取决于整个视图的内容。例如，整个视图的内容可以是网球比赛，其中头部位置由球的移动来预测并且通常被限制为接近网球场的边界。另一示例是如果整个视图的内容是音乐会，其中用户的头部位置由舞台预测并且通常被限制为接近网球场的边界。在这些示例中的任一个示例中，与头部跟随球的移动较不可预测的足球比赛等相比，局部背景的大小可以更小并且局部背景的分辨率可相应地增加。

图13示出了图11的实施方式的变型1200。具体地，在图13的实施方式中，新视图710具有较低质量并且没有发送整个图像。通过第二网络部分425B发送新视图710。如上所述，这确保了用户将看到运动图像，并且因此将改善用户的总体体验。

虽然图7至图13的公开内容描述了正被编码为图片组(GOP)的当前视图和新视图，但本公开不限于此。例如，可使用任何图像压缩技术，诸如可改为使用帧内编码。这允许新视图被快速解码，并且一个帧的解码不依赖于前一帧的解码。

另外，通过低延迟网络部分发送的视图可以比实时更快地发送和解码。这确保了填充缺失的内容所花费的时间小于一个帧周期，并且因此观察者不会错过任何内容。

显然，鉴于以上教导，本公开的众多修改和变型是可能的。因此，应当理解，在所附权利要求的范围内，可以以不同于本文具体描述的方式来实践本公开。

就本公开的实施方式已被描述为至少部分地被软件控制的数据处理装置实施而言，将认识到承载这种软件的非暂时性机器可读介质，诸如光盘、磁盘、半导体存储器等也被认为代表本公开的实施方式。

将理解的是，为了清楚起见，以上说明书已经参考不同的功能单元、电路和/或处理器描述了实施方式。然而，将显而易见的是，可以在不偏离实施方式的情况下使用不同功能单元、电路和/或处理器之间的任何合适的功能分布。

所描述的实施方式能够以任何合适的形式，包括硬件、软件、固件或这些的任何组合实现。所描述的实施方式可任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。任何实施方式的元件和组件可用任何合适的方式在物理上、功能上和逻辑上实现。实际上，该功能性可以以单个单元、多个单元或作为其他功能单元的一部分来实现。因此，所公开的实施方式可以在单个单元中实现，或者可以在物理上和功能上分布在不同的单元、电路和/或处理器之间。

尽管已结合一些实施方式描述了本公开，但本公开并不旨在限于本文所阐述的特定形式。另外，尽管特征可能看起来结合特定实施方式来描述，但所属领域的技术人员将认识到，所描述的实施方式的不同特征可以适于实现该技术的任何方式组合。

本公开的实施方式可总体上参考以下段落来描述：

1.一种提供经编辑的媒体内容的方法，包括：

生成捕获内容和捕获内容的表示，该捕获内容的表示的大小比该捕获内容更小；

通过跨网络的第一网络路径提供捕获内容且通过跨网络的第二网络路径上提供捕获内容的表示，第一网络路径具有比第二网络路径更高的延迟；

生成所接收的捕获内容的表示的编辑版本；并且

提供捕获内容的编辑版本，对捕获内容的编辑基于对捕获内容的表示的编辑。

2.根据项1所述的方法，其中，使用相机捕获内容，并且该方法包括：

通过第二网络路径传送用于相机的操作者的音频和用于相机的控制信息中的至少一者。

3.根据项1所述的方法，包括：

向元数据提供捕获内容和捕获内容的表示，元数据用于使捕获内容与捕获内容的对应表示相关联。

4.根据项1所述的方法，其中，第一网络路径具有比第二网络路径更高的带宽。

5.根据项1所述的方法，其中，使用相机捕获内容，并且该方法包括：

在通过第一网络路径提供捕获内容之前存储该捕获内容；

通过第二网络路径提供捕获内容的表示；

通过第二网络路径接收释放信号；并且

响应于该释放信号，通过第一网络路径提供捕获内容。

6.根据项1所述的方法，包括：

当生成所接收的内容的表示的编辑版本时创建编辑指令；并且

基于所创建的编辑指令来编辑捕获内容。

7.根据项6所述的方法，其中，创建编辑指令是在边缘计算时执行的。

8.根据项1所述的方法，其中，第一网络路径和第二网络路径中的任一者或两者跨电信网络。

9.一种包括计算机可读指令的计算机程序产品，该计算机可读指令在被加载到计算机上时将计算配置为执行根据项1所述的方法。

10.一种用于提供编辑的媒体内容的装置，该装置包括电路，该电路被配置为：

生成捕获内容和捕获内容的表示，捕获内容的表示的大小比捕获内容更小；

通过跨网络的第一网络路径提供捕获内容且通过跨网络的第二网络路径提供捕获内容的表示，第一网络路径的延迟比第二网络路径更高；

生成所接收的捕获内容的表示的编辑版本；并且

提供捕获内容的编辑版本，对捕获内容的编辑基于对捕获内容的表示的编辑。

11.根据项10所述的装置，其中，使用相机捕获内容，并且该电路被配置为：

通过第二网络路径传送用于相机的操作者的音频和用于相机的控制信息中的至少一者。

12.根据项10所述的装置，其中，该电路被配置为：

向元数据提供捕获内容和捕获内容的表示，元数据用于使捕获内容与捕获内容的对应表示相关联。

13.根据项10所述的装置，其中，第一网络路径的带宽比第二网络路径更高。

14.根据项10所述的装置，其中，使用相机来捕获内容，并且电路被配置为：

在通过第一网络路径提供捕获内容之前存储捕获内容；

通过第二网络路径提供捕获内容的表示；

通过第二网络路径接收释放信号；并且

响应于该释放信号，通过第一网络路径提供捕获内容。

15.根据项10所述的装置，包括电路，该电路被配置为：

当生成所接收的内容的表示的编辑版本时创建编辑指令；并且

基于所创建的编辑指令来编辑捕获内容。

16.根据项15所述的装置，其中，创建编辑指令是在边缘计算时执行的。

17.根据项10所述的装置，其中，第一网络路径和第二网络路径中的任一者或两者跨电信网络。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于提供经编辑的视频内容的方法、装置和计算机程序 [P] . 中国专利： CN112740716A . 2021-04-30
2. 用于提供、编辑并播放视频内容的设备及其方法 [P] . 中国专利： CN105531737A . 2016-04-27
3. A METHOD, APPARATUS AND COMPUTER PROGRAM FOR PROVIDING EDITED VIDEO CONTENT [P] . EP3837853A1 . 2021-06-23

机译：用于提供编辑的视频内容的方法，装置和计算机程序
4. SERVER FOR PROVIDING VIDEO CONTENTS, DEVICE AND METHOD FOR PREPARING FILE FOR VIDEO CONTENTS RETRIEVAL, COMPUTER PROGRAM AND DEVICE AND METHOD FOR SUPPORTING VIDEO CLIP PREPARATION [P] . 日本专利： JP2003030204A . 2003-01-31

机译：提供视频内容的服务器，准备用于视频内容检索的文件的装置和方法，计算机程序和装置以及支持视频剪辑准备的方法
5. A METHOD, APPARATUS AND COMPUTER PROGRAM FOR PROVIDING EDITED VIDEO CONTENT [P] . 世界知识产权组织专利： WO2020152450A1 . 2020-07-30

机译：提供编辑视频内容的方法，装置和计算机程序