首页> 中国专利> 用于在采用每个具象的渲染环境的虚拟现实系统中提供实时的每个具象的流数据的可扩展技术

用于在采用每个具象的渲染环境的虚拟现实系统中提供实时的每个具象的流数据的可扩展技术

摘要

本发明涉及用于渲染使用流数据的分段所表示的发射的可扩展(scalable)技术,所述发射是从许多感知点潜在地可感知的并且所述发射与所述感知点具有实时变化的关系。所述技术通过确定在时间片内给定的发射对于给定的时间点是否可感知来过滤所述分段。如果不可感知,则表示所述发射的流数据的分段不被用于渲染从所述给定的感知点所感知的发射。所述技术被用在连网的虚拟环境中以渲染在连网的虚拟现实系统中的客户端处的音频发射。在音频发射的情况下,给定的发射在给定的感知点处是否可感知的一个判定是其他发射的心理声学特性是否掩盖所述给定的发射。

著录项

  • 公开/公告号CN102186544A

    专利类型发明专利

  • 公开/公告日2011-09-14

    原文格式PDF

  • 申请/专利权人 维沃克斯公司;

    申请/专利号CN200980110115.3

  • 申请日2009-01-17

  • 分类号A63F13/12(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人臧霁晨;高为

  • 地址 美国马萨诸塞州

  • 入库时间 2023-12-18 03:13:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-07

    专利权的转移 IPC(主分类):A63F13/30 登记生效日:20181120 变更前: 变更后: 申请日:20090117

    专利申请权、专利权的转移

  • 2014-05-14

    授权

    授权

  • 2011-11-02

    实质审查的生效 IPC(主分类):A63F13/12 申请日:20090117

    实质审查的生效

  • 2011-09-14

    公开

    公开

说明书

交叉引用

本专利申请的内容与Rafal Boni等人于2008年1月17日提交的题为“相关性路由系统(Relevance Routing System)”的美国临时专利申请61/021729相关并且要求其优先权,特此通过引用将其整体并入。

背景技术

技术领域

在此所公开的技术涉及虚拟现实系统并且更具体地涉及在多具象虚拟环境中对流数据的渲染。

现有技术说明

虚拟环境

术语虚拟环境-缩写为VE-在本上下文中指由计算机系统所创建的环境,该环境的行为在许多方面遵照计算机系统的用户对于现实世界的环境的预期。产生该虚拟环境的计算机系统在下文中被称作虚拟现实系统并且由该虚拟现实系统对虚拟环境的创建被称作渲染虚拟环境。虚拟环境可以包括具象,在本上下文中实体属于具有该虚拟环境中的感知点的虚拟环境。虚拟现实系统可以为具象将虚拟环境渲染成从该具象的感知点所感知的那样。虚拟环境系统的用户可以与该虚拟环境中的特定具象相关联。虚拟环境的历史和发展的总览可以在2007年10月的IEEE计算机的“3D世代:活在虚拟世界中”(″Generation 3D:Living in Virtual Worlds″,IEEE Computer,October 2007)找到。

在许多虚拟环境中,与具象相关联的用户可以经由具象与虚拟环境相互作用:用户不仅能从具象的感知点来感知虚拟环境,还能改变具象在虚拟环境中的感知点并且另外改变具象与虚拟环境之间的关系或者改变虚拟环境本身。这样的虚拟环境在下文中被称作互式虚拟环境。随着高性能个人计算机和高速连网的出现,虚拟环境-并且特别是其中用于许多用户的具象同时与虚拟环境相互作用的多具象交互式虚拟环境-已经从工程实验室和专门的应用领域进入了广泛使用。这样的多具象虚拟环境的示例包括具有大规模图形和视觉内容的环境,像大型多人在线游戏-MMOG的那些环境,诸如Worldof以及用户定义的虚拟环境的环境-诸如Second在这样的系统中,虚拟环境的每个用户由该虚拟环境的具象来表示,并且每个具象基于在虚拟环境中具象的虚拟位置以及其他方面而在虚拟环境中具有感知点。虚拟环境的用户经由诸如PC或者工作站计算机的客户端计算机在虚拟环境内控制它们的具象并且相互作用。使用服务器计算机来进一步实现虚拟环境。根据从服务器计算机所发送的数据在用户的客户端计算机上产生用于用户的具象的渲染。通过网络以数据分组在虚拟现实系统的客户端计算机与服务器计算机之间传送数据。

这些系统中的大部分向用户的具象呈现虚拟环境的虚拟图像。一些虚拟环境向用户呈现更进一步的信息,诸如用户的具象在虚拟环境中听见的声音,或者为了来自具象的虚拟触感的输出。虚拟环境和系统也被设计成主要地或者单独地包括到用户的可听输出,诸如在夫琅和费研究所(Fraunhofer Institute)开发的LISTEN系统所产生的那些,这在2003年7月份德国的Fraunhofer-Institut fuerMedienkommunikation的″Neuentwicklungen auf dem Gebiet derAudio Virtual Reality″中被描述。

如果虚拟环境是交互式的,则用于用户的具象的外观和动作是虚拟环境中的其他具象感知(看见或者听见等等)的如表示用户的外观和动作的那样东西。当然,不要求具象表现为或者被感知为与任何特定实体相像,并且用于用户的具象可以有意地表现为与用户的实际外观相当不同-与“现实世界”中的交互相比,这是对在虚拟世界中交互的许多用户有吸引力的方面之一。

因为虚拟环境中的每个具象具有单独的感知点,在多具象的虚拟环境中虚拟现实系统必须为不同的具象不同地渲染虚拟环境。第一具象感知(例如“看见”等)的东西将是来自一个感知点的,而第二具象感知的东西将是不同的。举例来说,具象“Ivan”可能从特定位置以及虚拟方向“看见”具象“Sue”和“David”及虚拟的桌子,但是没有看见具象“Lisa”,因为该具象在虚拟环境中在Ivan“后面”并且因此“在视野之外”。与此同时,不同的具象“Sue”可能从完全不同的角度看见具象Ivan、Sue、Lisa和David以及两张椅子。这个时候,另一个具象“Maurice”在虚拟环境中可能处于完全不同的虚拟位置,并且没有看见具象Ivan、Sue、Lisa或者David中的任何一个(他们也没有看见Maurice),而相反地Maurice看见在与Maurice的位置相同的虚拟位置附近的其他具象。在目前的论述中,对于不同的具象不同的渲染被称作每个具象的渲染。

图2示出用于示例虚拟环境中的特定具象的每个具象的渲染的示例。图2是来自渲染的静态图像-实际上虚拟环境将动态地并且用颜色渲染场景。在渲染的这个示例中的感知点是虚拟现实系统正在为其进行图2所示的渲染的具象的感知点。在这个示例中,用于八个用户的具象的集合已经“去往”虚拟环境中的特定场所-该场所在221和223处包含两个分层的平台。在这个示例中,可能处于离得非常远的现实世界位置的用户已在虚拟环境中准备(经由他们的具象)“会合”来开会讨论某些事情,并且因此他们的具象表示他们在虚拟环境中的存在。

这八个具象中的七个(在这个示例中所示出的所有具象都是似人的形象)是可视的:虚拟现实系统正在为其进行渲染的具象不是可视的,因为从那个具象的感知点进行渲染。为了方便起见,为其进行渲染的具象在图2中被称为299。该图包括无隶属标号299和包围整个图像的大括号以指示从“299”所指示的具象的角度进行渲染。

在平台221上的四个具象是可见的,包括201、209和213所标记的具象。站在两个平台之间的三个剩余具象是可见的,包括205所标记的具象。

如在图2中可视的,具象209站在具象213的背后。在对于具象213的感知点的这个场景的渲染中,具象209和299两者都不是可视的,因为对于具象213他们是“在视野之外”的。

图2中的示例是用于其中用户可以经由他们的具象相互作用的虚拟现实系统,但是具象不能发言。代替地,在这个虚拟现实系统中,用户通过在键盘上键入文本来使他们的具象“讲话”:虚拟环境在用于该用户的具象上方的“文本批注框”中渲染所述文本:可选地,带有用户的具象的名称的气球以相同的方式被渲染。用于具象201的一个示例在203处被示出。

在这个具体的示例性虚拟现实系统中,用户可以通过使用键盘上的箭头键使他们的具象移动或者从一个虚拟位置走向另一个虚拟位置,或者转向面朝不同方向。也有键盘输入使具象通过移动手臂来做手势。这种做手势的两个示例是可视的:具象205正在做手势,这可以从在207处被划圈的抬起的手臂被看到,并且具象209正在做手势,这由在211处被划圈的手臂的位置示出。

用户从而可以经由他们的具象移动、做手势并且彼此交谈。用户可以(经由他们的具象)移动到其他虚拟位置和地点、见到其他用户、举行会议、交朋友以及参与虚拟环境内的“虚拟生活”的许多方面。

实现大规模多具象渲染环境中的问题

在实现大规模多具象渲染环境中存在若干问题。其中有:

·虚拟环境必须为许多具象创建的不同的、独立的渲染的绝对数量。

·提供带有许多连接的连网实现的必要性,其中有延迟以及对可用的数据带宽的限制。

由于图2的虚拟现实系统使用文本批注框来处理言语显示的事实,实况录音对如今的虚拟现实系统构成难题。为何实况录音构成难题的一个原因是它是在下文中所称的发射(emission)的示例,即虚拟环境的输出,其由虚拟环境中的实体产生并且对于虚拟环境中的具象可感知。这样的发射的示例是由虚拟环境中的一个具象产生的对于虚拟环境中的其他具象是可听见的言语。发射的特征在于它们在虚拟现实系统中由流数据来表示。本上下文中的流数据是具有高数据率并且实时不可预知地改变的任何数据。因为流数据在不断地改变,所以必须一直以连续的流将它发送。在虚拟环境的上下文中,有许多立刻发射流数据的源。另外,所述发射的虚拟位置和可能感知的(possibly-perceiving)具象的感知点可以实时地改变。

虚拟环境中的发射的类型的示例包括可以被听见的可听发射、可以被看到的可视发射、可以通过触摸被感觉的触觉发射、可以被闻到的嗅觉发射、可以被尝到的味觉发射、以及虚拟环境特有的诸如虚拟心灵感应或者力场发射等发射。大部分发射的特性为强度。强度的类型毫无疑问取决于发射的类型。举例来说,在发射声音的情况下,强度被表达为响度。流数据的示例是表示声音的数据(音频数据)、表示移动图像的数据(视频数据)、以及还有表示连续的力或者触摸的数据。新的类型的流数据正被不断地开发。虚拟环境中的发射可以来自现实世界的源,诸如来自与具象相关联的用户或者来自被生成或者被记录的源的言语。

虚拟环境中的发射的源可以是虚拟环境的任何实体。以声音为例,虚拟环境中的可听发射的示例包括由虚拟环境中的实体产生的声音-例如发射具象的用户对着麦克风说的内容的具象、由虚拟瀑布发出的被生成的咕噜音水声、虚拟炸弹发出的爆炸声、虚拟高跟鞋在虚拟地板上发出的啪嗒声-以及背景声音-例如虚拟环境的区域发出的虚拟微风或者风的背景声音,或者虚拟的一群正在咀嚼的动物发出的背景声音。

一系列声音中的声音、发射源与具象的相对位置、所述源所发出的声音的质量、所述声音对于具象的可听性和明显的响度、以及每个潜在地感知的(potentially-perceiving)具象的方位,事实上都可以实时地改变。对于其他类型的发射以及其他类型的流数据也是同样的情况。

将发射渲染成像每个具象在虚拟环境中所单独地感知的那样的问题是复杂的。这些问题在源和目的地具象在虚拟环境中移动而同时源正在发射的情况下大大加剧:例如在用户通过她或者他的具象说话而同时还移动正在发射的具象的情况下,或者还有在其他用户移动他们的具象而同时感知该发射的情况下。在后一种情况下(感知的具象在虚拟环境中移动)甚至影响来自虚拟环境中的静止的源的发射。不仅是表示发射的流数据不断地改变,而且它将怎样被渲染以及它将为其被渲染的感知的具象也不断地改变。渲染和感知的具象不仅随潜在地感知的具象在虚拟环境中的移动而改变,还随所述发射的源在虚拟环境中的移动而改变。

在这种复杂度的第一层面,潜在地感知的具象实际上是否可以感知源在给定时刻发出的一系列声音至少取决于所述源在每个时刻发出的声音的音量。另外,其取决于在每个时刻所述源与潜在地感知的具象之间在虚拟现实中的距离。如在“现实世界”中那样,在虚拟环境中相对于感知点“太轻”的声音对于该感知点处的具象将是不可听见的。与它们来自更近的距离时相比,来自“远处”的声音被听到或者被感知为更轻。所述声音随距离被听成更轻的程度在本上下文中被称作距离权重因子。声音在源处的强度被称作声音的固有响度。声音在感知点处的强度被称作表观响度。

在第二层面,发出的声音对于特定具象是否可听见也可以通过特定具象的位置相对于所述源的其他方面、感知的具象同时从其他源正听见的声音或者通过所述声音的质量来确定。举例来说,心理声学的原理包括在现实世界中较响的声音可以掩盖或者使没那么响的声音听不见(基于对于单独的倾听者的表观响度)的事实。这被称为声音的相对响度或者音量,其中一个声音的表观响度相对于另一个声音的表观响度更大。进一步的心理声学效应包括某些特性(quality)的声音倾向于优先于其他声音被听见:例如,人类可能特别善于注意或者听见婴儿啼哭的声音,甚至在该声音很轻并且与此同时有其他更响的声音的情况下。

作为进一步的复杂度,理想的可能是渲染声音使得对于该声音对于其可听见的每个具象它们方向性地被渲染-以使对于每个具象每个声音被感知为来自对于该具象恰当的相对方向。因此,方向性不仅取决于所述声音对于其可听见的具象的虚拟位置,而且还取决于虚拟环境中潜在地可听见的声音的每个源的位置,并且另外取决于在虚拟环境中具象“面朝”的方位。

对于渲染去往以及来自少量源和具象的发射表现可接受的现有技术的虚拟现实系统,可能仅是无法处理大规模多具象渲染环境中数以万计的源和具象。换言之,这样的系统不可扩展(scalable)用于处理大数量的源和具象。

总而言之,在虚拟环境中对来自多个源的发射(诸如来自多个源的可听发射)的每个具象的渲染提出特别的问题,所述问题在于表示来自每个源的发射的流数据:

·几乎不断地被发出并且改变

·具有相对高的数据率

·必须立刻从许多独立的源被渲染

·必须立刻为每个正在倾听的具象单独地被渲染

·渲染复杂或者代价高

·在有许多源和具象的情况下难以处理

用于在多具象渲染环境中处理流数据的当前技术

用于在虚拟环境中渲染流数据的当前技术在处理所提到的问题方面取得有限的成功。因此,多具象虚拟环境的实现被迫使做出一个或者多个不能令人满意的妥协:

·不支持必须使用流数据来表示的发射,诸如可听或者可视的发射:虚拟环境可以仅用广播或者点对点的方式来支持“文本聊天”或者“即时消息”,并且在用户之间经由他们的具象没有音频交互,因为提供音频交互太困难或者成本高。

·限制渲染环境的大小和复杂度:

虚拟环境实现可以只允许达到虚拟环境的低最大数量的具象,或者将具象分割使得任何时候只有低最大数量可以出现在虚拟环境中的给定“场景”中,或者每次仅准许有限数量的用户使用流数据的发射来相互作用。

·没有流数据的每个具象渲染:

具象可以被限制为仅在开放的“合用线(party line)”上讲话和倾听,其中所有声音或者来自所述虚拟环境中的“场景”的所有声音一直都存在并且所有具象被给予对所有所述声音的相同的渲染。

·不真实的渲染:

当具象的用户参加可选的“聊天会话”(例如虚拟的内部通话系统)时,具象可能仅能够可听地相互作用,其中具象的用户的讲话以原始的音量并且没有方向地被渲染,而不管具象在环境中的虚拟位置。

·对于环境媒体有限的实现:

由于支持流数据的困难,诸如用于瀑布的背景声音的环境媒体仅可以作为在客户端的部件处为每个用户在本地生成的声音来被支持,诸如以重复的循环播放数字录音,而不是作为虚拟环境中的发射被支持。

·来自对流数据的控制的不希望有的负面效应:

在用于为流数据提供支持的一些现有系统中,独立的控制协议被用在网络中被用于管理流数据的流动。一个负面效应是,部分地由于网络上的传输延迟的已知问题,改变流数据的流动的控制事件——诸如将来自特定的源的流数据“静音”,或者将流数据的传递从被传递到第一具象改变为被传递到第二具象——可能导致所述改变直到在显著的延迟之后才发生:所述控制和传递操作没有被足够地同步。

发明目的

本发明的目的是提供用于处理产生每个具象的渲染的虚拟现实系统中的发射的可扩展(scalable)技术。本发明的另一目的是使用心理声学原理来过滤发射。本发明的还有另一个目的是提供用于渲染处于连网系统的边缘的设备中的发射的技术。

发明内容

在一个方面,本发明的目的通过渲染由流数据的分段(segment)表示的发射的系统中的过滤器来实现。所述系统将所述发射渲染成在一时间点从感知点所感知的那样,所述发射是从所述感知点潜在地可感知的。所述过滤器的特征包括:

·所述过滤器与所述感知点相关联

·所述过滤器可访问

ο在所述时间点由所述流数据的分段所表示的发射的当前发射信息;以及

ο在所述时间点由所述流数据的分段表示的所述过滤器的感知点的当前感知点信息。所述过滤器根据所述当前感知点信息和所述当前发射信息,对由所述分段的流数据表示的发射在所述过滤器的感知点处是否可感知做出判定。当所述判定指示由所述分段的流数据表示的发射在所述时间点在所述过滤器的感知点处不可感知时,所述系统在渲染所述过滤器的感知点处的发射时不使用所述分段。

在另一个方面,所述过滤器是提供虚拟环境的虚拟现实系统的部件,其中所述虚拟环境中的源发出可由所述虚拟环境中的具象潜在地感知的发射。所述过滤器与具象相关联并且确定由分段表示的发射在所述虚拟环境中是否可由所述具象在所述具象的当前感知点处感知。如果不可感知,则表示所述发射的分段在为所述具象的感知点渲染所述虚拟环境时不被使用。

基于对下面的附图以及详细说明的仔细研究,其他目的和优点对于本发明所属领域的技术人员将是显而易见的。

附图说明

图1示出所述过滤技术的概念性总览。

图2示出示例性虚拟环境中的场景。在该场景中,由具象表示的虚拟环境的用户正通过使他们的具象在该虚拟环境中的特定位置处会合来开会。

图3示出优选的实施例中的流数据的分段的内容的概念性图示。

图4示出SIREN14-3D V2RTP有效载荷(Playload)格式的一部分的规范。

图5示出第1级和第2级过滤的操作。

图6示出第2级过滤的更多细节。

图7示意了邻接矩阵。

附图中的参考标号具有三个或者更多位数:右手边的两位数是其余位数所指示的附图中的参考标号。因此,具有参考标号203的项首先在图2中作为项203出现。

具体实施方式

下面对本发明的详细说明公开了其中所述虚拟环境包括可听发射的源并且可听发射由流音频数据表示的实施例。

在此所描述的技术原理可以被用于任何类型的发射。

发明技术总览

在这个优选实施例中,虚拟现实系统(诸如以Second Life为例的那种类型)在被连网的计算机系统中被实现。本发明的技术被集成到虚拟现实系统中。表示来自虚拟环境的源的声音发射的流数据作为流音频数据的分段以数据分组被传送。关于涉及确定所述发射的分段对于具象的可感知性的分段的源的信息与每个分段相关联。虚拟现实系统在诸如客户端计算机的渲染部件上进行每个具象的渲染。用于具象的渲染在客户端计算机上被进行,并且只有对于具象总是可听见的分段被经由网络发送到客户端计算机。在那里,为所述具象的用户,将所述分段转换成通过耳机或者扬声器可听见的输出。

具象不需要与用户相关联,但可以是虚拟现实系统为其进行渲染的任何实体。举例来说,具象可以是虚拟环境中的虚拟麦克风。使用该虚拟麦克风所进行的录音将是对虚拟环境的渲染,其由虚拟环境中的那些音频发射组成,那些音频发射是在该虚拟麦克风处可听见的。

图1示出过滤技术的概念性总览。

如在101处所示,表示来自虚拟环境中的不同的源的发射的流数据的分段被接收,从而被过滤。每个分段与关于所述发射的源的信息相关联,诸如该发射的源在虚拟环境中的位置以及该发射在所述源处的强度如何。在优选实施例中,所述发射是可听发射并且所述强度是该发射在所述源处的响度。

这些分段通过在105处所示的分段路由部件,被汇集到所有分段的合并流中。分段路由部件105具有分段流合并器部件103,其将分段合并成汇集的流,如在107处所示的。

如在107处所示,汇集的流(由所有所述声音流的分段组成)被发送到多个过滤器部件。所述过滤器部件的两个示例在111和121处被示出-其他过滤器部件由省略号指示。有对应于虚拟现实系统正在为其产生渲染的每个具象过滤器部件。过滤器部件111是用于具象(i)的渲染的过滤器部件。过滤器111的细节在113、114、115和117处被示出:其他过滤器以相似的方式操作。

过滤器部件111过滤汇集的流107以得到用于给定类型的发射的流数据的那些分段,所述那些分段被需要用于为具象(i)恰当地渲染虚拟环境。所述过滤基于具象(i)的当前具象信息113以及当前流数据源信息114。当前具象信息113是关于影响具象(i)的感知所述发射的能力的任何信息。什么是当前具象信息取决于虚拟环境的属性。举例来说,在具有位置概念的虚拟环境中,当前具象信息可以包括具象的用于检测发射的器官在虚拟环境中的位置。在下文中,虚拟环境中的位置常常将被称作虚拟位置。当然,在有虚拟位置的地方,在那些位置之间还有虚拟距离。

当前流数据源信息是关于影响具象(i)感知来自特定源的发射的能力的流数据的源的当前信息。当前流数据源信息的一个示例114是所述源的发射的生成部件的虚拟位置。另一示例是所述发射在所述源处的强度。

如在115处所示,只有带有对于具象(i)可感知的流数据并且从而被需要用于在119处为具象(i)渲染虚拟环境的分段从过滤器111被输出。在优选实施例中,可感知性可以基于所述源和感知的具象之间的虚拟距离和/或基于可感知的分段的相对响度。在通过过滤器111的过滤之后保留的分段作为输入被提供给渲染部件117,其为具象(i)在所述虚拟环境中的当前感知点渲染该虚拟环境。

优选实施例的细节

在目前优选的实施例中,所述源的发射是可听见的声音并且虚拟现实系统是连网的系统,其中为具象对声音的渲染在由具象表示的用户所使用的客户端计算机中被进行。

优选实施例中的分段的总览

如之前所提到的,用户的客户端计算机将流声音输入数字化,并且将在网络上以分组发送流数据的分段。用于在网络上传送数据的分组在本领域中是已知的。现在我们论述在优选实施例中流音频分组的内容,也被叫做有效载荷。此论述示意了本发明的技术的几个方面。

图3以概念性的形式示出流音频分段的有效载荷。

在优选实施例中,具象不仅可以感知可听发射,而且还可以是它们的源。另外,具象的言语生成器的虚拟位置可以不同于具象的声音检测器的虚拟位置。因此,具象作为源所具有的虚拟位置可以与具象作为声音的感知器所具有的虚拟位置不同。

单元300以概念性的形式示出了在优选实施例中被采用的流数据分段的有效载荷。330和340处的大括号分别示出分段有效载荷的两个主要部分,即具有关于由所述分段表示的流音频数据的元数据信息的首部以及流音频数据本身。所述元数据包括诸如扬声器位置以及强度的信息。在优选实施例中,分段的元数据是由所述流数据表示的发射的源的当前流数据源信息114的部分。

在优选实施例中,元数据330包括:

·用户ID值301,其标识是发出由所述分段中的流数据表示的声音的源的实体。对于是具象的源,其标识该具象。

·会话ID值302,其标识会话。在目前的上下文中,会话是源和具象的集。标志集303,其指示进一步的信息,诸如关于所述源在表示流数据的这个分段的发射的时间的状态的信息。一个标志指示位置值305的属性,是“说话者”还是“倾听者”位置。

·位置305,其给出在虚拟环境中由所述分段表示的发射的源的当前虚拟位置或者对于具象,其给出该具象的“倾听”部分的当前虚拟位置。

·值307,其用于声音能量的强度或者所发出的声音的固有响度。

·额外的元数据,如果有的话,则在309处被表示。

在优选实施例中,根据相关领域中已知的原理,从声音的固有响度来计算可听发射的强度值307。其他类型的发射可以采用其他值来表达发射的强度。举例来说,对于在虚拟环境中表现为文本的发射,强度值可以由用户独立地输入,或者全大写的文本可以被给予大于混合大小写(Mixed-Case)或者全小写的文本的强度值。在根据本发明的技术的实施例中,强度值可以被选择为与设计有关以使不同类型的发射的强度可以诸如在过滤中被彼此比较。

流数据分段在340以及相关联的大括号处被示出。在所述分段中,该分段的数据部分被示出为在321处起始,接着是该分段中的所有数据,并且在323处结束。在优选实施例中,流数据部分340中的数据以压缩格式表示所发出的声音:创建该分段的客户端软件也将音频数据转换成压缩表示,以使较少的数据(并且从而更少或者更小的分段)需要在网络上被发送。

在优选实施例中,基于离散余弦变换的压缩格式被用于将信号数据从时间域变换到频率域中,并且根据心理声学原理来量化多个子带(sub-band)。这些技术在本领域中是已知的,并且在“Siren14TM,预期被许可方的信息(Information for ProspectiveLicensees)”www.polycom.com/common/documents/company/about_us/technology/siren14_g7221c/info_for_prospective_licensees中以SIREN14编解码标准被描述。

发射的任何表示可以被采用。该表示可以是在不同的表示域中,并且另外该发射可以在不同的域中被渲染:可以使用言语到文本算法将言语发射表示或者渲染成文本或者反之亦然,可以在视觉上表示或者渲染声音发射或者反之亦然,可以将虚拟心灵感应发射表示或者渲染成不同类型的流数据等等。

优选实施例的构架总览

图5是优选实施例的系统总览,其示出第1级和第2级过滤的操作。现在将从总体上描述图5。

如在对图3的论述中所提到的那样,在优选实施例中,分段具有用于会话ID 302的字段。包含流数据320的每个分段属于一会话并且在字段320中携载所述分段所属的会话的标识符。会话标识源和具象的集合,它们被称为会话的成员。具有是成员的源的会话集被包括在那个源的当前源信息114中。相似地,具象是成员的会话集被包括在那个具象的当前具象信息113中。用于表示以及管理集合的成员以及实现这样做的系统的技术是相关领域中所熟悉的。会话会员身份的表示在优选实施例中被称为会话表。

在优选实施例中,有两种类型的会话:位置会话静态会话。位置会话是其成员是发射的源以及对于其来自所述源的发射在虚拟环境中至少潜在地可检测的具象的会话。在优选实施例中,可听发射的给定源以及可以潜在地听见来自该给定源的可听发射的任何具象必须是同一位置会话的成员。优选实施例仅具有单个位置会话。其他实施例可以具有不止一个位置会话。静态会话是这样的会话,即该会话的会员身份由虚拟现实系统的用户确定。由属于静态会话的具象产生的任何可听发射被属于该静态会话的每一个其他具象听见,而不管具象在虚拟环境中的位置。因此,静态会话如同电话会议呼叫那样工作。优选实施例的虚拟现实系统提供准许用户指定他们的具象所述的静态会话的用户接口。过滤器111的其他实施例可以涉及不同类型的会话或者完全不涉及会话。对目前优选的实施例中的会话的实现的一个扩展将是会话ID的一组特殊值,这些值将不是指示单个会话,而是会话集合。

在优选实施例中,由分段的会话ID所指定的会话的类型确定过滤器111怎样对该分段进行过滤。如果会话ID指定位置会话,则该分段被过滤以确定所述过滤器的具象是否能够感知虚拟环境中的源。所述过滤器的具象能够感知的分段接着被所述源的相对响度过滤。在后一种过滤器中,来自可由过滤器的具象感知的位置会话的分段连同来自所述具象是其成员的静态会话的分段一起被过滤。

在优选实施例中,虚拟环境中的可听发射的每个源为该可听发射产生分段,所述分段具有用于位置会话的会话ID;如果所述源还是静态会话的成员并且所述发射在该静态会话中也是可听的,则所述源为可听发射进一步产生分段中的每一个的副本,所述副本具有用于静态会话的会话ID。可听发射在虚拟环境中对于其可感知并且还是其中所述发射是可听见的静态会话的成员的具象,可以因此在它的过滤器中接收所述分段的不止一个副本。在优选实施例中,该过滤器检测该分段的复本并且仅将该分段中的一个传递给该具象。

参考图5:单元501和509是多个客户端计算机中的两个。所述客户端计算机一般是“个人”计算机,带有用于与带有虚拟环境的集成系统实现的硬件和软件:举例来说,客户端计算机具有附接的麦克风、键盘、显示器以及头戴式耳机或者扬声器,并且具有用于执行集成系统的客户端操作的软件。客户端计算机被连接到网络,如分别在502和506处所示。每个客户端可以如由客户端的用户所引导的那样来控制具象。该具象可以在虚拟实施例中发出声音和/或听见由源发出的声音。表示虚拟现实系统中的发射的流数据在客户端的具象是所述发射的源时,在客户端中被产生并且在客户端的具象可以感知该发射时,在客户端中被渲染。这由客户端计算机与网络之间的在两个方向上的箭头示意,诸如在客户端501与网络502之间,以及在客户端509与网络506之间。

在优选实施例中,用于诸如客户端501和过滤系统517的部件之间的分段和流数据的网络连接,将诸如RTP和SIP网络协议的标准网络协议用于音频数据,RTP和SIP协议以及适合的用于网络连接和连接管理的许多其他技术在本领域中是已知的。在本上下文中重要的RTP特征是RTP支持通过数据的到达时间对数据的管理,以及基于对包括时间值的数据的请求,能返回具有与该时间值相同或者比该时间值较早的到达时间的数据。优选实施例的虚拟现实系统从刚刚所描述的RTP请求的分段在下文中被称作当前分段

在502和506处的网络在图5中被示出为独立的网络,但是当然它们也可以是同一网络或者互连的网络。

参考单元501,在与虚拟环境中的具象相关联的用户在诸如501的客户端计算机处对着麦克风讲话时,该计算机的软件将声音以带有元数据的压缩格式转换为流数据的分段,并且通过网络将分段510中的分段数据发送给过滤系统517

在优选实施例中,过滤系统517在集合系统中的服务器堆栈中,独立于未集成的虚拟现实系统的服务器堆栈。

下面描述压缩格式以及元数据。过滤系统具有用于客户端的具象的每个具象过滤器512和516。每一个每个具象过滤器过滤表示来自虚拟环境中的多个源的可听发射的流数据。所述过滤确定表示对于特定客户端的具象可听见的可听发射的流数据的分段,并且通过网络将可听分段的流音频发送给具象的客户端。如在503处所示,表示客户端501的用户的具象可听见的分段通过网络502被发送给客户端501。

与发射的每个源相关联的是当前发射源信息:关于发射及其源的当前信息和/或其中信息可能实时地变化的关于它的源的信息。示例是发射在它的源处的质量、发射在该源处的强度以及发射源的位置。

在这个优选实施例中,从表示来自所述源的发射的分段中的元数据得到当前发射源信息114。

在优选实施例中,在两级中执行过滤。在过滤系统517中所采用的过滤过程大致如下。

对于属于位置会话的分段:

·第1级过滤:对于分段和具象,该过滤过程确定将所述分段的源与所述具象分开的虚拟距离,并且确定所述分段的源是否处于所述具象的门限虚拟距离内。该门限距离定义所述具象的可听周围地区;来自这个周围地区之外的源的发射对于该具象是无法听见的。在所述门限之外的分段不被传递给过滤2。通过考虑诸如上文所述的会话ID的所述分段的元数据信息、源114的当前源信息以及具象113的当前具象信息来有效地进行这个判定。这个过滤一般地减小如下所述对于过滤2所必须被过滤的分段的数量。

对于具有静态会话的会话ID的分段:

·第1级过滤:对于分段和具象,该过滤过程确定所述过滤器的具象是否为由所述分段的会话ID标识的会话的成员。如果所述过滤器的具象是所述会话的成员,则所述分段被传递给过滤2。这个过滤一般地减小如下对于过滤2所描述的要被过滤的分段的数量。

对于在用于过滤器的具象的门限内的或者属于具象是其成员的会话的所有分段:

·第2级过滤:该过滤过程为这个具象确定由第1级过滤传递的所有分段的表观响度。所述分段接着根据它们的表观响度被拣选,来自不同会话的复本分段被去除,并且由具有最大表观响度的三个分段组成的子集被发送给所述具象用于渲染。所述子集的大小与设计选择有关。通过考虑元数据来有效地进行判定。复本分段是具有相同的用户ID和不同的会话ID的一些分段。

仅过滤属于位置会话的分段的过滤器系统517的部件由右边上方541处的大括号541上方大括号541指示,并且仅过滤属于静态会话的分段的部件由下方大括号542指示。

处理第1级过滤的部件由在底部左边551处的大括号指示,并且进行第2级过滤的部件由底部右边552处的大括号指示。

在优选实施例中,过滤器系统部件517被设置在优选实施例的虚拟现实系统中的服务器上。然而,用于具象的过滤器可以一般地被设置在发射的源和与过滤器相关联的具象的渲染部件之间的路径上的任何点。

会话管理器504接收所有到来的分组并且将它们提供给分段路由540,其通过经由位置会话或者静态会话将对于给定的具象可感知的分段引导向用于第2级过滤的恰当的每个具象过滤器来执行第1级过滤。

如在505处所示,从分段路由部件540被输出的分段集被输入给用于每个具象的代表性的每个具象过滤器512和516。可以感知由流数据表示的类型的发射的每个具象具有对应的每个具象过滤器。每个每个具象过滤器从属于每个源的分段中选择对于目的地具象可听见的那些分段,按照它们的表观响度对它们进行拣选,去除任何复本分段并且通过网络将剩余的分段中最响的三个发送给具象的客户端。

流音频分段的内容的细节

图4示出用于这些技术的有效载荷格式的有关方面的更详细的描述。在优选实施例中,有效载荷格式还可以包括虚拟现实系统所使用的非流数据。优选实施例的集成系统是所述技术可以与虚拟现实系统或者其他应用集成的许多方式中的一些的示例。在这个集成中所使用的格式被称为SIREN14-3D格式。该格式利用封装以在一个网络分组中携载多个有效载荷。封装、首部、标志以及分组和数据格式的其他一般方面的技术在本领域中是众所周知的,并且因此不在此详细地描述。为了清楚起见,在其中与虚拟环境的集成的细节或者虚拟环境的操作的细节与描述本发明的技术无关的情况下,则将那些细节从该论述中略去。

单元401声明了所述规范的这个部分涉及这个格式的优选SIREN14-3D版本,即V2RTP版本,并且声明了一个或者多个封装的有效载荷由网络分组携载,使用RTP网络协议跨该网络传送所述网络分组。

在目前优选的实施例中,SIREN14-3D版本V2RTP有效载荷由带有音频数据的封装媒体有效载荷组成,随后是0个或者多个其他封装有效载荷。每个封装载荷的内容由s首部标志位414给出,这在下文中被描述。

单元410描述V2格式中封装的有效载荷的首部部分。单元410的细节描述首部410中元数据的单独的单元。

如在411处所示,该首部中的第一值是大小为32位的userID值-这个值标识分段的发射的源。

随后是名为sessionID 412的32位的项。这个值标识所述分段所属的会话。

在此之后是用于该分段的强度的项,名为smoothedEnergyEstimate 413。单元413是用于在首部之后的音频数据的分段的固有响度的强度值的元数据值:该值是以特定系统实现为单位的整数值。

在优选实施例中,smoothedEnergyEstimate值413是通过将来自流声音数据的多个最初的或者“原始的”值一起平滑而确定的长期的“平滑(smoothed)”值。这防止不希望有的过滤结果,该过滤结果可能另外产生于噪声(诸如“卡嗒声”)的突发时刻或者由可能存在于音频数据中的客户端计算机中的声音数据的数字化过程引起的数据假象。使用本领域中已知的用于计算由分段的声音数据所反映的音频能量的技术来计算这个优选实施例中的值用于分段。在优选实施例中,带有0.125的α值的一阶无限脉冲响应(IIR)过滤器被用于平滑瞬时采样能量E=x[j]*x[j]并且产生分段的能量的强度值。为所述分段计算或者分配强度值的其他方法毫无疑问可以出于设计选择而被使用。

在单元413之后是headerFlags 414,其由32个标志位组成。多个这些标志位被用于指示在有效载荷中的首部之后的数据和格式的类型。

420示出可以在headerFlags 414中被设置的标志位定义集中的一部分。

单元428描述用于AUDIO-ONLY有效载荷的标志,其具有0x1的数值标志值:该标志指示有效载荷数据由用于流音频的分段的以压缩格式的80字节的音频数据组成中的。

单元421描述用于SPEAKER_POSITION有效载荷的标志,其具有0x2的数值标志值:该标志指示有效负载数据包括由源具象的“嘴”或者说话部位的当前虚拟位置组成。在这之后可以是用于流音频的分段的以压缩格式的80字节音频数据。位置更新数据由虚拟环境的坐标中的X、Y和Z的位置的三个值组成。

在优选实施例中,是具象的每个源以每秒2.5次发送带有SPEAKER_POSITION信息的有效载荷。

单元422描述用于LISTENER_POSITION有效载荷的标志,其具有0x4的数值标志值:该标志指示负载数据包括由具象的“耳朵”或者倾听部位的当前虚拟位置组成的元数据。在这之后可以是80字节的音频数据。该位置信息允许过滤器实现确定哪些源在特定具象的“可听周围地区”。在优选实施例中,是具象的每个源以每秒2.5次发送带有LISTEN_POSITION信息的有效载荷。

单元423描述用于LISTENER_ORIENTATION有效载荷的标志,其具有0x10的数值标志值:该标志指示包括由用户的具象的倾听部位的当前虚拟方位或者朝向组成的元数据的有效载荷数据。这个信息允许过滤器实现和虚拟环境扩展虚拟现实以使具象可以具有“方向性听觉”或者对听觉的特别虚拟分解,像兔子或者猫的耳朵。

单元424描述用于SILENCE_FRAME有效载荷的标志,其具有0x20的数值标志值:这个标志指示该分段表示静默。

在优选实施例中,如果源没有要发送的音频发射分段,该源发送对于发送如上所述的带有位置元数据的SPEAKER_POSITION和LISTENER_POSITION有效载荷所必要的SILENCE_FRAME有效载荷的有效载荷。

用于过滤操作的分段格式的另外方面

在优选实施例中,来自具象的音频发射从来没有为那同一个具象而被渲染,并且没有为那个具象进入流音频数据的任何过滤:这与设计选择有关。这个选择与在数字电话以及视频通信中抑制或者不渲染“侧音(side-tone)”音频或者视频信号的已知实践一致。可替换的实施例在确定对于那同一个具象什么是可感知的情况下,可以处理并且可以过滤来自也是具象的源的发射。

如所容易理解的那样,在此所描述的过滤技术可以与虚拟环境的管理功能集成以在过滤流数据和在虚拟环境的管理两者中实现更高的效率。

过滤操作的细节

现在将详细地描述过滤系统517的操作。

会话管理器504以20毫秒的周期从可靠的主时钟读取时间值。所述会话管理器接着从用于到来的分段的连接得到所有那些具有与该所述时间值相同或者更早的到达时间的分段。如果不止一个来自给定的源的分段被返回,则来自该源的较早的分段被丢弃。保留的分段被称多当前分段集。会话管理器504接着将该当前分段集提供给分段路由部件540,其将当前分段路由给特定的每个具象过滤器。该分段路由部件的操作将在下文中被描述。没有被提供给分段路由部件540的分段不被过滤并且因此被传递给具象用于渲染。

分段路由部件540使用邻接矩阵535对属于位置会话的分段进行第1级过滤,所述邻接矩阵是记录哪些源在哪些具象的可听周围地区内的数据表:具象的可听周围地区是在具象的听觉部位的特定虚拟距离内的虚拟环境部分。在优选实施例中,这个虚拟距离是虚拟现实系统的虚拟坐标单位中的80个单位。与这个虚拟距离相比离具象的听觉部位更远的声音发射对于该具象不是可听见的。

邻接矩阵535在图7中详细地被示意。邻接矩阵535是二维的数据表。每个单元格表示源/具象的组合并且包含该源-具象组合的距离权重值。该距离权重值是用于根据所述源与所述具象之间的虚拟距离调整分段的固有响度或者强度值的因子:在越大的虚拟距离处距离权重因子越小。在这个优选实施例中,通过滚降的箝位程式(aclamped formula for roll-off)按照距离的线性函数计算距离权重值。其他程式(formula)可以代替地被使用:例如,与更有效的操作近似的程式或者包括诸如箝位或者最大和最小响度等效应、更显著或者不那么显著的滚降效应、或者其他效应的程式可以被选择。对于特定的应用恰当的任何程式可以出于设计选择被使用,例如来自下面的示例性参考文献的任何准则:

·“OpenAL1.1Specification and Reference”,

Version 1.1,June 2005,byLoki Software

(www.openal.org/openal_webstf/specs/OpenAL11Specification.pdf)

(“OpenAL 1.1规范及参考”,版本1.1,2005年6月)

·IASIGI3DL2″Interactive 3D Audio Rendering Guidelines,Level2.0”,September 20 1999,by MIDI Manufacturers Association Incorporated(www.iasigorg/pubs/3dl2v1a.pdf)

(“交互式3D音频渲染准则,水平2.0”,1999年9月20日,MIDI制造商联盟)

所述邻接矩阵为每个源具有一行,在图7中沿左侧在710处被示出为A、B、C等等。对于每个目的地或者具象有一列,如横跨顶部在720处被示出为A、B、C和D那样。在优选实施例中,具象也是源:因此对于具象B在732处有列B并且在730处有行B,但是可以有比具象多或者少的源以及不是具象的源并且反之亦然。

所述邻接矩阵中的每个单元格处于行和列的交叉点(源,具象)。举例来说,行731是用于源D的行,并且列732是用于具象B的列。

所述邻接矩阵中的每个单元格包含为0的距离权重值或者包含在0与1之间的距离权重值,为0的距离权重值指示源不在具象的可听周围地区内或者对于所述该具象不是可听见的。0与1之间的距离权重值是根据上述程式所计算的距离权重因子,其为应当将其与强度值相乘以确定在所述目的地处来自那个源的发射的表观响度的因子。处于行和列的交叉点的单元格733具有用于(D,B)的权重因子值,其在这个示例中被示出为0.5。

使用单元格的行所表示的源的当前虚拟位置以及列所表示的具象的“耳朵”的当前虚拟位置来计算权重因子。在优选实施例中,用于每个具象的单元及其本身被设置为零并且不被改变,与数字通信领域中已知的用于侧音音频的处理保持一致,即来自是源的实体的声音不被传送给作为目的地的实体。这在对角线的一组值735中被示出,这些值都为0:单元格(源=A,具象=A)中的距离权重因子为0,并且这个对角线上的所有其他单元格也是如此。为了更好的可读性,沿对角线735的单元格中的值以粗体文本被示出。

在优选实施例中,源及其他具象发送带有他们的虚拟位置的位置数据的流数据的分段每秒2.5次。当分段包含位置时,会话管理器504将位置值和分段114的用户ID传递给邻接矩阵更新器530以更新与所述分段的源或邻接矩阵535中的其他具象相关联的位置信息,如在532处所指示的那样。

邻接矩阵更新器530周期性地更新邻接矩阵521的所有单元格中的距离权重因子。在优选实施例中,其以每秒2.5次的周期来进行,如下:

邻接矩阵更新器530从邻接矩阵535得到邻接矩阵535的每个行的关联位置信息。在得到行的这个位置信息之后,邻接矩阵更新器530得到邻接矩阵535的每个列的具象的听觉部位的位置信息。在533处指示得到位置信息。

在得到具象的听觉部位的位置信息之后,邻接矩阵更新器530确定源位置与具象的听觉部位的位置之间的虚拟距离。如果该距离大于用于所述可听周围地区的门限距离,则在邻接矩阵535中对应于源的行以及具象的列的单元格的距离权重被设置为0,如所示出的那样。如果源和具象相同,则该值被保留为如上所述的0而不被改变。否则,源X和目的地Y之间的虚拟距离以及根据上述程式所计算的距离权重值被计算:所述单元格的距离权重值被设置为该值。在534处示意更新距离权重值。

当分段路由部件540确定源在具象的可听周围地区之外时,分段路由部件540不将分段从源向用于具象的第2级过滤器路由,并且因此这些分段将不被渲染用于所述具象。

返回会话管理器504,为了向第2级过滤器部件的潜在传递,会话管理器504也将属于静态会话的当前分段提供给分段路由部件540,诸如在512和516处所示意的那些。

分段路由部件540确定用于发射的特定分段应当被发送给其的具象集并且将所述分段发送给用于那些具象的第2级过滤器。在特定时间片期间被发送给特定的第2级过滤器的来自特定源的分段可以包括来自不同会话的分段并且可以包括复本的分段。

如果会话ID值指示静态会话,分段路由部件访问所述会话表(在下文中被描述)以确定是该会话的成员的所有具象的集。这在525处被显示。分段路由部件接着将分段发送给与那些具象相关联的第2级过滤器中的每一个。

如果会话ID值是位置会话的值,则分段路由部件访问邻接矩阵535。根据对应于分组的源的邻接矩阵的行,分段路由部件确定具有非零的距离权重因子的邻接矩阵的所有行,及每个这样的行的具象。这在536处被示出,被标记为“相邻具象”。分段路由部件接着将所述分段发送给与那些具象相关联的第2级过滤器中的每一个。

用于静态会话的第1级过滤通过使用分段路由部件540和会话表521来进行。会话表521定义会话中的会员身份。会话表是两列的表:第一列包含会话ID值,而第二列包含诸如用于源或者具象的标识符的实体标识符。实体是由所有行中的会话ID值所标识的所有会话的成员,对于其,它的实体标识符在第二列中。会话的成员是出现在在第一列中具有会话的会话ID的所有行的第二列中的所有实体。通过会话表更新器部件520来更新会话表,其通过向会话更新表添加或者从会话更新表去除行来响应静态会话会员身份的改变。用于会话表521和会话表更新器520两者的实现的众多技术是相关领域的技术人员所熟知的。当会话表521指示分段的源以及具象属于同一静态会话时,分段路由器540向第2级过滤器路由所述分段用于所述具象。

图6示出优选实施例的诸如512的第2级过滤部件的操作。每个第2级过滤部件与单个具象相关联。600示出被传递给第2级过滤部件的当前分段集505。代表性的分段611、612、613、614和615的集被示出。省略号示意可以有任何数量的分段。

过滤2处理的开始在620处被示出。下一个当前分段集505作为输入被得到。

单元624、626、628和630的步骤被执行用于在步骤620中所得到的当前分段集中的每个分段。624示出从每个分段取得该分段的能量值及该分段的源ID的步骤。

在626处,所述会话ID值被得到。如果所述会话ID值是位置会话的会话ID值,则下一个步骤是628,如所示出的那样。如果所述会话ID值是静态会话的会话ID值,则下一个步骤是632。

628示出从邻接矩阵535取得来自该邻接矩阵535的用于源和具象的单元格的距离权重,所述源是这个分段的源,并且所述具象是对于其该过滤器部件是第2级过滤部件的具象。这在511处由虚线箭头指示。

630示出将分段的能量值乘以来自单元格的距离权重,从而调整用于该分段的能量值。在所有分段已经被通过步骤624、626、628和630处理之后,处理通过步骤632继续。

632示出根据每个分段的能量值拣选在步骤622中所得到的所有分段的步骤。在分段已被拣选之后,复本的任何集中除了一个全部被去除。634示出输出在622中所得到的分段的子集作为过滤2的过滤的输出。在优选实施例中,子集是带有通过拣选步骤632所确定的最大能量值的三个分段。输出被表示在690处,其示出代表性的分段611、614和615。

当然,遵照本发明的技术,对要被输出给具象的分段的选择可以包括拣选以及不同于在优选实施例中所采用的那些选择标准。

在从636按循环向620处的开始步骤继续之前,处理从634向步骤636继续。636示出在优选实施例中循环以20毫秒的间隔周期性地被执行。

用于渲染的客户端操作

在这个优选实施例中,表示对于给定的具象可感知的音频发射的分段根据所述具象的感知点被渲染用于那个具象。对于特定用户的具象,所述渲染在用户的客户端计算机上被执行,并且根据所述源与用户的具象的虚拟距离和相对方向以恰当的表观音量和立体声或者双耳声方向渲染音频数据的流。因为被发送给渲染器的分段包括所述分段的元数据,被用于过滤的元数据也可以被用在渲染器中。另外,可能已在过滤2期间被调整的所述分段的能量值可以被用在渲染过程中。因此,不需要译码或者修改由源最初地发送的被编码的音频数据,并且所述渲染因此不会遭受任何保真度或者清晰度损失。通过产生于过滤的要渲染的分段的数量而毫无疑问地大大简化了渲染。

通过在客户端计算机的头戴式耳机或者扬声器上播放被渲染的声音而将该声音输出给用户。

优选实施例的其他方面

如将容易地被理解的,有许多方式来实现或者应用本发明的技术,并且在此给出的示例绝对不是限制性的。举例来说,过滤可以用分布式实施、以并行方式或者采用计算机源的可视化来实现。另外,根据所述技术的过滤可以各种组合并且在系统中的各个点处被执行,其中根据需要做出选择以最佳地利用虚拟现实系统的网络带宽和/或处理能力。

另外类型的过滤以及多种类型的过滤的组合

将把表示对于特定具象可感知的发射的分段与表示对于特定具象不可感知的发射的分段分开的任何类型的过滤技术可以被采用。如先前在优选实施例中所示,使用本发明的技术,许多类型的过滤可以单个地、按顺序或者以组合方式被采用。另外,根据本发明的技术的过滤可以被用于任何类型的发射以及被用在其中发射的源与发射的感知者之间的关系可以实时地变化的任何类型的虚拟环境中。事实上,优选实施例将相对响度过滤用于属于静态分段的分段是在其中过滤不是取决于位置的场合中使用所述技术的示例。举例来说,用于静态分段的技术可以被用在电话会议呼叫应用中。

如所容易明白的,该技术此处可以被应用于许多类型的通信和流数据的简易性及低成本是这些技术胜过现有技术的优点之一。

应用的类型

本发明的技术毫无疑问地包含非常广泛的应用。容易明白的示例包括:

·对录音的多个音频输入的音频混合及渲染的改进,诸如渲染虚拟音频空间环境中的感知点的汇集音频,所述虚拟音频空间环境诸如为虚拟音乐厅等。

·文本消息通信,诸如在来自多个具象的文本消息数据的流必须在虚拟环境中同时地被显示或者被渲染的情况下。这是所述技术可以被应用于其的流虚拟数据的许多可能的示例中的一个。

·对实时的会议系统的流数据的过滤及渲染,诸如对于电话/音频虚拟会议环境。

·对虚拟感觉环境中的感觉输入的流数据的过滤及渲染。

·基于现实世界的实体的实时地理邻近对流数据的分配,所述实体与虚拟环境中的具象相关联。

对所述源的发射进行过滤所需要的信息类型将取决于虚拟环境的特性而虚拟环境的特性又可以取决于其所针对的应用。举例来说,在用于会议系统的虚拟环境中,参加会议者相对于彼此的位置可能不是重要的并且在这样的场合,过滤可能仅在诸如参加会议者的音频发射的固有响度以及参加会议者与特定会话的关联等信息的基础上来进行。

过滤与其他处理的结合以及集成

过滤还可以与其他处理结合达到良好的效果。举例来说,某些媒体数据的流可以在虚拟环境中被标识为“背景声音”,诸如虚拟环境中的虚拟喷泉的流水的声音。作为这些技术的部分集成,虚拟环境的设计者可能宁愿那些背景声音不与其他流音频数据一样地被过滤,并且不使其他数据被过滤掉,而代替地用于背景声音的数据被过滤并且被处理以在有其他流数据的情况下以更小的表观响度被渲染,否则所述其他流数据可能被掩盖并且被过滤。过滤技术的这样的应用准许背景声音由虚拟环境系统中的服务器部件生成,而不是由客户端部件中的渲染部件在本地生成。

还容易明白的是根据这些技术的相同的过滤可以被应用于发射以及被应用于不同类型的流数据。举例来说,不同用户可以通过不同类型的发射经由虚拟环境来通信-听力受损的用户可以通过可视文本消息在虚拟环境中通信,而另一用户可以通过讲话声音来通信-并且从而设计者可以选择使相同的过滤被应用于以集成形式的两种类型的流数据。举例来说,在这样的应用中,过滤可以根据元数据以及诸如源位置、强度、和具象位置的当前具象信息为两种不同类型的发射进行过滤,而不管所述两种发射是不同的具有不同类型。所有所需要的就是强度数据是可比较的。

如前所述,本发明的技术可以被用于减小必须被渲染的数据的量,并且因此将实时的流数据的渲染移动到连网的虚拟现实系统的“边缘”变得更加可能,即在目的地客户端上渲染而不是增加在服务器部件上进行渲染的负担。另外,设计可以采用这些技术将数据的量减小至先前在客户端上所实现的功能(诸如记录)能够在服务器部件上被执行的程度:从而允许设计者为特定应用选择减小客户端的成本或者提供在客户端计算机或者其软件上没有被支持的虚拟功能。

将立即被理解的是将过滤与路由及其他处理结合并且以大大改善的实现成本这样做的灵活性和能力是在此所公开的新技术的许多优点之一。

应用所述技术的一些另外的方面的概述

除了上述内容以外,毫无疑问存在所述技术的其他有用方面。通过思考显而易见的许多另外的示例中的几个在此被记录:

在优选实施例中,诸如由与位置和方位有关的元数据提供的当前发射源信息,对于在渲染的终点处立体声地或者双耳声地渲染流媒体数据可能进一步有用,使得被渲染的声音被感知为来自恰当的相对方向-从左边、从右边、上面等等。因此,除了那些已经提到的以外,对过滤的这个关联信息的包括因此在渲染方面具有进一步增效的优点。

部分地由于他们优于现有技术的有利的以及新颖的简单性,采用本发明的技术的系统可以非常快速地操作,并且另外设计者可以快速地理解并且领会所述技术本身。部分所述技术特别适于以特殊的硬件或者固件来实现。出于设计选择,所述技术可以与基础设施集成,像网络分组路由系统的基础设施:因此可以通过对容易地且广泛地可获得的部件类型的非常有效的新的使用来实现这些新的技术。所述技术毫无疑问地还可以被应用于尚未知的发射类型以及被应用于尚未被实现的虚拟环境类型。

总结

前面的详细描述已向相关领域的技术人员公开了如何将发明人的扩展(scalable)技术用于在采用每个具象的渲染环境的虚拟现实系统中提供实时的每个具象的流数据并且已进一步地公开了发明人目前所知道的实现他们的技术的最佳模式。

对于相关领域的技术人员马上显而易见是在流数据正在被渲染并且有需要减小网络带宽和/或处理传递或者渲染该流数据所需要的处理资源的任何地方都有所述技术的许多可能的应用。所述过滤技术在流数据表示来自虚拟环境中的源的发射并且正被渲染成对于该虚拟环境中的不同感知点所需要的那样的地方特别有用。过滤被进行的基础将毫无疑问地取决于虚拟环境的属性以及取决于所述发射的属性。在此所公开的心理声学过滤技术不仅只在虚拟环境中而在其中来自多个源的音频被渲染的任何情况中都进一步地有用。最后,在过滤以及在渲染器处渲染流数据两者中使用包含流数据的分段中的元数据的技术,在网络带宽要求以及处理资源两方面都引起显著的降低。

另外将对于相关技术的技术人员马上显而易见的是存在像实施本发明人的技术的方式一样多的实施者。所述技术的给定实现的细节将取决于流数据所表示的内容、环境的类型、虚拟或者相反、正被使用的技术、以及所述技术在其中被使用的系统的部件就该系统的处理资源的量和位置以及可用的网络带宽而言的能力。

由于所有前述原因,详细说明应当被看作在所有方面是示例性的而不是限制性的,并且在此所公开的本发明的范围不应根据该详细说明来确定,而是应根据按照由专利法所准许的充分的范围所解释的那样的权利要求来确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号