首页> 中国专利> 游戏中的动态音乐创建

游戏中的动态音乐创建

摘要

公开了一种用于动态音乐创建的方法和系统。将情绪分配给一个或多个音乐乐想,并且将游戏向量与所述情绪相关联。基于所述情绪,将所述一个或多个音乐乐想映射到所述游戏向量。基于所述游戏向量和所需的情绪生成音乐作曲。

著录项

  • 公开/公告号CN113038998A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 索尼互动娱乐有限责任公司;

    申请/专利号CN201980075286.0

  • 发明设计人 A.加卢坦;

    申请日2019-11-07

  • 分类号A63F13/212(20140101);A63F13/67(20140101);A63F13/77(20140101);G10H1/00(20060101);G10H1/06(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人张晓明

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本公开涉及音乐作曲、音乐编配、机器学习、游戏设计和情绪的心理映射的领域。

背景技术

游戏一直是动态的追求,其中玩游戏过程响应玩家的动作。随着游戏变得更加电影化和更具沉浸感,音乐的重要性持续增长。当前,游戏中的音乐大部分是由预先编写的片段(通常是预先录制的)创建的,这些片段像拼图碎块一样拼凑在一起。它们间或地减慢、加快、变调,并常常叠加在彼此之上。作曲者可以猜测贯穿玩游戏过程的可能路径,但是由于玩游戏过程是交互式的,因此大部分玩游戏过程都是不可预测的,当然,大多数部分的定时是极少可预测的

在并行的机器学习和人工智能中使基于人类评论者标记的现有内容的训练集来生成内容成为可能。另外,还存在评论数据和到各种形式的艺术表现的情绪映射的较大的语料库。

作为另一个元素,我们正在越来越多地了解参与游戏的玩家。在社交媒体上可以跟踪已经选择加入的玩家,可以基于他们的行为做出关于其性格的分析,并且随着越来越多的用户利用对他们进行跟踪的生物特征识别装置(皮肤电活动、脉搏和呼吸、体温、血压、脑波活动、遗传预先倾向性等),可以将环境定制应用于音乐环境。

发明内容

本公开描述了一种用于分析音乐的机制,所述机制将音乐成分(节奏、拍号、旋律结构、调式、和声结构、和声密度、节奏密度和音色密度)分离出来,从而基于发布的评论和社交媒体表达的关于音乐会、唱片等的人类观点,单独地和组合地将这些成分映射到情绪成分。这是在音乐作品内的宏观和微观层面两者上进行的。基于此训练集,推子(或软件中的虚拟推子)被赋予如紧张、有力量、喜悦、惊奇、柔和、超脱、平和、怀旧、悲伤、通感、恐惧等情绪成分。这些音乐成分参照已为游戏的各个元素/参与者创建的乐想(motif)而被映射,所述元素/参与者包括但不限于角色(领导者、伙伴、主要敌人、巫师等)、活动类型(战斗、休息、规划、躲藏等)、区域(森林、城市、沙漠等)、玩游戏的人的性格等。这些乐想可以是旋律、和声、节奏等。一旦作曲者创建了乐想并将预期的情绪分配给推子,游戏模拟就可以运行,其中作曲者选择乐想组合和情绪映射并将它们应用于各种模拟。这些模拟可以先验地描述,或使用类似的算法来生成,以将游戏映射到类似的情绪环境。实际的物理推子(如在计算机化的音频混合控制台中使用的)可能会使将情绪映射到情境的过程更加直观和出于本能,并且物理性将会产生偶然的结果(例如,即使是紧张的环境,升高通感推子也可能会比升高紧张推子具有更好和更加有趣的效果)。

附图说明

通过考虑以下对本发明的一些具体实施方案的详细描述,特别是当结合附图时,本发明的上述以及另外的目标、特征和优点将变得显而易见,其中在各个图中的相同的附图标记用于指定相同的部件,并且其中:

图1是描绘根据本公开的各方面的动态音乐创建架构的概述的框图。

图2是示出根据本公开的各方面的对用于生成音乐元素语料库的音乐元素进行收集和分析的框图。

图3是描绘根据本公开的各方面的对用于生成带注释的表演数据的语料库的评论和评语进行收集和分析的框图。

图4是根据本公开的各方面的音乐的情绪参数的实施方案的代表性描绘。

图5是根据本公开的各方面的使用音乐和情绪评论元素来训练模型的系统化视图。

图6是示出根据本公开的各方面的对游戏元素的带注释的集合进行创建的框图。

图7是示出根据本公开的各方面的使用虚拟推子或真实推子来参照游戏元素创建和映射音乐元素的框图。

图8是描绘根据本公开的各方面的推子和开关与游戏情境回放引擎的交互的框图。

图9是示出根据本公开的各方面的在映射游戏和音乐元素时如何通过预览即将到来的事件而使用提示显示的框图。

图10是示出根据本公开的各方面的如何使用提示显示来启用预示以管理即将到来的音乐和游戏元素的框图。

图11描绘了根据本公开的各方面的用于游戏中的动态音乐创建的系统的示意性框图。

图12A是根据本公开的各方面的在游戏中的动态音乐创建中使用的递归神经网络的简化节点图。

图12B是根据本公开的各方面的在游戏中的动态音乐创建中使用的未折叠的递归神经网络的简化节点图。

图12C是根据本公开的各方面的在游戏中的动态音乐创建中使用的常规神经网络的简化图。

图12D是根据本公开的各方面的用于在游戏中的动态音乐创建中训练神经网络的方法的框图。

具体实施方式

尽管下面的具体实施方式包含用于说明用途的许多具体细节,但是本领域的任何普通技术人员应了解,对以下细节的许多变化和更改处于本发明的范围内。因此,下面描述的本发明的示例性实施方案在不失一般性并且未暗示对要求保护的本发明的限制的情况下进行阐述。

成分概述

从图1中可以看出,存在组成完整系统的许多成分。详情将在下面介绍,但是从高层次查看完整系统是有用的。成分分解如下:

首先,必须构建音乐情绪数据:可以从编写和录制的音乐的语料库收集音乐数据101。这可以是总谱、人员创建的扒带(transcription)或智能软件系统创建的扒带。接下来,所述系统必须将音乐数据分解成其各个成分–旋律、和声、节奏等102,并且这些成分必须存储为与作品或作品的部分相关联的元数据。现在,为了确定与各个音乐元素相关联的情绪成分或标记,我们将依赖于群体的智慧。显然地,这是准确的,因为它是与我们尝试捕获的音乐有关的人情绪。我们将使用评论、博客帖、专辑注解和其他形式的评语来生成整个作品和各个部分的情绪元数据103。下一步是将音乐元数据映射到情绪元数据104。此时,我们将具有与情绪数据相关联的相当大的音乐数据语料库,但它绝不会是完全的。下一步是使用卷积神经网络(CNN)将实际的音乐元数据与对情绪成分的分析进行比较105。然后,该CNN可以用于针对模型先前尚未基于其进行训练的音乐建议情绪关联。然后可以检查准确度。审查和重复–随着迭代继续,准确度将会提高。

下一步是分析游戏环境。必须首先收集和绘制游戏的阶段、成分情绪和特性。这些场景和成分包括如场所、角色、环境等事物、如战斗、施法等动作、等等106。下一步是将游戏成分映射到情绪元数据成分107。

一旦绘制出游戏环境,便是时候编写音乐乐想了108。可以为所有关键角色、场景、情绪或游戏的任何反复出现的元素编写乐想。一旦编写了基本乐想,推子(虚拟的或真实的)可以用于将音乐情绪标记映射到游戏标记109。用户(游戏玩家)的性格或行为成分也可以映射为要考虑的附加情绪特性110。接下来,继续进行测试、审查和迭代,在开发中的游戏中的不同情境上尝试所述模型111。

接下来是对各种过程的更详细描述。

音乐成分分析

需要一些元素来进行对音乐成分的分析。这些在图2中概述。首先,有较大的乐谱语料库。总谱可以印刷形式获得201。可以对这些印刷的总谱进行扫描和分析,以将其转换为电子版本的总谱。可以使用任何形式的电子打谱(MIDI、Sibelius等)。也已经有可以数字形式获得的总谱202,可以将其添加到语料库。最后,我们可以使用机器学习将音乐扒带成其音乐元素(包括总谱)203。机器学习方法可以为可能不呈符号形式的音乐生成总谱。这将包括同一位艺术家的同一首歌曲的多个版本。对现场表演和录制表演进行分析的优点在于,可以对它们进行更详细的映射,包括如节拍和力度的变化之类的东西;并且对于即兴的素材,可以考虑许多其他变量。我们必须跟踪对不同表演的分析204,这样我们就可以知道表演之间的差异,例如雷昂纳德·伯恩斯坦(Leonard Bernstein)在1964年指挥的纽约爱乐乐团的贝多芬第5交响曲的表演将与几年后小泽征尔(Seiji Ozawa)和波士顿交响乐团一起对同一作品的表演不同。这些总谱必须针对节拍205、节奏成分206、旋律207、和声结构208、力度209、和声和即兴元素210来分析。现在将所有这些存储在详细的音乐表演语料库中211。

一旦对较大的音乐语料库进行深入的机械分析,然后就使用来自评论的描述和关于作品的文献分析将这些分析映射到这些作品的评论。这可以在图3中看到。评论和分析可以是文本、听觉或视觉形式,并且包括但不限于文章301、评论302、博客303、播客304、专辑注解305和社交媒体评语306。从该较大的音乐分析语料库307,将对各个作品和作品的部分进行描述308。此外,这些分析必须具有作品被编写和表演的时期内的背景309。例如,一个人可能看着莫扎特的作品,并阅读在其作品的文献中的描述(其可以是不同的时期,例如在20世纪表演的莫扎特作品)。接下来,应用已知的结构音乐分析310来确定哪些作品和/或作品的部分或旋律乐句是美妙的、英勇的、忧郁的、刺耳的、哀伤的、庄严的、有力的、富有表现力的等。这可能涉及查看音乐文献,并将作曲发展的一般原则应用于分析。例如,旋律飞跃、然后逐音级反转方向被认为是美妙的。旋律音程可以沿令人愉悦、不令人愉悦或自然的音阶关联(例如小九度跳跃是不令人愉悦的,五度是英勇的,而音调符号内的一个音级是自然的)。所有这些表演和作曲数据可以用于将情绪关键词映射到表演和分段311。

“情绪”词可能来自对评论进行数字解析的过程,并且可以包括,并且任何人工分析都几乎必然地,包括以下词:紧张、有力量、喜悦、惊奇、柔和、超脱、平和、怀旧、悲伤和通感。

请注意,要使这些关键词起作用,它们是否准确不一定重要,只是它们具有一致的效果就可以。在实际使用最终系统时,与词语通感相关联的推子实际上是否创造出更具感官享受的音乐将无关紧要,而是只要作曲者可预见并在情绪上可理解即可。这有两个原因:1)标签总是可以更改为更加直观的名称;和2)人类在处理音乐和声音时适应能力很强(在音乐合成器的历史中,尽管是无意义的标签,旋钮、按钮和推子,例如回到Yamaha DX-7,也不会以任何方式影响在名称的基础上直观的声音,而是具有成为乐师的感官记忆和肌肉记忆的一部分的影响,因此易于使用)。

对音乐作品和成分的详细分析置于带注释的表演数据的语料库中312。

注意,映射音乐元素以创建音乐表演的语料库不必是并且将不可能是一对一的映射,而是设置在情绪连续体的音阶上,例如一组音乐向量。例如,作品在通感的音阶上可能是十分之八,而在悲伤的音阶上可能是十分之四。一旦将音乐元素映射到这些情绪向量,就可以对不在训练数据集中的标题来测试模型。人们可以听取结果并微调模型,直到模型更准确为止。最终,模型在某个时刻将变得非常准确。不同模型可以在不同的时间框架中运行以创建50年代风格的恐怖音乐或21世纪风格的恐怖音乐,请记住,实际的描述符不如分类分组重要(也就是说,对一个作曲者来说是柔和的内容可能对另一个作曲者来说是无聊的)。

注意,模型不仅可以将作品和部分映射到情绪向量,而且还可以将构成的旋律、节奏以及和弦进行映射到那些相同的情绪向量。同时,机器学习旋律结构(例如,旋律向上飞跃、然后向下一个音级通常被认为是美妙的,小九度飞跃通常被认为是不和谐的,等等)。

结构音乐分析310可以涉及多个成分。例如,如图4所示,美妙、不和谐和所有主观描述度量可以适时地作为作曲参考。例如,那些在巴赫的时代被认为不和谐的内容(例如,大七度音程被认为太不和谐而无法演奏,除非从先前更和谐的和弦转入七度)在稍后的时代被认为是美妙的(现今,大七度和弦被认为是正常的,甚至有时被人为是感情丰富的)。

在一种现有的音乐情绪分类方法中401,根据心理学家罗伯特·塞耶(RobertThayer)的传统情绪模型来划分歌曲的情绪。所述模型分别沿着能量和压力的线将歌曲划分为从快乐到悲伤和从平静到充满活力。塞耶的模型创建的八个类别包括两条线的极值以及线的可能交点中的每个(例如,快乐-充满活力或悲伤-平静)。

该历史分析可能具有有限的值,并且本文所述的方法可能更加细微和灵活。由于语料库的大小并且因此训练数据集的大小,可以应用更丰富且更细微的分析。

要分析的成分中的一些402可以包括但不限于和声分组、调式和音阶、拍号、节拍、和声密度、节奏密度、旋律结构、乐句长度(和结构)、力度、分节和作曲技巧(变调、转位、逆行等)、律动(包括如放克音乐、沙发音乐、拉丁音乐、雷鬼音乐、摇摆音乐、探戈音乐、梅伦格音乐、萨尔萨音乐、法多音乐、60年代迪斯科音乐、70年代迪斯科音乐、重金属音乐等节奏,有数百种已确立的节奏风格)。

训练模型

正如人们会标记桃子的照片来训练卷积神经网络以在向卷积神经网络示出其之前从未见过的桃子的照片时识别出桃子的照片一样,关于消费者和评论者意见的数据也可以用于训练机器学习模型,然后使用所述模型对新素材进行分类。图5中示出了该过程的一个示例。在所示的实现方式中,可以使用群体的智慧(例如评论、帖子等)来训练我们的模型,以识别与不同音乐乐段相关联的情绪。

在图5所示的实现方式中,音乐数据的语料库分为三个存储桶。第一存储桶,即语料库A 501,是一组音乐数据502,已经基于听众评论数据的分析为该组音乐数据映射了所收集的情绪描述503。第二存储桶,即语料库B 506,是一组音乐数据507,已经为该组音乐数据映射了其自己的一组所收集的情绪描述508。第三存储桶,即语料库C,是一组音乐数据511,针对该组音乐数据,不存在所收集的情绪描述。最初在语料库A上训练模型。使用卷积神经网络504将所收集的情绪描述503映射到音乐数据502。该映射的结果是经训练的引擎505,其应该能够从音乐数据中得出情绪描述。然后将语料库B506的音乐数据507馈送到经训练的引擎505中。所得输出是语料库B音乐的预测情绪描述509。然后将这些预测与所收集的描述510进行比较,以确定预测的准确度。继续该预测、比较和迭代过程(例如,通过将音乐元素从语料库B移到语料库A中并重复进行),直到语料库B音乐的预测情绪描述509与实际结果紧密匹配为止。该过程可以无限地继续,其中系统随时间推移变得越来越智能。在经训练的引擎505经过足够的迭代之后,可以将其用作语料库C511上的预测引擎512,以预测语料库C音乐的情绪描述513。

映射游戏元素

为了将动态音乐元素与游戏中的不同元素进行匹配,可以创建可能需要音乐或音乐变化的元素的语料库。有许多不同的元素可以影响那一刻应该是怎样的音乐。当然,这些元素由游戏开发人员使用,并且可以使其可供作曲者和声音设计师使用,以使音乐匹配。如图6中可以看出,有许多要跟踪和映射的游戏元素。这些包括但不限于游戏角色601、游戏环境或位置602、游戏情绪或音调603、以及可能最重要的游戏事件604。游戏中的事件可以是从敌人或朋友的出现到位置的改变、到战斗、到施法、到比赛(还有许多)的任何事物。所有这些游戏元素605以及它们的触发因素(输入或输出)和修饰符都被收集。另外,这些可以被收集作为游戏向量606。它们被称为向量,因为成分中的许多成分具有多个状态。例如,晚上的场地可能不同于白天,而雨中的场地可能不同于在阳光下。敌人的能力可能可变,其基于时间、地点或等级而增加或减少。从这个角度来看,任何元素都可以具有向量数组。所有游戏元素及其向量都具有与之相关联的情绪。情绪可以随着向量的值而变化,但是尽管如此,情绪可以与游戏元素相关联。一旦将游戏元素映射到其情绪607,我们就可以将该关系存储在带注释的游戏元素的语料库或集合中608。

收集进给环境所需的成分

最终,作曲工具可以用于其自己从玩游戏过程中创建音乐,但是该实施方案重点在于从作曲基元创建音乐。作曲者将创建音乐元素或乐想,并将它们与游戏中的角色或元素相关联。

这里对工具的使用不必单独来使用,而是经常用于增强传统的打谱技术,其中预先录制的音乐被依序且分层地与多个成分组合,从而混合在一起以创建一个整体。也就是说,现今,不同的层可能在不同的时间开始,并且一些层将与其他层叠加,并且还有一些层可能独立于其他层运行。这里的想法是开发附加工具,所述附加工具可以1)作为现有技术的补充(例如在现有技术之上)使用,2)在某些或所有地方代替现有技术使用,或3)作为用于通知现有技术的使用的机制使用。另外,这些机制可以用于创建全新形式的交互式媒体(例如,试图控制血压或脑波状态的人们可以使用音乐反馈作为训练工具,或甚至使用生物特征识别标记作为作曲工具。

在传统的作曲研究中,乐想通常是指小的旋律分段。然而,在该背景下,乐想可以是旋律分段、和声结构、节奏结构和/或特定音调。乐想可以被创建用于如需要一样多的游戏的各个元素/参与者,所述元素/参与者包括但不限于角色(领导者、伙伴、主要敌人、巫师等)、活动类型(战斗、休息、规划、躲藏等)、区域(森林、城市、沙漠等)、玩游戏的人的性格(年轻、年老、男性、女性、内向、外向等)。乐想可以是旋律、和声、节奏等。另外,单个元素可以有多个乐想,例如可以单独或一起使用的节奏模式和旋律模式,或者同一角色可能有在不同情况下使用的悲伤乐想和快乐乐想两者。

一旦作曲者创建了乐想,就可以将其分配给元素/角色。这可以由作曲者或声音设计师完成,并且可以随着游戏的开发而改变,或者甚至可以在发行之后在游戏内部动态改变。

使用工具将音乐成分映射到游戏元素

前述方面可以被组合以将音乐成分映射到游戏元素。在整个文档中,应该假定对推子和按钮的引用可以是真实的物理按钮或推子,也可以是虚拟按钮或推子。直观地,基于乐师和作曲者的经验,预期物理按钮和推子使用起来将更加直观并且可能具有更好的结果。实际的物理推子(如在计算机化的音频混合控制台中使用的)可能,甚至更可能,会使将情绪映射到情境的过程更加直观和出于本能,并且物理性将会产生偶然的结果(例如,即使是紧张的环境,升高通感推子也可能会比升高紧张推子具有更好和更加有趣的效果)。然而,出于本申请的目的,任一者都可以起作用。

事件的可能逻辑顺序的示例如图7所示,但是任何顺序都可以产生结果,并且所述过程毫无疑问将是迭代的、递归的和非线性的。

图7中描绘的逻辑顺序可以以带注释的游戏元素的集合701开始,其可以从图6中的带注释的游戏元素的集合608转入。然后,在702处将游戏触发因素分配给开关。这些触发因素可以是敌人或障碍物的出现或等级提升等等。接下来,选择主要情绪向量703,并在704处分配视觉标记,使得可以向作曲者显示元素类型。然后,将游戏元素分配给多维数组中的情绪元素,如705处所示。然后,在710处将多维数组分配给推子和开关,所述推子和开关用于将音乐情绪标记映射到游戏标记。一旦为游戏元素建立了一组情绪标记,就可以将音乐应用于游戏元素。作曲者编写乐想707。如上所述,乐想可以表示角色、事件、区域或情绪。接下来,我们选择乐想的基线情绪708。这些是默认的情绪。例如,每当巫师出现时,都可能会有具有其默认情绪的默认乐想。这些可以基于情况而变化,但是如果未应用任何变量,则它们将以其默认模式操作。现在,我们将情绪向量分配给推子709。现在已经分配了游戏向量并且分配了音乐向量,在710处,可以使用推子和开关将音乐情绪标记映射到游戏标记。推子不必与单个情绪相对应。因为这就像微调乐器的音色,作曲者可以发挥创造力。也许80%英勇和20%悲伤的推子会产生意想不到的令人愉悦的结果。

接下来,可以将各种主题映射到一组按钮(可能是在彩色矩阵中,因此容易一次看到许多)。其中一些按钮可能与游戏开关相同,但其他按钮将是音乐开关。这些按钮可以按角色类型(英雄、反派、巫师等)、音乐作曲成分(例如在一侧上有律动,并且在另一侧上有旋律,调式横跨顶部)和场景(城市、乡村等)进行分组。

注意,已经映射到按钮或开关的许多游戏触发因素最终都将被玩游戏过程本身“推动”,但是在早期阶段,能够模拟如敌人的到来、或日出、或厄运将至等事物将是有用的。

现在,游戏模拟可以实时运行到游戏的早期版本,即使它只是情节提要,或甚至没有情节提要只是为了编写适用于不同情境的音乐。作曲者可以选择乐想组合和情绪映射,并将其应用于各种模拟并对其进行测试驱动。随着游戏的发展,可以对这些情境进行微调。

实际上,这也可以用作泛化的作曲,其中作曲者或表演者可以使用机器根据基元创建音乐。

使用推子和开关对音乐进行编程

图8示出了可以如何实际使用游戏模拟和音乐编程的示例。如图7中所示和图8中可以看出,乐想801、游戏触发因素802和游戏成分803被映射到推子和开关804。映射到推子和开关804的这些乐想801、游戏触发因素802和游戏成分803被插入到游戏情境回放引擎805中。现在,作曲者在测试各种游戏情境的同时播放音乐806,并由记录的音乐场景/事件映射模块808进行记录。为了看到元素是什么,作曲者可以查看提示显示屏808,所述提示显示屏示出正在使用或将要出现哪些元素。如果触摸了推子,则其所映射到的元素可能会在屏幕上突出显示以提供视觉反馈。提示显示可以示出来自游戏情境回放引擎805的元素,因为这些元素正在从实时推子和开关中播放出来。这由在玩游戏的同时播放音乐的模块806表示并来自记录的音乐场景/事件映射模块807。就像在与自动化推子混合时更新推子一样,所有推子和开关都可以在809处实时更新和修改,并被记住以供以后回放。另外,可以在810处更新乐想、成分和触发因素,并被系统记住。当然,存在无限的撤消操作,并且可以将不同的表演保存为不同的版本,这些版本可以在不同的时间使用并且可以彼此组合使用。

图9显示了根据本公开的各方面的关于可以如何使用提示监视器907的附加详情。即将到来的事件901、角色902和位置903都可以在提示监视器上看到(可能有多个提示监视器)。基于玩游戏过程的预期参数,可以存在默认权重904。这些和推子(和开关)映射矩阵905全部显示在一个或多个提示监视器907上。玩家历史/预测矩阵906是推子映射矩阵905的另一个输入并且在提示监视器上可见。基于玩家的游戏风格或其他因素(当日时间、当前会话中的分钟数或小时数、游戏状态等),该矩阵可以自动更改音乐,或基于作曲者或声音设计师设定的参数来更改音乐。

预示变化的音乐

在电影中,音乐经常在视觉变化之前发生变化。该预兆或预示过程对于与作品的情绪联系以及使观看者/听众为情绪变化做好准备或进行其他情绪准备都非常重要(即使这是错误的预测并且使观看者感到惊讶也是如此)。现在,当我们在即时地编写音乐时,我们将希望能够预示变化。这可能与接近某个关卡的完成或发信号通知新角色或新环境的进入(或为观看者设置一种变化,但实际上却用另一种变化使他们感到惊讶)相关联。

我们的作曲引擎将如何有效地进行预示?我们可以使用提前已知的触发因素,并使用推子或拨盘来控制预示的定时以及预示的坡度。例如,如果某个计时器在某个关卡上时间所剩无几,则可以将预示设置为在时间结束前30秒开始,并使用指数曲线(诸如y=2

游戏外使用

该作曲工具的使用不仅限于游戏使用。即使在非游戏使用中,交互式VR环境也可以利用这些技术。另外,这可以用作对传统电视节目或电影进行打谱的作曲工具。而且,一个最终使用可能是在纯粹的音乐创建中使用它来创建专辑或流行歌曲的基础等。

系统

图11描绘了根据本公开的各方面的用于游戏中的动态音乐创建的系统。所述系统可以包括耦合到用户输入装置1102的计算装置1100。用户输入装置1102可以是控制器、触摸屏、传声器、键盘、鼠标、操纵杆、推子板或允许用户向系统中输入包括声音数据的信息的其他装置。所述系统还可以耦合到生物特征识别装置1123,所述生物特征识别装置被配置为测量皮肤电活动、脉搏和呼吸、体温、血压或脑波活动。生物特征识别装置可以是例如但不限于指向用户的热或红外相机,并被配置为根据热特征确定用户的呼吸和心率,有关更多信息请参见Chen等人的共同拥有的专利第8,638,364号“USER INTERFACE SYSTEM ANDMETHOD USING THERMAL IMAGING”,其内容通过引用并入本文。替代地,生物特征识别装置可以是例如但不限于脉搏血氧仪、血压袖带、脑电图机、心电图机、可穿戴活动跟踪器或具有生物感测的智能手表之类的其他装置。

计算装置1100可以包括一个或多个处理器单元1103,所述一个或多个处理器单元可根据熟知的架构(例如,单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。计算装置还可以包括一个或多个存储器单元1104(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。

处理器单元1103可以执行一个或多个程序,所述程序的部分可以被存储在存储器1104中,并且处理器1103可操作地耦合到存储器(例如,通过经由数据总线1105访问存储器)。程序可以被配置为基于视频游戏的游戏向量1109和情绪向量1110来生成或使用声音乐想1108来创建音乐。声音乐想可以是由乐师、用户或机器作曲的简短音乐乐想。另外,存储器1104可以包含实现声音归类和分类NN 1121的训练的程序。存储器1104还可以包含带注释的表演数据和情绪描述的一个或多个数据库1122。神经网络模块1121,例如用于将音乐乐想与情绪相关联的卷积神经网络,也可以存储在存储器1104中。存储器1104可以存储报告1110,所述报告列出了没有被神经网络模块1121识别为在数据库1122中的项目。声音乐想、游戏向量、情绪向量、神经网络模块和带注释的表演数据1108、1109、1121、1122也可以作为数据1118存储在大容量存储区1118中或存储在耦合到通过网络接口1114访问的网络1120的服务器处。另外,用于视频游戏的数据可以在存储器1104存储为数据库或其他地方中的数据或存储为大容量存储区1115中的程序1117或数据1118。

NN的总体结构和概率也可以作为数据1118存储在大容量存储区1115中。处理器单元1103还被配置为执行存储在大容量存储区1115或存储器1104中的一个或多个程序1117,所述程序使处理器执行使用音乐乐想1108、游戏向量1109和情绪向量1110的动态音乐创建的方法,如本文所述。从音乐乐想产生的音乐可以存储在数据库1122中。另外,处理器可以执行本文所述的用于NN 1121训练和音乐乐想到情绪的分类的方法。系统1100可以生成神经网络1122作为NN训练过程的一部分,并将它们存储在存储器1104中。完整的NN可以存储在存储器1104中或作为数据1118存储在大容量存储区1115中。另外,NN 1121可以使用来自用户的实际反应进行训练,其中生物特征识别装置1123用于提供来自用户的生物反馈。

计算装置1100还可以包括熟知的支持电路,诸如输入/输出(I/O)1107、电路、电源(P/S)1111、时钟(CLK)1112和高速缓存1113,它们可以例如经由总线1105与系统的其他部件通信。计算装置可以包括网络接口1114。处理器单元1103和网络接口1114可以被配置为经由用于个人区域网(PAN)的合适的网络协议(例如,蓝牙)实现局域网(LAN)或PAN。计算装置可以任选地包括大容量存储装置1115(诸如,磁盘驱动器、CD-ROM驱动器、磁带驱动器、快闪存储器等),并且大容量存储装置可存储程序和/或数据。计算装置还可以包括用户界面1116以促进系统与用户之间的交互。用户界面可以包括监视器、电视屏幕、扬声器、耳机或向用户传达信息的其他装置。

计算装置1100可以包括网络接口1114以促进经由电子通信网络1120的通信。网络接口1114可以被配置为通过局域网和广域网(诸如互联网)来实现有线或无线通信。装置1100可以通过网络1120经由一个或多个消息包发送和接收数据和/或对文件的请求。通过网络1120发送的消息包可以被临时存储在存储器1104中的缓冲器1109中。带注释的表演数据、声音乐想和带注释的游戏元素可以通过网络1120获得,并部分地存储在存储器1104中以供使用。

神经网络训练

通常,用于动态音乐生成的神经网络可以包括几种不同类型的神经网络中的一种或多种,并且可以具有许多不同的层。举例来说而非限制,分类神经网络可以由一个或多个卷积神经网络(CNN)、递归神经网络(RNN)和/或动态神经网络(DNN)组成。

图12A描绘了具有节点层1220的RNN的基本形式,所述节点中的每一者的特征在于激活函数S、一个输入权重U、递归隐藏节点转移权重W和输出转移权重V。激活函数S可以是本领域中已知的任何非线性函数,并且不限于双曲正切(tanh)函数。例如,激活函数S可以是Sigmoid或ReLu函数。与其他类型的神经网络不同,RNN在整个层具有一组激活函数和权重。如图12B所示,RNN可以被认为是在时间T和T+1中移动的具有相同激活函数的一系列节点1220。因此,RNN通过进给从先前时间T到当前时间T+1的结果来维持历史信息。

在一些实施方案中,可以使用卷积RNN。可以使用的另一种类型的RNN是长短期记忆(LSTM)神经网络,它用输入门激活函数、输出门激活函数和遗忘门激活函数添加RNN节点中的存储块,从而形成门控存储器,这允许网络在更长的时间内保留一些信息,如Hochreiter和Schmidhuber的“长短期记忆(Long Short-term memory)”(神经计算9(8):1735-1780(1997))中所述,其以引用方式并入本文。

图12C描绘了根据本公开的各方面的诸如CRNN等卷积神经网络的示例性布局。在该描绘中,生成卷积神经网络以训练呈数组1232(例如,具有4行4列,从而提供总共16个元素)形式的数据。所描绘的卷积神经网络具有2行乘2列大小的滤波器1233(其跳跃值为1)并且大小为9的通道1236。为了清楚起见,在图12C中仅描绘了第一列通道与其滤波窗口之间的连接1234。然而,本公开的各方面不限于此类实现方式。根据本公开的各方面,实现分类1229的卷积神经网络可以具有任意数量的附加神经网络节点层1231并且可以包括诸如附加卷积层、全连接层、池化层、最大池化层、局部对比度归一化层等任何大小的此类层类型。

如在图12D中看到的,训练神经网络(NN)始于NN的权重的初始化1241。通常,初始权重应随机分配。例如,具有tanh激活函数的NN应该具有分布在

初始化之后,定义激活函数和优化程序。然后向NN提供特征向量或输入数据集1242。不同特征向量中的每一者可以由NN从具有已知标签的输入中生成。类似地,可以向NN提供特征向量,所述特征向量对应于具有已知标签或分类的输入。NN然后预测特征或输入的标签或分类1243。将预测的标签或类别与已知的标签或类别(也称为基准真相)进行比较,并且损失函数测量所有训练样本上的预测与基准真相之间的总误差1244。举例来说而非限制,损失函数可以是交叉熵损失函数、二次成本、三重态对比函数、指数成本等。可根据目的使用多个不同的损失函数。通过示例而非限制的方式,为了训练分类器,可以使用交叉熵损失函数,而为了学习预训练的嵌入,可以使用三重态对比函数。然后,使用损失函数的结果并使用用于神经网络的已知训练方法(诸如,具有自适应梯度下降的反向传播等)对NN进行优化和训练1245。在每个训练时期,优化程序尝试挑选使训练损失函数(即,总误差)最小的模型参数(即权重)。数据分为训练样本、验证样本和测试样本。

在训练期间,优化程序使训练样本上的损失函数最小化。在每个训练时期之后,通过计算验证损失和准确性,在验证样本上对模式进行评估。如果没有显著变化,则训练可以停止,并且所得的经训练模型可用于预测测试数据的标签。

因此,可以从具有已知标签或分类的输入中训练神经网络,以对那些输入进行识别和分类。

虽然以上为本发明的优选实施方案的完整描述,但是使用各种替代、修改和等效物是可能的。因此,本发明的范围不应参考以上描述确定,而是应替代地参考随附权利要求书以及其整个范围的等效物确定。本文所述的任何特征(不论是否优选)可与本文所述的任何其他特征(不论是否优选)组合。在随附权利要求书中,

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号