首页> 中国专利> 声音合成装置、电子水印信息检测装置、声音合成方法、电子水印信息检测方法、声音合成程序及电子水印信息检测程序

声音合成装置、电子水印信息检测装置、声音合成方法、电子水印信息检测方法、声音合成程序及电子水印信息检测程序

摘要

本发明提供能够在不会使合成声音的音质劣化的情况下插入电子水印的声音合成装置、电子水印信息检测装置、声音合成方法、电子水印信息检测方法、声音合成程序及电子水印信息检测程序。实施方式的信息处理装置具备声源生成部、相位调制部、声道过滤部。声源生成部使用声音的基本频率序列及脉冲信号,生成声源信号。相位调制部对声源生成部所生成的声源信号,基于电子水印信息,按每个音高标记调制脉冲信号的相位。声道过滤部对相位调制部调制了脉冲信号的相位后的声源信号,使用频谱参数序列生成声音信号。

著录项

  • 公开/公告号CN105122351A

    专利类型发明专利

  • 公开/公告日2015-12-02

    原文格式PDF

  • 申请/专利权人 株式会社东芝;

    申请/专利号CN201380070775.X

  • 申请日2013-01-18

  • 分类号G10L13/02;G10L19/018;

  • 代理机构北京市中咨律师事务所;

  • 代理人刘瑞东

  • 地址 日本东京都

  • 入库时间 2023-12-18 12:26:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-13

    授权

    授权

  • 2015-12-30

    实质审查的生效 IPC(主分类):G10L13/02 申请日:20130118

    实质审查的生效

  • 2015-12-02

    公开

    公开

说明书

技术领域

本发明的实施方式涉及声音合成装置、电子水印信息检测装置、声音 合成方法、电子水印信息检测方法、声音合成程序及电子水印信息检测程 序。

背景技术

公知的是,对表示声带的振动的声源信号进行表示声道特性的过滤, 来合成声音。另外,合成声音的品质提高,有被滥用的危险性。因此,考 虑通过在合成声音插入水印信息,能够防止、抑制滥用。

【专利文献1】特开2003-295878号公报

发明内容

但是,若在合成声音组入电子水印,则有时发生音质劣化。本发明要 解决的问题在于提供能够在不会使合成声音的音质劣化的情况下插入电子 水印的声音合成装置、电子水印信息检测装置、声音合成方法、电子水印 信息检测方法、声音合成程序及电子水印信息检测程序。

实施方式的信息处理装置具备声源生成部、相位调制部和声道过滤部。 声源生成部使用声音的基本频率序列及脉冲信号,生成声源信号。相位调 制部对声源生成部所生成的声源信号,基于电子水印信息,按每个音高标 记调制脉冲信号的相位。声道过滤部对相位调制部调制了脉冲信号的相位 后的声源信号,使用频谱参数序列生成声音信号。

附图说明

图1是例示实施方式所涉及的声音合成装置的构成的方框图。

图2是例示声源部的构成的方框图。

图3是例示实施方式所涉及的声音合成装置进行的处理的流程图。

图4是对无电子水印的声音波形和声音合成装置插入了电子水印的声 音波形进行对比的图。

图5是例示声源部的第1变形例及其周边的构成的方框图。

图6是表示声音波形、基本频率序列、音高标记及频带噪声强度序列 的一例的图。

图7是例示表示具有图5中所示的声源部的声音合成装置所进行的处 理的流程图。

图8是例示声源部的第2变形例及其周边的构成的方框图。

图9是例示实施方式所涉及的电子水印信息检测装置的构成的方框 图。

图10是表示在判定部基于代表相位值来判定电子水印信息的有无的 情况下进行的处理的图。

图11是例示实施方式所涉及的电子水印信息检测装置的工作的流程 图。

图12是表示在判定部基于代表相位值来判定电子水印信息的有无的 情况下进行的其他处理的第1例的图。

图13是表示在判定部基于代表相位值来判定电子水印信息的有无的 情况下进行的其他处理的第2例的图。

具体实施方式

(声音合成装置)

以下参照附图,说明实施方式所涉及的声音合成装置。图1是例示实 施方式所涉及的声音合成装置1的构成的方框图。另外,声音合成装置1 由例如通用的计算机等实现。即,声音合成装置1具有作为具备例如CPU、 存储装置、输入输出装置及通信接口等的计算机的功能。

如图1所示,声音合成装置1具备输入部10、声源部2a、声道过滤部 12、输出部14及第1存储部16。输入部10、声源部2a、声道过滤部12 及输出部14可以分别由硬件电路或通过CPU执行的软件构成。第1存储部 16由例如HDD(HardDiskDrive,硬盘驱动器)或存储器等构成。即,声音 合成装置1也可以构成为通过执行声音合成程序来实现功能。

输入部10对声源部2a输入表示基本频率或基本周期的信息的序列(以 下,记载为基本频率序列)、频谱参数的序列和至少包含电子水印信息的特 征参数的序列。

基本频率序列设为例如有声音的帧的基本频率(F0)的值等和表示是无 声音的帧这一情况的值的序列。这里,无声音的帧设为例如固定为0等预 先确定的值的序列。另外,有声音的帧也可以包含周期信号的每帧的音高 周期或对数F0等的值。

在本实施方式中,所谓帧,设为表示声音信号的区间。在声音合成装 置1根据固定的帧频进行分析的情况下,特征参数为例如每5ms的值。

频谱参数将声音的频谱信息表现为参数。在声音合成装置1与基本频 率序列同样地根据固定的帧频进行分析的情况下,频谱参数为与例如每 5ms的区间对应的值。另外,对频谱参数,使用例如倒频谱、梅尔倒频谱、 线性预测系数、频谱包络或梅尔LSP等各种参数。

声源部2a使用从输入部10输入的基本频率序列及后述的脉冲信号等, 生成对相位进行了调制的声源信号(使用图2等详述),并对声道过滤部12 输出。

声道过滤部12对声源部2a调制了相位后的声源信号,使用经由例如 声源部2a接收到的频谱参数序列,进行卷积运算,生成声音信号。即,声 道过滤部12生成声音波形。

输出部14输出声道过滤部12所生成的声音信号。例如,输出部14 将声音信号(声音波形)表现为波形输出,或者作为声音文件(例如WAVE文 件等)输出。

第1存储部16预先存储用于声音合成的多种脉冲信号,根据来自声源 部2a的访问,对声源部2a输出某脉冲信号。

图2是例示声源部2a的构成的方框图。如图2所示,声源部2a具有例 如声源生成部20及相位调制部22。声源生成部20对从第1存储部16接 收到的脉冲信号,通过使用从输入部10接收到的特征参数的序列进行变 形,生成针对有声音的帧的(脉冲)声源信号。即,声源生成部20制作脉冲 列(或音高标记列)。音高标记列是表示配置音高脉冲的时刻的列的信息。

例如,声源生成部20确定基准时刻,根据基本频率序列内相符的帧的 值计算该基准时刻处的音高周期。另外,声源生成部20通过反复在相对于 基准时刻前进了所计算的音高周期的长度的量的时刻赋予标记的处理,来 制作音高标记。另外,声源生成部20通过求出基本频率的倒数,来计算音 高周期。

相位调制部22接收声源生成部20所生成的(脉冲)声源信号,进行相 位调制。例如,相位调制部22对声源生成部20所生成的声源信号,基于 使用了特征参数中所包含的电子水印信息的相位调制规则,按每个音高标 记调制脉冲信号的相位。即,相位调制部22调制脉冲信号的相位,生成相 位调制脉冲列。

相位调制规则既可以是时间序列性的调制,也可以是频率序列性的调 制。例如,相位调制部22如下式1或下式2所示,按每个频点以时间序列 调制相位,或者使用以时间序列及频率序列中的至少一种随机地调制的全 通滤波器,时间性地进行调制。

例如,在相位调制部22以时间序列调制相位的情况下,也可以构成为 将表示按每时间序列(按每预定的时刻)变化的相位调制规则组的表作为电 子水印信息所用的密钥信息,由输入部10对相位调制部22预先输入。在 该情况下,相位调制部22基于电子水印信息所用的密钥信息,按每个预定 的时刻改变相位调制规则。另外,在检测电子水印信息的电子水印信息检 测装置(后述)中,通过使用相位调制部22用于相位调制规则的改变的表, 可以提高电子水印的秘匿性。

【数学式1】

ph(t,f)=at(f>0)0(f=0)-at(f<0)...(1)

【数学式2】

ph(t,f)=rand(f,t)···(2)

另外,a表示相位调制强度(斜率),f表示频点或频带,t表示时间,ph(t, f)表示时刻t处的频率f的相位。相位调制强度a例如设为使根据包括多个频 点的2个频带的相位值所计算的2个代表相位值间的比率或差值变化以便 成为预定值的值。并且,声音合成装置1将相位调制强度a用作为电子水印 信息的位信息。另外,声音合成装置1也可以通过将相位调制强度a(斜率) 设为多个值,将电子水印信息的位信息多位化。另外,在相位调制规则中, 也可以使用预定的多个频点的中值、平均值或加权平均值等。

接着,说明图1所示的声音合成装置1所进行的处理。图3是例示声 音合成装置1所进行的处理的流程图。如图3所示,在步骤100(S100),声 源生成部20对从第1存储部16接收到的脉冲信号,通过使用从输入部10 接收到的特征参数的序列进行变形,生成针对有声音的帧的(脉冲)声源信 号。即,声源生成部20输出脉冲列。

在步骤102(S102),相位调制部22对声源生成部20所生成的声源信号, 基于使用了特征参数中所包含的电子水印信息的相位调制规则,按每个音 高标记来调制脉冲信号的相位。即,相位调制部22输出相位调制脉冲列。

在步骤104(S104),声道过滤部12对声源部2a调制了相位后的声源信 号,使用经由声源部2a接收到的频谱参数序列,进行卷积运算,生成声音 信号。即,声道过滤部12输出声音波形。

图4是对无电子水印的声音波形和声音合成装置1插入了电子水印的 声音波形进行对比的图。图4(a)表示无电子水印的“Donatetotheneediest casestoday!”这一声音的声音波形的例子。另外,图4(b)表示声音合成装 置1使用上式1插入了电子水印的“Donatetotheneediestcasestoday!” 这一声音的声音波形的例子。相对于图4(a)所示的声音波形,图4(b)所示 的声音波形通过被插入了电子水印,相位偏离(被调制)。例如,图4(b)所 示的声音波形即使插入电子水印,也不会发生人的听觉上的音质劣化。

(声源部2a的第1变形例:声源部2b)

接着,说明声源部2a的第1变形例(声源部2b)。图5是例示声源部2a 的第1变形例(声源部2b)及其周边的构成的方框图。如图5所示,声源部 2b具备例如判断部24、声源生成部20、相位调制部22、噪声声源生成部 26及加法部28。第2存储部18预先存储用于声音合成的白色性及高斯性 的噪声信号,根据来自声源部2b的访问,对声源部2b输出噪声信号。另 外,在图5所示的声源部2b中,对与构成图2所示的声源部2a的部分实质 相同的部分标注相同符号。

判断部24判断从输入部10接收到的特征参数中所包含的基本频率序 列的所关注的帧是无声音的帧还是有声音的帧。另外,判断部24对噪声声 源生成部26输出与无声音的帧有关的信息,对声源生成部20输出与有声 音的帧有关的信息。例如,在基本频率序列中无声音的帧的值设为0的情 况下,判断部24通过判定该帧的值是否为0,来判断所关注的帧是无声音 的帧还是有声音的帧。

这里,输入部10既可以对声源部2b输入与对声源部2a(图1、2)输入 的特征参数的序列相同的特征参数,也可以对声源部2b输入还加上了其他 参数的序列的特征参数。例如,输入部10在特征参数的序列中增加频带噪 声强度序列,该频带噪声强度序列表示对第1存储部16存储的脉冲信号及 第2存储部18存储的噪声信号应用与n个(n是2以上的整数)通过频带对应 的n个带通滤波器的情况下的强度。

图6是表示声音波形、基本频率序列、音高标记及频带噪声强度序列 的一例的图。在图6中,(b)表示(a)中所示的声音波形的基本频率序列。另 外,在图6中,(d)中所示的频带噪声强度是用相对于频谱的比例表示按(c) 所示的每个音高标记例如分割为5个频带的各个频带(band1~band5)的噪 声分量的强度的参数,成为0到1间的值。频带噪声强度序列按每个音高 标记(或每分析帧)排列频带噪声强度而成。

由于无声音的帧的全频带被视为噪声分量,所以频带噪声强度的值成 为1。另一方面,有声音的帧的频带噪声强度成为小于1的值。一般地, 在高频带中噪声分量变强。另外,在有声摩擦音的高域分量中,频带噪声 强度成为接近1的高的值。另外,基本频率序列也可以是对数基本频率, 频带噪声强度也可以是分贝单位。

并且,声源部2b的声源生成部20从基本频率序列设定开始点,根据 当前的位置处的基本频率计算音高周期。另外,声源生成部20通过反复进 行将对当前的位置加上了所计算的音高周期的时刻设为下一个音高标记的 处理,来制作音高标记。

另外,声源生成部20也可以构成为将n个带通滤波器应用于脉冲信号 而生成分割成了n个频带的脉冲声源信号。

声源部2b的相位调制部22与声源部2a的情况同样,仅调制脉冲信号 的相位。

噪声声源生成部26使用第2存储部18存储的白色性及高斯性的噪声 信号和从输入部10接收到的特征参数的序列,生成针对包括无声音的基本 频率序列的帧的噪声声源信号。

另外,噪声声源生成部26也可以构成为应用n个带通滤波器而生成分 割成了n个频带的噪声声源信号。

加法部28通过将相位调制部22进行了相位调制的脉冲信号(相位调制 脉冲列)和噪声声源生成部26生成的噪声声源信号的振幅控制为既定的比 率之后进行重叠,来生成混合声源(加上了噪声声源信号的声源信号)。

另外,加法部28也可以构成为:通过按每个频带根据频带噪声强度序 列来调整噪声声源信号和脉冲声源信号的振幅之后进行重叠,并对全部的 频带重叠,来生成混合声源(加上了噪声声源信号的声源信号)。

接着,说明具有声源部2b的声音合成装置1所进行的处理。图7是例 示具有图5所示的声源部2b的声音合成装置1进行的处理的流程图。如图 7所示,在步骤200(S200),声源生成部20通过对从第1存储部16接收到 的脉冲信号,使用从输入部10接收到的特征参数的序列进行变形,来生成 针对有声音的帧的(脉冲)声源信号。即,声源生成部20输出脉冲列。

在步骤202(S202),相位调制部22对声源生成部20所生成的声源信号, 基于使用了特征参数中所包含的电子水印信息的相位调制规则,按每个音 高标记调制脉冲信号的相位。即,相位调制部22输出相位调制脉冲列。

在步骤204(S204),加法部28通过将相位调制部22进行了相位调制的 脉冲信号(相位调制脉冲列)和噪声声源生成部26所生成的噪声声源信号的 振幅控制为既定的比率之后进行重叠,来生成加上了噪声声源信号(噪声) 的声源信号。

在步骤206(S206),声道过滤部12对声源部2b调制了相位后的声源信 号(加上噪声),使用经由声源部2b接收到的频谱参数序列,进行卷积运算 而生成声音信号。即,声道过滤部12输出声音波形。

(声源部2a的第2变形例:声源部2c)

接着,说明声源部2a的第2变形例(声源部2c)。图8是例示声源部2a 的第2变形例(声源部2c)及其周边的构成的方框图。如图8所示,声源部 2c具有例如判断部24、声源生成部20、过滤部3a、相位调制部22、噪声 声源生成部26、过滤部3b及加法部28。另外,在图8所示的声源部2c中, 对于与构成图5所示的声源部2b的部分实质相同的部分标注相同的符号。

过滤部3a具有使不同频带的信号通过、控制频带和强度的带通滤波器 30、32。过滤部3a对声源生成部20所生成的声源信号的脉冲信号,例如 应用2个带通滤波器30、32,由此生成分割成了2个频带的声源信号。另 外,过滤部3b具有使不同频带的信号通过、控制频带和强度的带通滤波器 34、36。过滤部3b对噪声声源生成部26所生成的噪声声源信号,例如应 用2个带通滤波器34、36,由此生成分割成了2个频带的噪声声源信号。 这样,在声源部2c中,过滤部3a与声源生成部20独立设置,过滤部3b与 噪声声源生成部26独立设置。

然后,声源部2c的加法部28按每个频带,根据频带噪声强度序列, 调整噪声声源信号和脉冲声源信号的振幅并重叠,通过对全部的频带进行 重叠,来生成混合声源(加上了噪声声源信号的声源信号)。

另外,上述声源部2b及声源部2c可以分别由硬件电路或通过CPU执行 的软件构成。第2存储部18由例如HDD或存储器等构成。另外,CPU执 行的软件(程序)可以存储于磁盘、光盘或半导体存储器等记录介质中,或 者经由网络颁布。

这样,声音合成装置1,由于相位调制部22基于电子水印信息仅调制 脉冲信号即有声部的相位,所以能够在不使合成声音的音质劣化的情况下 插入电子水印。

(电子水印信息检测装置)

接着,说明从插入了电子水印的合成声音检测电子水印信息的电子水 印信息检测装置。图9是例示实施方式所涉及的电子水印信息检测装置4 的构成的方框图。另外,电子水印信息检测装置4由例如通用的计算机等 实现。即,电子水印信息检测装置4具有作为具备例如CPU、存储装置、 输入输出装置及通信接口等的计算机的功能。

如图9所示,电子水印信息检测装置4具有音高标记推定部40、相位 提取部42、代表相位计算部44及判定部46。音高标记推定部40、相位提 取部42、代表相位计算部44及判定部46可以分别由硬件电路或通过CPU 执行的软件构成。即,电子水印信息检测装置4也可以构成为通过执行电 子水印信息检测程序来实现功能。

音高标记推定部40推定所输入的声音信号的音高标记序列。具体地, 音高标记推定部40通过例如LPC分析等根据输入信号或输入信号的残差 信号(所推定的声源信号)推定周期性的脉冲,由此来推定音高标记的序列, 并对相位提取部42输出所推定的音高标记的序列。即,音高标记推定部 40进行残差信号提取(声音截取)。

相位提取部42按例如每个所推定的音高标记,将前后的音高幅度短的 一方的2倍截取为窗口长度,提取各频点处的每个音高标记的相位。相位 提取部42对代表相位计算部44输出所提取的相位的序列。

代表相位计算部44基于上述相位调制规则,根据相位提取部42所提 取的相位计算成为例如多个频点的代表的代表相位,并对判定部46输出代 表相位的序列。

判定部46基于按每个音高标记所计算的代表相位值,判定电子水印信 息的有无。关于判定部46进行的处理,使用图10详述。

图10是表示在判定部46基于代表相位值判定电子水印信息的有无的 情况下进行的处理的图。图10(a)是表示伴随时间的经过而变化的按每个音 高标记的代表相位值的图。判定部46按图10(a)中的每个预定的期间即分 析帧(帧),计算代表相位所形成的直线的斜率。在图10(a)中,频率强度a 呈现为直线的斜率。

并且,判定部46根据该斜率判定电子水印信息的有无。具体地,判定 部46首先制作斜率的直方图,将成为最频的斜率设为代表斜率(斜率最频 值)。接着,判定部46如图10(b)所示,判定斜率最频值是否处于第1阈值 与第2阈值之间。判定部46在斜率最频值处于第1阈值与第2阈值之间的 情况下,判定为有电子水印信息。另外,判定部46在斜率最频值不处于第 1阈值与第2阈值之间的情况下,判定为无电子水印信息。

接着,说明电子水印信息检测装置4的工作。图11是例示电子水印信 息检测装置4的工作的流程图。如图11所示,在步骤300(S300),音高标 记推定部40进行残差信号提取(声音截取)。

在步骤302(S302),相位提取部42按每个音高标记,将前后的音高幅 度短的一方的2倍截取为窗口长度,提取相位。

在步骤304(S304),代表相位计算部44基于相位调制规则,根据相位 提取部42所提取的相位计算成为多个频点的代表的代表相位。

在步骤306(S306),CPU判定是否处理了帧的全部音高标记。CPU在判 定为处理了帧的全部音高标记的情况下(S306:是),前进至S308的处理。另 外,CPU在判定为未处理帧的全部音高标记的情况下(S306:否),前进至 S302的处理。

在步骤308(S308),判定部46按每帧计算代表相位所形成的直线的斜 率(代表相位的斜率)。

在步骤310(S310)中,CPU判定是否处理了全部帧。CPU在判定为处理 了全部帧的情况下(S310:是),前进至S312的处理。另外,CPU在判定为处 理了全部帧的情况下(S310:否),前进至S302的处理。

在步骤312(S312),判定部46制作在S308的处理中计算出的斜率的直 方图。

在步骤314(S314),判定部46计算在S312的处理中制作的直方图的最 频值(斜率最频值)。

在步骤316(S316),判定部46基于在S314的处理中计算出的斜率最频 值,判定电子水印信息的有无。

这样,电子水印信息检测装置4,按每个音高标记提取相位,基于代 表相位所形成的直线的斜率的频度,判定电子水印信息的有无。另外,判 定部46不限于通过进行图10所示的处理来判定电子水印信息的有无,也 可以构成为通过进行其他处理来判定电子水印信息的有无。

(判定部46进行的其他处理例子)

图12是表示在判定部46基于代表相位值判定电子水印信息的有无的 情况下进行的其他处理的第1例的图。图12(a)是表示伴随时间的经过而变 化的按每个音高标记的代表相位值的图。在图12(b)中,一点划线表示视为 预定的期间即分析帧(帧)中的相对于时间变化的代表相位的变化的理想值 的参照直线。另外,在图12(b)中,虚线是表示根据分析帧中的各代表相位 值(例如4个代表相位值)推定的斜率的推定直线。

判定部46按每分析帧使参照直线前后移动,计算与代表相位的相关系 数,如图12(c)中例示,在分析帧的相关系数的频度超过了直方图中的预定 的阈值的情况下判定为有电子水印信息。另外,判定部46在分析帧的相关 系数的频度未超过直方图中的阈值的情况下判定为无电子水印信息。

图13是表示在判定部46基于代表相位值判定电子水印信息的有无的 情况下进行的其他处理的第2例的图。判定部46也可以使用图13所示的 阈值判定电子水印信息的有无。另外,图13所示的阈值设为如下点:对包 含电子水印信息的合成音和不含电子水印信息的合成音(或真人发声)这2 个分别制作代表相位所形成的直线的斜率的直方图,能够使2个直方图最 分离的点。

另外,判定部46也可以将包含电子水印信息的合成音的代表相位所形 成的直线的斜率作为特征量,统计性地学习模型,将似然值作为阈值,来 判定电子水印信息的有无。另外,判定部46也可以将包含电子水印信息的 合成音和不包含电子水印信息的合成音的代表相位所形成的直线的斜率分 别作为特征量,统计性地学习模型,并比较似然值,来判定电子水印信息 的有无。

由本实施方式的声音合成装置1及电子水印信息检测装置4执行的各 程序以可以安装的形式或可以执行的形式的文件记录到CD-ROM、软盘 (FD)、CD-R、DVD(DigitalVersatileDisk:数字通用盘)等计算机可读取的 记录介质而提供。

另外,也可以构成为将本实施方式的各程序存储在与因特网等网络连 接的计算机上,通过经由网络下载而提供。

此外,虽然对本发明的几个实施方式通过多个的组合进行了说明,但 是这些实施方式只是作为例子而呈现的,而并非要限定发明的范围。这些 新实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围,能够 进行各种省略、置换、改变。这些实施方式和/或其变形包含于发明的范围 和/或主旨,并且包含于权利要求的范围所记载的发明及其均等的范围。

符号的说明

1声音合成装置,10输入部,12声道过滤部,14输出部,16第1 存储部,18第2存储部,2a、2b、2c声源部,20声源生成部,22相位 调制部,24判断部,26噪声声源生成部,28加法部,3a,3b过滤部, 30、32、34、36带通滤波器,4电子水印信息检测装置,40音高标记推 定部,42相位提取部,44代表相位计算部,46判定部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号