公开/公告号CN101174448A
专利类型发明专利
公开/公告日2008-05-07
原文格式PDF
申请/专利权人 北京炬力北方微电子有限公司;
申请/专利号CN200710194996.4
发明设计人 谢知非;
申请日2007-12-10
分类号G11B27/10;G11B27/02;G10L13/00;
代理机构
代理人
地址 100083 北京市海淀区知春路27号1601室
入库时间 2023-12-17 20:06:53
法律状态公告日
法律状态信息
法律状态
2010-09-15
授权
授权
2008-07-16
实质审查的生效
实质审查的生效
2008-05-07
公开
公开
技术领域
本发明涉及数码电子技术领域,尤其涉及一种有声图片播放方法、装置和一种索引文件生成方法。
背景技术
随着数码电子技术的发展,有声图片开始出现并逐步得到人们的认可。市场已有的数码相框很多具有有声图片功能,其图片与音频的结合主要是通过导入图片以及与图片相关联的音频文件,然后在播放图片的同时播放所关联的音频文件实现的。
现有的有声图片制作,大多是通过存储录音或音乐等音频文件,并将音频文件同相关联的图片一同播放而完成的。由于音频文件一般会占用较大的存储空间,由此生成的有声图片也会占用较大的存储空间。同时,在需要录制相关的录音或音乐时,操作较为复杂,导致制作有声图片比较麻烦。
在现有技术中,还存在一种网络数码相框,数码相框中的内容(图片和相关联的音频文件)存储在网络服务器上,客户端数码相框需要播放相关的有声图片时,通过网络获取图片以及相关联的音频文件。由于网络传输速度的限制,可能使图片或音频等文件传输过慢,影响有声图片的播放效果,给用户造成不便。
因此,现有技术中的有声图片,存在着占用存储空间大,使用不够灵活方便的问题,极大的限制了有声图片的推广与应用。
发明内容
本发明实施例提供一种有声图片播放方法、装置和索引文件生成方法,用以解决现有技术中有声图片占用存储空间大,使用不够灵活方便的问题。
本发明实施例提供的有声图片播放方法,包括:
获取待播放有声图片对应的有声图片索引文件;所述有声图片索引文件包括:图片与文本文件的对应关系、所述图片的属性信息以及文本文件的属性信息;
解析所述有声图片索引文件,获取所述图片与文本文件;
将所述文本文件转换为音频并与所述图片同步播放。
所述有声图片索引文件中还包括图片与音频文件的对应关系以及所述音频文件的属性信息;
解析所述有声图片索引文件后,还获取所述音频文件;
并将所述图片、文本文件以及所述音频文件同步播放。
播放所述文本文件时通过语音合成引擎将其转化为音频文件后播放。
本发明实施例提供的有声图片播放装置,包括获取单元、预处理单元和播放单元,其中:
所述获取单元,用于获取与待播放有声图片对应的有声图片索引文件;所述有声图片索引文件包括:图片与文本文件的对应关系、所述图片的属性信息以及文本文件的属性信息;
所述预处理单元,用于解析所述有声图片索引文件,获得所述图片与文本文件,并分别发送给所述播放单元;
所述播放单元,用于将所述文本文件转换为音频并与所述图片同步播放。
本发明实施例提供的有声图片播放装置还包括:索引存储单元,用于存储所述有声图片索引文件;
所述获取单元从所述索引存储单元获取所述有声图片索引文件。
本发明实施例提供的有声图片播放装置还包括:信息存储单元,用于存储图片以及存储所述文本文件;
所述预处理单元,从所述信息存储单元中获得所述图片和所述文本文件,并分别发送给所述播放单元。
所述信息存储单元中还存储音频文件;所述预处理单元,还从所述信息存储单元中获得音频文件,并发送给所述播放单元。
所述播放单元进一步包括图片显示子单元、语音合成引擎子单元和音频播放子单元,其中:
所述图片显示子单元,用于接收所述图片并进行显示;
所述语音合成引擎子单元,用于接收所述文本文件,转化为音频文件,并发送给所述音频播放子单元;
所述音频播放子单元,用于接收所述语音合成引擎子单元发送的音频文件并播放;或者接收所述预处理单元和所述语音合成引擎子单元发送的音频文件并播放。
本发明实施例提供的有声图片播放装置还包括控制子单元,还用于控制所述图片显示子单元和音频播放子单元对图片与音频进行同步播放。
本发明实施例提供的有声图片索引文件生成方法,包括:
建立图片与文本文件的对应关系;
将所述对应关系、所述图片的属性信息以及文本文件的属性信息,存储为有声图片索引文件。
本发明实施例提供的有声图片索引文件生成方法还包括:建立图片与音频文件的对应关系;
在所述有声图片索引文件还存储所述图片与音频文件的对应关系以及所述音频文件的属性信息。
所述建立图片与文本文件的对应关系,包括:
建立图片与文本文件之间的一对一关系;或者建立图片与文本文件之间的一对多关系;或者建立图片与文本文件之间的多对多关系;
所述建立图片与音频文件的对应关系,包括:
建立图片与音频文件之间的一对一关系;或者建立图片与音频文件之间的一对多关系;或者建立图片与音频文件之间的多对多关系。
所述图片的属性信息至少包括图片的存储位置信息;
所述文本文件的属性信息至少包括文本文件的存储位置信息;
所述音频文件的属性信息至少包括音频文件的存储位置信息。
所述图片的属性信息还包括图片的存储格式、图片大小以及编码方式其中之一或任意组合;
所述文本文件的属性信息还包括文本文件的存储格式、文本文件大小以及编码方式其中之一或任意组合;
所述音频文件的属性信息还包括音频文件的存储格式、音频文件大小以及编码方式其中之一或任意组合。
本发明实施例通过建立图片与文本文件的对应关系;将所述对应关系、所述图片的属性信息以及文本文件的属性信息,存储为有声图片索引文件。在播放有声图片时,解析有声图片索引文件,得到图片与文本文件的对应关系;根据所述对应关系,查找图片与文本文件;根据所述图片与文本文件的属性信息,获取所述图片与文本文件;将所述图片与文本文件同步播放。根据本发明实施例提供的方案,用户只需要预先为每一个有声图片都建立有一个相对应的有声图片索引文件,通过该有声图片索引文件可以获取到图片及文本文件实现同步播放;方便用户制作和使用有声图片;且由于文本文件占用存储空间较小,可以极大地降低有声图片存储所需占用的存储空间。
附图说明
图1为本发明实施例提供的有声图片索引文件生成方法的主要原理流程图;
图2为本发明实施例提供的有声图片存储结构示意图;
图3为本发明实施例提供的有声图片播放方法的主要原理流程图;
图4为本发明实施例提供的有声图片播放装置功能结构示意图之一;
图5为本发明实施例提供的有声图片播放装置功能结构示意图之二;
图6为本发明实施例提供的有声图片播放装置中播放单元的结构示意图;
图7为本发明实施例提供的一种有声图片播放装置具体结构示意图;
图8为本发明实施例提供的一种有声图片播放装置的硬件设计原理图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
如图1所示,本发明实施例首先提供一种有声图片索引文件生成方法,其主要原理流程如下:
步骤11,为图片与相关联的同步文件建立对应关系。
有声图片包括图片与相关联的同步文件,本发明实施例中的同步文件,包括如下两种情况:
一、所述同步文件仅为文本文件;
二、所述同步文件包括文本文件,同时还包括音频文件。
下文中提及到的同步文件,可以为上述两种情况之一。
为了保持与现有的文件系统的兼容性,有声图片在存储器中存储时,仍然采用图片文件与同步文件分别存储的方式。一个图片文件可以与多个同步文件相关联,也可以多个图片文件与一个同步文件相关联,还可以多个图片文件与多个同步文件相关联。这样可以提高图片文件和同步文件的利用率,且能有效节省用于存储图片文件和同步文件的存储空间。
与图片关联的文本文件可以通过具有文本转化音频技术(TTS,Text ToSpeech)的语音合成引擎而将其中的文本信息转化为语音而实现有声图片播放。
在对有声图片进行存储时,需要根据设置的图片与相关联的同步文件之间的关联信息,建立图片与相关联的同步文件的对应关系。
步骤12,将图片与相关联的同步文件的对应关系、图片的属性信息以及相关联的同步文件的属性信息,存储为有声图片索引文件。
在建立起图片与相关联的同步文件的对应关系后,需要为有声图片建立索引信息。通常的索引信息以有声图片索引文件的方式存储,有声图片索引文件中不仅需要包括图片与相关联的同步文件的对应关系,还需要包括图片文件的属性信息和相关联的同步文件的属性信息。
这里所述的图片文件的属性信息,例如包括图片文件的存储格式、存储位置、大小以及编码方式等;相关联同步文件的属性信息,例如包括相关联同步文件的存储格式、存储位置、大小以及编码方式等。
有声图片索引文件可以由使用者通过手动生成,也可以在建立有声图片时自动生成。
有声图片索引文件在逻辑上完成有声图片的图片与相关联的同步文件的合并,以有声图片索引文件的形式实现图片与相关联的同步文件之间的关联。在实际应用中,如图2所示,图片文件与相关联的同步文件仍然以现有的文件形式分别存储,互相之间并无关联。将图片文件与相关联的同步文件的属性信息,以相应的格式存储为有声图片索引文件。由于有声图片索引文件中包含图片与相关联的同步文件的属性信息以及对应关系,因此,通过有声图片索引文件可以获取有声图片相关的图片和同步文件,进而对有声图片进行播放。
较佳的,多个有声图片索引文件可以组成索引信息库,通过检索索引信息库,使用者可以方便的选择需要播放的有声图片。
相应的,本发明实施例还提供一种有声图片播放方法,如图3所示,该方法具体如下:
步骤21,解析待播放有声图片对应的有声图片索引文件,得到图片与相关联的同步文件的对应关系。
在对有声图片进行播放时,首先需要获取对应的有声图片索引文件。根据有声图片索引文件的内容,获取图片与相关联的同步文件的对应关系。
有声图片索引文件可以通过检索索引信息库获取。
步骤22,根据所述对应关系,查找图片与相关联的同步文件。
根据获取的图片与相关联的同步文件的对应关系,进一步查找相应的图片与同步文件。
这里,一个图片文件可以与多个同步文件相关联,也可以多个图片文件与一个同步文件相关联,还可以多个图片文件与多个同步文件互相关联。
步骤23,根据图片与相关联的同步文件的属性信息,获取图片与相关联的同步文件。
在查找到具体的图片与相关联的同步文件后,需要获取图片与相关联的同步文件,获取的依据为有声图片索引文件中存储的图片与相关联的同步文件的属性信息。
有声图片索引文件中存储的图片与相关联的同步文件的属性信息中,可以包括图片文件的存储格式、存储位置、大小以及编码方式等;相关联的同步文件的属性信息可以包括相关联的同步文件的存储格式、存储位置、大小以及编码方式等。
步骤24,将图片与相关联的同步文件同步播放。
根据图片和相关联的同步文件的属性信息,不仅可以方便的从相应的存储位置获取图片和相关联的同步文件,而且,还可以获知图片与相关联的同步文件的文件大小、文件存储格式以及编码方式等。根据这些属性信息,可以采用相应的播放程序对有声图片进行同步播放。
例如,从同步文件的属性信息中,可以获知同步文件是音频文件和文本文件或者仅是文本文件,如果同步文件中包括音频文件,则该音频文件可以直接通过音频播放器进行播放;对于同步文件中的文本文件,则需要调用具有TTS技术的语音合成引擎,将文本文件转换为音频文件,然后通过音频播放器进行播放。
这里,在有声图片中与图片相关联的同步文件为文本文件时,需要调用具有TTS技术的语音合成引擎将文本文件转换为音频文件。根据文本文件本身所使用的语言的不同以及语音合成引擎所支持的语言种类,语音合成引擎可以将文本文件转换成为多种语言形式,并通过音频播放器进行播放。例如,根据使用者的需求,可以将文本文件中的文本转化为英语、俄语、法语等任何语音合成引擎支持的语言进行播放,当然,也可以将文本转化成为方言(如四川话、粤语等)进行播放。
较佳的,在对有声图片进行播放时,使用者可以自定义播放的内容,也就是说,使用者可以选择有声图片中与图片相关联的同步文件的类型与内容,根据自身的需求定义有声图片的播放形式。例如:仅播放其中的音频文件、仅播放文本文件,或者同时播放音频文件和文本文件。
较佳的,在有声图片中与图片相关联的同步文件为文本文件时,一种具体的有声图片的实现与播放方法流程如下:
1、对有声图片进行存储时,首先在存储器中存入图片,然后输入与此图片相关联的文本信息,进行保存;
2、保存的图片和文本信息会通过预处理后,生成有声图片索引文件,保存在存储器当中或者上传至网络,存入网络存储服务器中。预处理是为有声图片建立有声图片索引文件,此有声图片索引文件包括了图片的属性信息以及所关联文本的属性信息,可以是文本1,文本2......文本n。
3、当要播放有声图片时,调用索引信息库中的有声图片索引文件。具体方法为:检索上一步所建立的有声图片索引文件,并根据有声图片索引文件中的信息从存储器或者网络存储服务器中下载文件。这样就将关联的图片文件和文本文件下载下来。
4、将图片文件解码并输出至显示设备。
5、同时,将文本信息输入TTS语音合成引擎,将文本信息转换为音频信息,并通过音频播放器进行播放。
较佳的,第4步与第5步过程使用直接存储器存取(DMA,Direct MemoryAccess)技术,从而使图片的显示和语音的播放能够同步进行,并节省CPU资源。
本发明实施例由于引入TTS技术,可以将存储的文本文件转换为语音形式进行播放。因而,本发明实施例中的有声图片,与图片相关联的同步文件除了一般的音频文件(录音或音乐)外,还可以包含文本文件;在播放有声图片时,通过具有TTS技术的语音合成引擎将与图片相关联的文本文件转换成相应的语音形式进行播放。因此,只需要为图片关联相关的文本文件,就可以实现语音输出。不仅可以节约大量的音频文件的录制过程,而且可以极大的降低有声图片占用的存储空间,并且,由于文本所使用的语言可以是系统支持的任何语言,具有TTS技术的语音合成引擎也可以通过任何系统支持的语言播放相应的文本,使得有声图片的使用非常灵活方便。
相应地,本发明实施例还提供了一种有声图片播放装置功能结构如图4所示,该装置包括获取单元31、预处理单元32和播放单元33,具体如下:
获取单元31,获取与待播放有声图片对应的有声图片索引文件。
这里所述的有声图片索引文件包括:图片与相关联的同步文件的对应关系、图片的属性信息以及相关联的同步文件的属性信息。相关联的同步文件包括文本文件,或者包括文本文件和音频文件。
预处理单元32,用于解析所述有声图片索引文件,获得所述图片与相关联的同步文件,并分别发送给所述播放单元。
播放单元33,用于将接收的文本文件转换为音频并与所述图片同步播放,对于接收的音频文件则直接同步播放。
较佳的,如图5所示,上述的有声图片播放装置进一步包括索引存储单元34和信息存储单元35,具体如下:
索引存储单元34,用于存储有声图片索引文件。
信息存储单元35,用于存储图片信息,以及存储相关联的同步文件。
获取单元31,从索引存储单元34获取有声图片索引文件。
预处理单元32,从信息存储单元35中获得图片以及相关的联同步文件。
较佳的,如图6所示,上述的有声图片播放装置中的播放单元33进一步图片显示子单元331、语音合成引擎子单元332和音频播放子单元333,具体如下:
图片显示子单元331,用于接收图片并进行显示。
语音合成引擎子单元332,用于接收文本文件,并将文本文件中的文本信息转化为音频,生成对应的音频文件,并发送给音频播放子单元333。
音频播放子单元333,用于接收预处理单元32和/或语音合成引擎子单元332发送的音频文件并播放。
较佳的,还可以包括控制子单元(图6中未示意出),用于控制图片显示子单元331和音频播放子单元333对图片与音频的同步播放。
较佳的,基于图4所示的装置,图5和图6中附加的辅助单元可以相互结合,得到功能更为全面的有声图片播放装置。
如图7所示,一种较佳的有声图片播放装置具体实现结构如下:
存储器,用于提供上述索引存储单元34和信息存储单元35的相应功能,存储有声图片,包括图片以及相关联的同步文件。
获取/预处理模块,用于提供上述获取单元31、预处理单元32的相应功能,为有声图片建立有声图片索引文件。逻辑上合并图片、文本文件和音频文件。这里的文本文件与音频文件即为有声图片中与图片相关联的同步文件。预处理模块还负责检索有声图片索引文件,找到图片关联的同步文件并分解出相关的图片、文本文件和音频文件,并将图片发送给播放单元中的图片驱动模块,将文本文件发送给播放单元中的语音合成引擎驱动模块,将音频文件直接发送给播放单元中的音频转换驱动模块。
播放单元,包括:图片驱动模块、语音合成引擎驱动模块和音频转换驱动模块。其中:
图片驱动模块,用于提供上述图片显示子单元331的相应功能,用于将图片进行显示。
语音合成引擎驱动模块,用于提供上述语音合成引擎子单元332的相应功能,将文本文件中的文本信息转换成为音频信息,生成相应的音频文件,并发送给音频转换驱动模块。
音频转换驱动模块,用于提供上述音频播放子单元333的相应功能,将获取/预处理模块和语音合成引擎驱动模块发送的音频文件中的音频信息进行数模转换,并与图片信息同步播放。
如图8所示,一种较佳的有声图片播放装置的硬件设计原理具体如下:
存储器接口从存储器中获取有声图片数据;CPU对有声图片数据的格式进行分离处理,分离出图像、文本和音频文件,分别调用相应的图片处理、显示驱动、文本信息分析处理及语音合成驱动进行语音合成和编码,对音频文件进行解码及数模转换,最后图像和音频数据分别传输到显示接口和音频与编解码接口分别显示与播放。进一步的,使用DMA技术来确保整个过程同步良好。
其中,存储器接口中需包括对各种存储设备的支持,例如:各种FLASH、各种存储卡、硬盘与移动硬盘等。CPU完成系统控制,图像数据与文本的分析、解码,音频合成等功能。显示接口则完成接收图像数据显示。音频与编解码接口则是对原始音频数据进行数模转换并播放。DMA接口是为了保证让图片与音频同步流畅,同时也节省CPU资源所必须添加的接口。
综上所述,本发明实施例所提供的方案,降低了有声图片存储所占用的存储空间,并且,可以满足用户的灵活方便使用的需求。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
机译: 自动图片生成设备,自动图片生成方法,自动图片生成程序,记录介质,性能设备,文件编辑设备,文件编辑方法和文件编辑程序
机译: 配有声音播放设备的声音播放设备或图片簿
机译: 具有声音文件播放功能的移动通信装置及声音文件播放方法