首页> 中国专利> 一种支持跨类型语义搜索的多媒体存储与搜索方法

一种支持跨类型语义搜索的多媒体存储与搜索方法

摘要

本发明公开了一种支持跨类型语义搜索的多媒体存储与搜索方法,包括以下步骤:(1)用户语义标注步骤;(2)本体表达步骤;(3)数据合并步骤;(4)多媒体检索步骤。该方法不仅支持跨类型多媒体搜索,而且能够用反映用户的语义需求。具有如下特点:(1)支持跨类型搜索。用户可以任意上传一种类型,找到各种各样语义匹配的多媒体。(2)操作方便。与传统搜索引擎的操作方式完全相同:上传文件,点击搜索。(3)保持语义信息。语义信息在多媒体文档的复制、移动或者离开知识库的情况下,无需重建,直接可以进行支持语义的多媒体检索。

著录项

  • 公开/公告号CN103440284A

    专利类型发明专利

  • 公开/公告日2013-12-11

    原文格式PDF

  • 申请/专利权人 郭克华;

    申请/专利号CN201310352286.5

  • 发明设计人 郭克华;邝砾;王建新;

    申请日2013-08-14

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 410083 湖南省长沙市中南大学本部计算机楼413

  • 入库时间 2024-02-19 21:18:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-07-06

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20160617 变更前: 变更后: 申请日:20130814

    专利申请权、专利权的转移

  • 2016-04-20

    授权

    授权

  • 2014-01-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130814

    实质审查的生效

  • 2013-12-11

    公开

    公开

说明书

技术领域

本发明涉及多媒体搜索领域,尤其涉及的是一种支持跨类型语义搜索的多媒体存 储与搜索方法。

背景技术

多媒体搜索是搜索引擎的关键技术。目前的多媒体面临两大重要需求:

1、语义多媒体搜索。以图像为例,实际上,用人类的智能在图像中来识别一个目 标,并非仅仅建立在目标的低层视觉特征,如颜色、形状和纹理上,而是充分考虑了目 标所描述的对象、事件,甚至情感等语义。例如,同一个明星的真实头像照片和其卡通 头像照片,以人类的智能来判断,比较容易判断其相似之处,甚至可以很容易地确定为 同一个人;但是,使用计算机基于低层视觉特征进行分析,却难以判断两个头像的相似 之处。

因此,如何能让用户在搜索的时候,结合计算机无法识别的人类认知信息,是一 个重要的问题。

2、跨类型多媒体搜索。我们经常需要通过一种多媒体类型搜索其他类型的多媒体 文件。比如,当我们听到一首歌,很好听,但是不知道唱的人长什么样,能够在搜索引 擎里面上传这首歌,就可以返回歌手的头像呢?音频、图像、视频的存储格式不同,完 全无法用传统的特征提取方法来进行比对。因此,跨类型搜索是一个重要的需求,但也 是目前面临的重要研究问题。

针对以上问题,现有技术进行了折中,主要有如下几种:

1、用输入文本的方法进行搜索。该方法已经在商用搜索引擎中广泛应用,用户输 入关键字,搜索引擎返回相应多媒体,其原理是搜索该多媒体所在的网页里面是否有相 应的文本和关键字相匹配。例如,在传统的搜索引擎中,在文本框中输入“刘德华”, 能够搜索相应的图片,当然也可以搜索视频。其原理实际上是因为在该图片或视频的周 围,存在“刘德华”这样的文字。

该方法存在如下几个问题:

(1)如果多媒体所在的网页没有相关文字,该图片不会显示。实际上,目前大量 的搜索都存在这样的问题。比如,商标搜索、纯多媒体库搜索等等,多媒体周围是没有 文字的。输入关键字(“如刘德华”),由于该多媒体文件并不在网页中,并没有配相 应的文字信息,因此无法被搜索出来。

(2)网页中的文字各种各样,比如含有“刘德华”图片的一个网页,里面可能含 有各种各样的无关信息,因此,搜索速度较慢,可能造成噪音。

(3)如果多媒体文件被拷贝到别的地方,离开含有该文字的网页,这个多媒体文 件不会被搜索出来。

2、用输入多媒体数据的方法进行搜索。该方法也已经在商用搜索引擎中广泛应用, 比如用户上传一个图片,搜索引擎返回相应图片,其原理是先提取图片的视觉特征,和 数据库中的图片的视觉特征相比对。比如上传葛优照片,获得葛优的其他照片。

该方法存在如下几个问题:

(1)忽略了用户的个人理解。人类认为类似的多媒体(如图片),用纯粹的视觉 特征匹配,却无法判断为类似。

(2)无法支持跨类型搜索。音频、图像、视频的存储格式不同,完全无法用传统 的特征提取方法来进行比对。

3、基于语义的搜索。语义搜索引擎的核心是“语义标注”,也就是在多媒体周围 提供关键字的标注。在查询时,输入关键字,然后查询相应的标注,标注和多媒体数据 分别存储。目前,语义标注的成果已经成熟。已经广泛地使用在语义搜索引擎中。但是, 该类方法存在如下问题:

目前的语义描述策略,基本上是将多媒体的语义标注用相应方法(如对象本体方 法)进行描述,存储在服务器的知识库中,当匹配需求到达时,在知识库中进行查找、 匹配和检索;但是,一幅多媒体在其生命周期中,可能会不断经过复制、移动等操作, 由于多媒体本身的数据和其语义标注信息分开保存,在这种情况下,如果多媒体离开知 识库,在识别时就无法利用其语义标注信息;对于离开知识库的多媒体,必须重建其语 义才能充分利用人类视觉认知机理的优势。

站在这个角度,在多媒体语义特征描述和存储上,我们考虑到目前的主要方法是 将语义特征存放在知识库中,与多媒体本身数据存储割裂开来,这类方法在某种程度上 忽略了多媒体语义特征的特殊性。从识别的角度讲,语义特征和颜色、形状、纹理等低 层视觉特征是平等的,其最终目的是为了在多媒体复制、移动等任何操作情况下都能够 进行识别;因此,如果只是将语义标注信息存放在知识库中,和多媒体数据本身分割, 语义多媒体的检索就必须依赖知识库。对于融合人类视觉认知的目标特征提取和描述方 法,不仅需要规范语义的特征表达,更重要的问题是让语义标注信息实现方便的存储, 让用户在使用时更加通用。

发明内容

为解决以上问题,本发明提出了一种支持跨类型语义搜索的多媒体存储与搜索方 法。

本发明的技术方案如下:

一种支持跨类型语义搜索的多媒体存储与搜索方法,包括以下步骤:

(1)用户语义标注步骤,每一个需要保存到数据库中的多媒体文件都必须被用户 标注;标注以文本的形式进行,标注内容依据用户对该多媒体的理解;

(2)本体表达步骤:对标注进行分类,并划分层级,进行本体表达;将标注转换 为本体;

(3)数据合并步骤:将语义信息和本体内容保存在一起,形成新的多媒体数据格 式;新的数据形成之后,多媒体文件将会被保存到多媒体数据库中;

(4)多媒体检索步骤:搜索引擎从该多媒体文件中提取语义信息,和多媒体数据 库中的多媒体数据进行比对,如果找到互相匹配的,则返回这些多媒体文件;系统还会 让用户对自己选定的结果进行进一步标注,来丰富多媒体的语义信息,使得以后的查询 越来越准确。

所述的方法,所述用户语义标注步骤中:用户向多媒体文件提供标注,所有的标注 用文本形式表示;定义m为多媒体文件,C为多媒体文件集合,满足C={m1,m2,...,mN}, N为多媒体文件个数;对于任意mi∈C,mi保存在服务器硬盘上,mi的路径被保存在 数据库中,链接到其真实的文件;语义信息由用户提供,以关键词标注的形式提供给mi

令Anmi为mi的标注集合,满足Anmi={a1,a2,...,an},n为mi的标注个数,对于任意 的mi∈C,用户将会提供很多标注;对于任意的mi∈C,定义标注矩阵Ami

Ami=a1,a2,...,anw1,w2,...,wnT---(1)

其中,ai为第i个标注,wi为其相应的权重,wi初始值为。

所述的方法,所述用户语义标注步骤中,还包括以下步骤:

(1)去除较少使用的标注:

定期去除那些很少在搜索中使用的标注;在每一次检索过后,设计一个权重调整准 则:

wi=wi+ki×1n---(2)

ki满足:

该调整准则在后台运行;

调整准则执行之后,每天进行一次标注清理;对于任意mi∈C,标注清理过程如下:

第1步:检查Ami,当满足时,移除其中的第i行。其中ε为阈值,满足 0≤ε≤1;

第2步:重新合并mi和Ami

(2)用户反馈

搜索之后,将会返回多个多媒体文件;用户给该多媒体文件增加标注,来丰富其语 义。对于此类标注,初始的权重值为。

所述的方法,所述数据合并步骤中,采用一种优化的方法,直接将多媒体语义信息 保存在多媒体数据文件的头部。

该方法不仅支持跨类型多媒体搜索,而且能够用反映用户的语义需求。具有如下特 点:(1)支持跨类型搜索。用户可以任意上传一种类型,找到各种各样语义匹配的多媒 体。(2)操作方便。与传统搜索引擎的操作方式完全相同:上传文件,点击搜索。(3) 保持语义信息。语义信息在多媒体文档的复制、移动或者离开知识库的情况下,无需重 建,直接可以进行支持语义的多媒体检索。

附图说明

图1:本发明的方法的流程图;

图2显示了一个图像的注释结构;

图3为本发明使用组合模式来表达本体数据结构;

具体实施方式

以下结合具体实施例,对本发明进行详细说明。

如图1所示,是本发明的方法的流程图。本发明包括4个步骤,分别是:语义标注、 语义表达、数据合并、多媒体检索。

具体描述如下:

(1)用户语义标注步骤,每一个需要保存到数据库中的多媒体文件,如图像、视 频、音频等,都必须被用户标注。标注以文本的形式进行,标注内容依据用户对该多媒 体的理解。

(2)本体表达步骤:对标注进行分类,并划分层级,进行本体表达。在本步骤中, 将标注转换为本体,包括图像文件本体、视频文件本体和音频文件本体等。

(3)数据合并步骤。将语义信息和本体内容保存在一起,形成新的多媒体数据格 式。新的数据形成之后,多媒体文件将会被保存到多媒体数据库中。

(4)多媒体检索步骤。用户上传一个多媒体文件,该多媒体文件事先已经被标注。 搜索引擎从该多媒体文件中提取语义信息,和多媒体数据库中的多媒体数据进行比对, 如果找到互相匹配的,则返回这些多媒体文件。此外,系统还会让用户对自己选定的结 果进行进一步标注,来丰富多媒体的语义信息,使得以后的查询越来越准确。

以下是详细的技术方案:

1、语义标注

本发明中,用户通过软件,向多媒体文件提供标注,所有的标注用文本形式表示。 定义m为多媒体文件,C为多媒体文件集合,满足C={m1,m2,...,mN}(N为多媒体文件 个数)。对于任意mi∈C,mi保存在服务器硬盘上.mi的路径被保存在数据库中,链接 到其真实的文件。语义信息由用户提供,以关键词标注的形式提供给mi

令Anmi为mi的标注集合,满足Anmi={a1,a2,...,an}(n为mi的标注个数)。对于任意 的mi∈C,用户将会提供很多标注。但是,不是每一个标注对表达多媒体语义的权重相 同。因此,对于任意的mi∈C,定义标注矩阵Ami

Ami=a1,a2,...,anw1,w2,...,wnT---(1)

其中,ai为第i个标注,wi为其相应的权重,wi初始值为。

(1)去除较少使用的标注。

标注由用户提供,不一定准确。为了节省空间,我们要定期去除那些很少在搜索 中使用的标注。在每一次检索过后,我们设计一个权重调整准则:

wi=wi+ki×1n---(2)

ki满足:

该调整准则在后台运行。

调整准则执行之后,每天进行一次标注清理。对于任意mi∈C,标注清理过程如下:

第1步:检查Ami,当满足时,移除其中的第i行。其中ε为阈值,满足 0≤ε≤1。

第2步:重新合并mi和Ami

(2)用户反馈

搜索之后,将会返回多个多媒体文件。用户可以给该多媒体文件增加标注,来丰富 其语义。对于此类标注,初始的权重值为。

2、本体表达

本发明使用本体技术描述的多媒体语义信息。在本体表示中,每个节点描述语义概 念,本体表示满足一个递归和分层结构。图2显示了一个图像的注释结构。

该本体在第一级的节点被用来代表最明显的特征。二级和其他级别的语义标注,将 基于之前更高级的本体来提供。

本发明使用组合模式来表达本体数据结构。组合模式将对象组成一个树形结构,来 表示的部分与整体的层次。客户端可以使用同样的方法来处理复杂的元素和简单的元 素。结构如图3所示。在本结构中,OntologyCompoment是组合中的对象声明接口,在 适当的情况下,实现所有本体共有接口的默认行为;OntologyLeaf在组合中表示叶子 节点对象,叶子节点没有子节点;OntologyComposite定义有枝节点行为,用来存储 子部件,在OntologyCompoment接口中实现与子部件有关操作。因此,对象本体的内 容在存储上进行了优化处理,组合模式使得用户对单个对象和使用具有一致性。

3、数据合并

本发明中,本体语义信息通过两种方式与多媒体文件合并:

(1)在线。语义标注直接通过软件提交,多媒体文件和语义标注一起保存。

(2)离线。语义信息保存在一个二进制文件内,其扩展名是“.s”,用户可以选择 多媒体文件,和该“.s”文件合并。

我们使用一种优化的数据合并方法:直接将多媒体语义信息保存在多媒体数据文件 的头部。由于本搜索方法支持用户反馈,可能导致语义内容的修改,因此,在本发明中, 不使用一些流行和安全的方法,如神经网络和小波技术,直接将多媒体的语义信息保存 在多媒体数据文件头部。

在每一次检索过程中,我们不能直接读写硬盘中的多媒体文件,因为这将花费大量 的计算时间。本发明为了解决这个问题,采用了基于缓存的方法。当搜索引擎初始化时, 语义信息被提取到关系数据库中进行快速检索,并和多媒体文件数据保持同步。这项工 作将在后台线程中执行。客户端的检索首先将是进行数据库检索,多媒体服务器然后找 到真正的文件。

4:搜索效果

由于跨类型的多媒体检索需要图像、视频和音频文件,所以我们构建了一个包含各 种多媒体类型,包括图像,视频和音频的多媒体数据库。在搜索中,使用的多媒体数据 库包含30000多媒体文件,包括20,000个图片,10,000个视频和10,000个音频文件。 所有的标注都为用户所提供,或从该文件下载的网页中的文字中提取。

(1)准确率。

我们针对图像、视频和音频,各自选取了10个文件(标注为01-10)作为上传对象, 查全率、查准率显示如下:

表1查全率和查准率(%)

传统的基于内容的检索,如Gabor特征只能得到不超过40%的查全率和查准率。因 此,本发明可以取得较好的检索的查全率和查准率。

(2)搜索时间。

我们特别记录了12个检索过程的时间成本。对每一种文件类型(图片,视频和音 频),进行了4个不同的检索(样本数形式01-04)。表2中列出的详细时间。

表2检索时间(毫秒)

该表显示,语义信息提取只花了很短的时间,这是因为我们只需要直接从多媒体文 件中提取语义段。提取后,检索过程是相似的基于文本的检索,这个过程可以在可接受 的时间内执行。

(3)后台处理时间。

后台运行的时间如表3所示:

表3后台运行时间(秒)

类型 数量 合并时间 标注清理时间(ε=0.8) 缓存操作时间 总计 图像 2,0000 59 27 37 123 视频 10,000 43 14 30 87

音频 10,000 31 12 23 66

在服务器中,将被执行的后台进程,每24小时执行一次后台操作,线程,所以花 费的时间是可以接受的。

(4)空间花费。

表4显示了信息合并之前和之后的存储空间花费。

表4空间花费

类型 数量 合并前 合并后 增长率(%) 图像 2,0000 14587 14625 0.2605059 视频 10,000 62541 62568 0.0431717 音频 10,000 23547 23575 0.1189111

从该表可以看出,合并后的文件大小几乎没有增加(图像为0.26%,视频为0.04 %,音频为0.12%)。这是因为,语义信息皆以文本表示,占据空间很小。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换, 而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号