首页> 中国专利> 一种支持跨类型语义搜索的多媒体存储与搜索方法

一种支持跨类型语义搜索的多媒体存储与搜索方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种支持跨类型语义搜索的多媒体存储与搜索方法，包括以下步骤：(1)用户语义标注步骤；(2)本体表达步骤；(3)数据合并步骤；(4)多媒体检索步骤。该方法不仅支持跨类型多媒体搜索，而且能够用反映用户的语义需求。具有如下特点：(1)支持跨类型搜索。用户可以任意上传一种类型，找到各种各样语义匹配的多媒体。(2)操作方便。与传统搜索引擎的操作方式完全相同：上传文件，点击搜索。(3)保持语义信息。语义信息在多媒体文档的复制、移动或者离开知识库的情况下，无需重建，直接可以进行支持语义的多媒体检索。

著录项

公开/公告号CN103440284A

专利类型发明专利
公开/公告日2013-12-11

原文格式PDF
申请/专利权人郭克华;
展开▼

申请/专利号CN201310352286.5
发明设计人郭克华;邝砾;王建新;
展开▼

申请日2013-08-14
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构
代理人
地址 410083 湖南省长沙市中南大学本部计算机楼413
入库时间 2024-02-19 21:18:53

法律信息

法律状态公告日

法律状态信息

法律状态
2016-07-06

专利权的转移 IPC(主分类):G06F17/30 登记生效日:20160617 变更前: 变更后: 申请日:20130814

专利申请权、专利权的转移
2016-04-20

授权

授权
2014-01-15

实质审查的生效 IPC(主分类):G06F17/30 申请日:20130814

实质审查的生效
2013-12-11

公开

公开

说明书

技术领域

本发明涉及多媒体搜索领域，尤其涉及的是一种支持跨类型语义搜索的多媒体存储与搜索方法。

背景技术

多媒体搜索是搜索引擎的关键技术。目前的多媒体面临两大重要需求：

1、语义多媒体搜索。以图像为例，实际上，用人类的智能在图像中来识别一个目标，并非仅仅建立在目标的低层视觉特征，如颜色、形状和纹理上，而是充分考虑了目标所描述的对象、事件，甚至情感等语义。例如，同一个明星的真实头像照片和其卡通头像照片，以人类的智能来判断，比较容易判断其相似之处，甚至可以很容易地确定为同一个人；但是，使用计算机基于低层视觉特征进行分析，却难以判断两个头像的相似之处。

因此，如何能让用户在搜索的时候，结合计算机无法识别的人类认知信息，是一个重要的问题。

2、跨类型多媒体搜索。我们经常需要通过一种多媒体类型搜索其他类型的多媒体文件。比如，当我们听到一首歌，很好听，但是不知道唱的人长什么样，能够在搜索引擎里面上传这首歌，就可以返回歌手的头像呢？音频、图像、视频的存储格式不同，完全无法用传统的特征提取方法来进行比对。因此，跨类型搜索是一个重要的需求，但也是目前面临的重要研究问题。

针对以上问题，现有技术进行了折中，主要有如下几种：

1、用输入文本的方法进行搜索。该方法已经在商用搜索引擎中广泛应用，用户输入关键字，搜索引擎返回相应多媒体，其原理是搜索该多媒体所在的网页里面是否有相应的文本和关键字相匹配。例如，在传统的搜索引擎中，在文本框中输入“刘德华”，能够搜索相应的图片，当然也可以搜索视频。其原理实际上是因为在该图片或视频的周围，存在“刘德华”这样的文字。

该方法存在如下几个问题：

(1)如果多媒体所在的网页没有相关文字，该图片不会显示。实际上，目前大量的搜索都存在这样的问题。比如，商标搜索、纯多媒体库搜索等等，多媒体周围是没有文字的。输入关键字(“如刘德华”)，由于该多媒体文件并不在网页中，并没有配相应的文字信息，因此无法被搜索出来。

(2)网页中的文字各种各样，比如含有“刘德华”图片的一个网页，里面可能含有各种各样的无关信息，因此，搜索速度较慢，可能造成噪音。

(3)如果多媒体文件被拷贝到别的地方，离开含有该文字的网页，这个多媒体文件不会被搜索出来。

2、用输入多媒体数据的方法进行搜索。该方法也已经在商用搜索引擎中广泛应用，比如用户上传一个图片，搜索引擎返回相应图片，其原理是先提取图片的视觉特征，和数据库中的图片的视觉特征相比对。比如上传葛优照片，获得葛优的其他照片。

该方法存在如下几个问题：

(1)忽略了用户的个人理解。人类认为类似的多媒体(如图片)，用纯粹的视觉特征匹配，却无法判断为类似。

(2)无法支持跨类型搜索。音频、图像、视频的存储格式不同，完全无法用传统的特征提取方法来进行比对。

3、基于语义的搜索。语义搜索引擎的核心是“语义标注”，也就是在多媒体周围提供关键字的标注。在查询时，输入关键字，然后查询相应的标注，标注和多媒体数据分别存储。目前，语义标注的成果已经成熟。已经广泛地使用在语义搜索引擎中。但是，该类方法存在如下问题：

目前的语义描述策略，基本上是将多媒体的语义标注用相应方法(如对象本体方法)进行描述，存储在服务器的知识库中，当匹配需求到达时，在知识库中进行查找、匹配和检索；但是，一幅多媒体在其生命周期中，可能会不断经过复制、移动等操作，由于多媒体本身的数据和其语义标注信息分开保存，在这种情况下，如果多媒体离开知识库，在识别时就无法利用其语义标注信息；对于离开知识库的多媒体，必须重建其语义才能充分利用人类视觉认知机理的优势。

站在这个角度，在多媒体语义特征描述和存储上，我们考虑到目前的主要方法是将语义特征存放在知识库中，与多媒体本身数据存储割裂开来，这类方法在某种程度上忽略了多媒体语义特征的特殊性。从识别的角度讲，语义特征和颜色、形状、纹理等低层视觉特征是平等的，其最终目的是为了在多媒体复制、移动等任何操作情况下都能够进行识别；因此，如果只是将语义标注信息存放在知识库中，和多媒体数据本身分割，语义多媒体的检索就必须依赖知识库。对于融合人类视觉认知的目标特征提取和描述方法，不仅需要规范语义的特征表达，更重要的问题是让语义标注信息实现方便的存储，让用户在使用时更加通用。

发明内容

为解决以上问题，本发明提出了一种支持跨类型语义搜索的多媒体存储与搜索方法。

本发明的技术方案如下：

一种支持跨类型语义搜索的多媒体存储与搜索方法，包括以下步骤：

(1)用户语义标注步骤，每一个需要保存到数据库中的多媒体文件都必须被用户标注；标注以文本的形式进行，标注内容依据用户对该多媒体的理解；

(2)本体表达步骤：对标注进行分类，并划分层级，进行本体表达；将标注转换为本体；

(3)数据合并步骤：将语义信息和本体内容保存在一起，形成新的多媒体数据格式；新的数据形成之后，多媒体文件将会被保存到多媒体数据库中；

(4)多媒体检索步骤：搜索引擎从该多媒体文件中提取语义信息，和多媒体数据库中的多媒体数据进行比对，如果找到互相匹配的，则返回这些多媒体文件；系统还会让用户对自己选定的结果进行进一步标注，来丰富多媒体的语义信息，使得以后的查询越来越准确。

所述的方法，所述用户语义标注步骤中：用户向多媒体文件提供标注，所有的标注用文本形式表示；定义m为多媒体文件，C为多媒体文件集合，满足C＝{m₁，m₂，...，m_N}， N为多媒体文件个数；对于任意m_i∈C，m_i保存在服务器硬盘上，m_i的路径被保存在数据库中，链接到其真实的文件；语义信息由用户提供，以关键词标注的形式提供给m_i；

令An_mi为m_i的标注集合，满足An_mi＝{a₁，a₂，...，a_n}，n为m_i的标注个数，对于任意的m_i∈C，用户将会提供很多标注；对于任意的m_i∈C，定义标注矩阵A_mi：

$A_{mi} = {(\begin{matrix} a_{1}, a_{2}, . . ., a_{n} \\ w_{1}, w_{2}, . . ., w_{n} \end{matrix})}^{T} - - - (1)$

其中，a_i为第i个标注，w_i为其相应的权重，w_i初始值为。

所述的方法，所述用户语义标注步骤中，还包括以下步骤：

(1)去除较少使用的标注：

定期去除那些很少在搜索中使用的标注；在每一次检索过后，设计一个权重调整准则：

$w_{i} = w_{i} + k_{i} \times \frac{1}{n} - - - (2)$

k_i满足：

该调整准则在后台运行；

调整准则执行之后，每天进行一次标注清理；对于任意m_i∈C，标注清理过程如下：

第1步：检查A_mi，当满足时，移除其中的第i行。其中ε为阈值，满足 0≤ε≤1；

第2步：重新合并m_i和A_mi；

(2)用户反馈

搜索之后，将会返回多个多媒体文件；用户给该多媒体文件增加标注，来丰富其语义。对于此类标注，初始的权重值为。

所述的方法，所述数据合并步骤中，采用一种优化的方法，直接将多媒体语义信息保存在多媒体数据文件的头部。

该方法不仅支持跨类型多媒体搜索，而且能够用反映用户的语义需求。具有如下特点：(1)支持跨类型搜索。用户可以任意上传一种类型，找到各种各样语义匹配的多媒体。(2)操作方便。与传统搜索引擎的操作方式完全相同：上传文件，点击搜索。(3) 保持语义信息。语义信息在多媒体文档的复制、移动或者离开知识库的情况下，无需重建，直接可以进行支持语义的多媒体检索。

附图说明

图1：本发明的方法的流程图；

图2显示了一个图像的注释结构；

图3为本发明使用组合模式来表达本体数据结构；

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

如图1所示，是本发明的方法的流程图。本发明包括4个步骤，分别是：语义标注、语义表达、数据合并、多媒体检索。

具体描述如下：

(1)用户语义标注步骤，每一个需要保存到数据库中的多媒体文件，如图像、视频、音频等，都必须被用户标注。标注以文本的形式进行，标注内容依据用户对该多媒体的理解。

(2)本体表达步骤：对标注进行分类，并划分层级，进行本体表达。在本步骤中，将标注转换为本体，包括图像文件本体、视频文件本体和音频文件本体等。

(3)数据合并步骤。将语义信息和本体内容保存在一起，形成新的多媒体数据格式。新的数据形成之后，多媒体文件将会被保存到多媒体数据库中。

(4)多媒体检索步骤。用户上传一个多媒体文件，该多媒体文件事先已经被标注。搜索引擎从该多媒体文件中提取语义信息，和多媒体数据库中的多媒体数据进行比对，如果找到互相匹配的，则返回这些多媒体文件。此外，系统还会让用户对自己选定的结果进行进一步标注，来丰富多媒体的语义信息，使得以后的查询越来越准确。

以下是详细的技术方案：

1、语义标注

本发明中，用户通过软件，向多媒体文件提供标注，所有的标注用文本形式表示。定义m为多媒体文件，C为多媒体文件集合，满足C＝{m₁，m₂，...，m_N}(N为多媒体文件个数)。对于任意m_i∈C，m_i保存在服务器硬盘上.m_i的路径被保存在数据库中，链接到其真实的文件。语义信息由用户提供，以关键词标注的形式提供给m_i。

令An_mi为m_i的标注集合，满足An_mi＝{a₁，a₂，...，a_n}(n为m_i的标注个数)。对于任意的m_i∈C，用户将会提供很多标注。但是，不是每一个标注对表达多媒体语义的权重相同。因此，对于任意的m_i∈C，定义标注矩阵A_mi：

$A_{mi} = {(\begin{matrix} a_{1}, a_{2}, . . ., a_{n} \\ w_{1}, w_{2}, . . ., w_{n} \end{matrix})}^{T} - - - (1)$

其中，a_i为第i个标注，w_i为其相应的权重，w_i初始值为。

(1)去除较少使用的标注。

标注由用户提供，不一定准确。为了节省空间，我们要定期去除那些很少在搜索中使用的标注。在每一次检索过后，我们设计一个权重调整准则：

$w_{i} = w_{i} + k_{i} \times \frac{1}{n} - - - (2)$

k_i满足：

该调整准则在后台运行。

调整准则执行之后，每天进行一次标注清理。对于任意m_i∈C，标注清理过程如下：

第1步：检查A_mi，当满足时，移除其中的第i行。其中ε为阈值，满足 0≤ε≤1。

第2步：重新合并m_i和A_mi。

(2)用户反馈

搜索之后，将会返回多个多媒体文件。用户可以给该多媒体文件增加标注，来丰富其语义。对于此类标注，初始的权重值为。

2、本体表达

本发明使用本体技术描述的多媒体语义信息。在本体表示中，每个节点描述语义概念，本体表示满足一个递归和分层结构。图2显示了一个图像的注释结构。

该本体在第一级的节点被用来代表最明显的特征。二级和其他级别的语义标注，将基于之前更高级的本体来提供。

本发明使用组合模式来表达本体数据结构。组合模式将对象组成一个树形结构，来表示的部分与整体的层次。客户端可以使用同样的方法来处理复杂的元素和简单的元素。结构如图3所示。在本结构中，OntologyCompoment是组合中的对象声明接口，在适当的情况下，实现所有本体共有接口的默认行为；OntologyLeaf在组合中表示叶子节点对象，叶子节点没有子节点；OntologyComposite定义有枝节点行为，用来存储子部件，在OntologyCompoment接口中实现与子部件有关操作。因此，对象本体的内容在存储上进行了优化处理，组合模式使得用户对单个对象和使用具有一致性。

3、数据合并

本发明中，本体语义信息通过两种方式与多媒体文件合并：

(1)在线。语义标注直接通过软件提交，多媒体文件和语义标注一起保存。

(2)离线。语义信息保存在一个二进制文件内，其扩展名是“.s”，用户可以选择多媒体文件，和该“.s”文件合并。

我们使用一种优化的数据合并方法：直接将多媒体语义信息保存在多媒体数据文件的头部。由于本搜索方法支持用户反馈，可能导致语义内容的修改，因此，在本发明中，不使用一些流行和安全的方法，如神经网络和小波技术，直接将多媒体的语义信息保存在多媒体数据文件头部。

在每一次检索过程中，我们不能直接读写硬盘中的多媒体文件，因为这将花费大量的计算时间。本发明为了解决这个问题，采用了基于缓存的方法。当搜索引擎初始化时，语义信息被提取到关系数据库中进行快速检索，并和多媒体文件数据保持同步。这项工作将在后台线程中执行。客户端的检索首先将是进行数据库检索，多媒体服务器然后找到真正的文件。

4：搜索效果

由于跨类型的多媒体检索需要图像、视频和音频文件，所以我们构建了一个包含各种多媒体类型，包括图像，视频和音频的多媒体数据库。在搜索中，使用的多媒体数据库包含30000多媒体文件，包括20,000个图片，10,000个视频和10,000个音频文件。所有的标注都为用户所提供，或从该文件下载的网页中的文字中提取。

(1)准确率。

我们针对图像、视频和音频，各自选取了10个文件(标注为0１-10)作为上传对象，查全率、查准率显示如下：

表1查全率和查准率(％)

传统的基于内容的检索，如Gabor特征只能得到不超过40％的查全率和查准率。因此，本发明可以取得较好的检索的查全率和查准率。

(2)搜索时间。

我们特别记录了12个检索过程的时间成本。对每一种文件类型(图片，视频和音频)，进行了4个不同的检索(样本数形式01-04)。表2中列出的详细时间。

表2检索时间(毫秒)

该表显示，语义信息提取只花了很短的时间，这是因为我们只需要直接从多媒体文件中提取语义段。提取后，检索过程是相似的基于文本的检索，这个过程可以在可接受的时间内执行。

(3)后台处理时间。

后台运行的时间如表3所示：

表3后台运行时间(秒)

类型数量合并时间标注清理时间(ε＝0.8) 缓存操作时间总计图像 2,0000 59 27 37 123 视频 10,000 43 14 30 87

音频 10,000 31 12 23 66

在服务器中，将被执行的后台进程，每24小时执行一次后台操作，线程，所以花费的时间是可以接受的。

(4)空间花费。

表4显示了信息合并之前和之后的存储空间花费。

表4空间花费

类型数量合并前合并后增长率(％) 图像 2,0000 14587 14625 0.2605059 视频 10,000 62541 62568 0.0431717 音频 10,000 23547 23575 0.1189111

从该表可以看出，合并后的文件大小几乎没有增加(图像为0.26％，视频为0.04 ％，音频为0.12％)。这是因为，语义信息皆以文本表示，占据空间很小。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种支持跨类型语义搜索的多媒体存储与搜索方法 [P] . 中国专利： CN103440284B . 2016.04.20
2. 一种支持跨类型语义搜索的多媒体存储与搜索方法 [P] . 中国专利： CN103440284A . 2013-12-11
3. System of data modeling of the object semantico; method to create a database schema relactional to store data in a database, the method of interpretation of a formula in DAnd a data model of validaçao [P] . BR9407897A . 1996-11-19

机译：对象语义数据建模系统;一种用于创建相对于数据库存储数据的数据库模式的方法，一种在D中解释公式的方法，以及一种对象语义类型的数据模型的有效期的数据模型，该对象语义类型的数据模型包括多个对象语义。和系统来创建数据库架构
4. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
5. METHOD OF SEARCHING FOR ELECTRONIC DOCUMENTS SIMILAR ON SEMANTIC CONTENT, STORED ON DATA STORAGE DEVICES [P] . 俄罗斯专利： RU2420800C2 . 2011-06-10

机译：在数据存储设备上存储的类似语义内容的电子文档的搜索方法