首页> 中国专利> 确定图文对应关系的方法和装置

确定图文对应关系的方法和装置

摘要

本发明的实施例提供了一种确定图文对应关系的方法和装置。根据本发明实施例的确定图文对应关系的方法,包括:获得对于一组图像的评论,其中评论包括多个语句;基于预先建立的关键词库,从每个语句中提取关键词;以及根据评论的一个语句中的关键词,在一组图像中确定与该语句对应的图像。

著录项

  • 公开/公告号CN106294370A

    专利类型发明专利

  • 公开/公告日2017-01-04

    原文格式PDF

  • 申请/专利权人 株式会社理光;

    申请/专利号CN201510250647.4

  • 发明设计人 郑继川;姜珊珊;李谦;

    申请日2015-05-15

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人赵碧洋

  • 地址 日本东京都

  • 入库时间 2023-06-19 01:14:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-26

    未缴年费专利权终止 IPC(主分类):G06F16/9536 专利号:ZL2015102506474 申请日:20150515 授权公告日:20190917

    专利权的终止

  • 2019-09-17

    授权

    授权

  • 2017-02-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150515

    实质审查的生效

  • 2017-01-04

    公开

    公开

说明书

技术领域

本发明涉及确定图文对应关系的方法和装置,更具体地,本发明涉及对于一组图像的图文对应关系的方法和装置。

背景技术

近年来,随着社交媒体的发展,互联网上出现了大量的用户生成内容(User Generated Content,UGC),例如用户发布的微博、微信、图像等。人们在表达他们对的看法时,常常喜欢上传静态图像(例如照片)或动态图像(例如视频)以配合文字评论来说明自己的观点。

用户发布的评论通常是包括多个语句的一段话,并且配合包括多幅图像的一组图像。评论中的多个语句通常对应于一组图像中的不同图像。例如,评论中前面的语句可描述排列在后面的图像,或者评论中后面的语句可描述排列在前面的图像。这样图文之间经常会出现顺序不对应的情况。特别是有些网站在上载来自用户的多幅图像时,可能会对多幅图像随机排序,导致用户无法控制所发布的多幅图像的显示顺序。

发明内容

本发明实施例的目的在于提供一种确定图文对应关系的方法和装置,以解决上述问题。

本发明的一个实施例提供了一种确定图文对应关系的方法,包括:获得对于一组图像的评论,其中评论包括多个语句;基于预先建立的关键词库,从每个语句中提取关键词;以及根据评论的一个语句中的关键词,在一组图像中确定与该语句对应的图像。

本发明的另一实施例提供了一种确定图文对应关系的装置,包括:获取单元,被配置为对于一组图像的评论,其中评论包括多个语句;关键词提取单元,被配置为基于预先建立的关键词库,从每个语句中提取关键词;以及确定单元,被配置为根据评论的一个语句中的关键词,在一组图像中确定与该语句对应的图像。

通过本发明实施例的方案,能够确定包含一段文字中的各个语句与一组图像中每个图像的对应关系。此外,通过从用户对于一组图像的评论中提取关键词,能够利用少量的关键词与图像中的大部分关键特征建立联系,从而简化了确定对应关系所需要进行的操作,并且提高了确定结果的准确性。

附图说明

图1是描述了根据本发明一个实施例的确定图文对应关系的方法的流程图。

图2是示出根据本发明一个示例,根据关键词和第二关键词确定一组图像中的每个图像和评论中的每个语句之间的对应关系的方法的流程图。

图3示出了根据本发明一个示例的一组图像。

图4是示出了根据本发明的一个实施例的确定图文对应关系的装置的示范性结构框图。

图5是示出根据本发明一个示例,确定单元的示范性结构框图。

图6是示出按照本发明实施例的检测异常情形的系统的总体硬件框图。

具体实施方式

为了使本领域技术人员更好地理解本发明,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,具有基本上相同步骤和元素用相同的附图标记来表示,且对这些步骤和元素的重复解释将被省略。

在根据本发明的实施例中,评论是包含多个语句的一段文字。每个图像的标签是不包含在评论中的对于该图像的标注。

图1是描述了根据本发明一个实施例的确定图文对应关系的方法100的流程图。下面,将参照图1来描述根据本发明实施例的确定图文对应关系的方法。如图1所示,在步骤S101中,获得对于一组图像的评论,其中所述评论包括多个语句。评论中的语句可以是用自然语言表述的语句。例如,用户发布在网站上的对某一产品的评论等。根据本发明的一个示例,评论可以是对于,某款相机性能、外观等的评论,并且所述一组图像可以是通过该相机拍摄的照片。

然后在步骤S102中,基于预先建立的关键词库,从每个语句中提取关键词。根据本发明的一个示例,可预先获取已有的评论,并对所获取的已有评论进行分析来获得关键词库中的词语。例如,可通过互联网从社交网站上获取已有评论。此外,还可预先获取已经生成的图像标签,并对所获取的已有标签进行分析来获得关键词库中的词语。具体地,关键词库可包括预先从与对于一组图像的评论不同的其它评论中提取的第一候选词语和从先前对其他图像生成的标签中提取的第二候选词语。

此外根据本发明的另一示例,第一候选词语和第二候选词语可包括被摄对象、场景、图像元数据、图像特征、多个图像之间的位置关系、和/或评论中出现频率高于预定频率的词等。例如,被摄对象可以是男人、女人、小孩、学生等。场景可以是雪天、晴天、阴天、室内等。图像元数据可以是从在拍摄相应图像时生成的EXIF信息中提取的,可包括拍摄的时间、地点、模式、光圈大小、快门速度、ISO值等。图像特征可以是诸如偏红、偏黄、发紫之类的对于图像特点的描述。多个图像之间的位置关系可以是诸如第一、第二、最后之类的描述图像出现顺序的词。此外,评论中出现频率高于预定频率的词可以是红眼、闭眼、模糊、噪点等和图像中出现问题相关的词。

第一候选词语中的一些词语可能与和第二候选词语中的一些词语重复。例如,指示被摄对象的词语,可能既出现在评论中又出现在标签中。可选择地,根据本发明的另一示例可对第一候选词语和第二候选词语进行合并处理以便后续操作。例如,在合并处理中可删除第二候选词语中与第一候选词语重复的词语。

此外,根据本发明的另一示例,在步骤S102中,可对评论进行划分,以获得多个评论片段,然后在每个评论片段中提取关键词。例如,可以按照自然句对评论进行划分,然后在每个自然句中提取关键词。此外,也可以以其它单位对评论进行划分。

在步骤S103中,根据评论的一个语句中的关键词,在所述一组图像中确定与该语句对应的图像。例如,可计算一组图像中的每个图像与每个语句的关键词的匹配度,从而确定一组图像中的每个图像和评论中的每个语句之间的对应关系。

图2是示出根据本发明一个示例,根据关键词和第二关键词确定一组图像中的每个图像和评论中的每个语句之间的对应关系的方法200的流程图。如图2所示,在步骤S201中在多个语句中选择一候选语句。然后在步骤S202中,根据候选语句中的关键词对所述一组图像进行识别,以在所提取的该候选语句的关键词中确定与所述一组图像中的每个图像匹配的关键词作为该图像的标签。

图3示出了根据本发明一个示例的一组图像。如图3所示,所述一组图像包括关于河流的第一图像310、关于花的第二图像320、和关于狗的第三图像330。假设候选语句中的关键词包括“狗”、“晴天”、“运动”和“土地”。根据步骤S202,可对第一图像310、第二图像320和第三图像330进行图像识别,以确定其中是否包括“狗”、“晴天”、“运动”和“土地”,并且获得第一图像310与关键词“晴天”和“土地”匹配,第二图像320与关键词“狗”、“晴天”、“运动”和“土地”都匹配,以及第三图像330只与关键词“晴天”匹配。根据识别结果,可生成第一图像310的标签“晴天”和“土地”,生成第二图像320的标签“狗”、“晴天”、“运动”和“土地”,并且生成第三图像330的标签“晴天”。

此外根据本发明的另一示例,在根据关键词确定对应关系前,可将一组图像转换为图像数组。例如当对于图3中所示的一组图像的关键词中包括“第三”时,基于步骤S202根据图像中数组的顺序,可识别数组中各个图像的顺序,并确定第三图像330与关键词“第三”匹配,并且生成第三图像330的标签“第三”。在根据本示例的方法中,根据从评论的语句提取的少量的关键词对图像进行识别,而不需要对图像建立很多用于确定图像内容或特征的分类器或对象/场景识别器。

返回图2,在步骤S203中根据图像的标签确定所述一组图像中与候选语句对应的图像。例如,可确定在一组图像中具有最多标签的图像为候选语句对应的图像。又例如,可根据与每个图像匹配的所有标签,计算每个图像与候选语句的匹配度,并且根据所计算的匹配度确定所述一组图像中与候选语句对应的图像。

根据本发明的一个示例,在步骤S203中,可计算在候选语句中的关键词中与一个图像匹配的关键词(即,标签)的数量作为匹配度,并且确定匹配的关键词的数量是否超过预定阈值,当匹配的关键词的数量超过预定阈值,可确定该图像与当前候选语句对应。可选择地,可按照类型预先设置关键词的分类,并分配每类关键词的权重。在步骤S203中,可计算匹配的关键词(即,标签)的加权数量作为匹配度。

可将评论中的各个语句逐一作为候选语句,并对于每个语句重复执行步骤S201至步骤S203,直到获得确定所有语句的对应图像为止。此外,对每个语句,在确定对应图像的操作开始之前,所有的图像都被重新初始化为未经过对应的状态。

应注意,图1和2中所示的方法的各个步骤不必按照所示的顺序执行。可以颠倒或并行地执行某些步骤。可以先执行选择一候选语句,在确定候选语句后,可针对该候选语句执行提取关键词。此外,根据图2中所示的方法中生成的图像的标签可被加入到关键词库中,以作为用于确定其他图像组与其评论的对应关系时所使用的第二候选词语。

在根据本实施例的确定图文对应关系的方法中,能够确定包含一段文字中的各个语句与一组图像中每个图像的对应关系。此外,通过从用户对于一组图像的评论中提取关键词,能够利用少量的关键词与图像中的大部分关键特征建立联系,从而简化了确定对应关系所需要进行的操作,并且提高了确定结果的准确性。

下面,参照图4说明本发明实施例的确定图文对应关系的装置。图4是示出了根据本发明的一个实施例的确定图文对应关系的装置400的示范性结构框图。如图4中所示,本实施例的确定图文对应关系的装置400包括获取单410、关键词提取单元420和确定单元430。在确定图文对应关系的装置400中的各个单元可分别执行上述图1中的确定图文对应关系的方法100的各个步骤/功能。因此,以下仅对确定图文对应关系的装置400的主要部件进行了描述,而省略了以上已经结合图1描述过的细节内容。

具体地,获取单元410可获得对于一组图像的评论,其中所述评论包括多个语句。评论中的语句可以是用自然语言表述的语句。例如,用户发布在网站上的对某一产品(例如相机)的评论等。根据本发明的一个示例,评论可以是对于,某款相机性能、外观等的评论,并且所述一组图像可以是通过该相机拍摄的照片。

然后关键词提取单元420基于预先建立的关键词库,从每个语句中提取关键词。关键词库可存储在电子设备400中,可替换地,也存储在与装置400相连接的、独立于装置400的存储介质中。

根据本发明的一个示例,可预先获取已有的评论,并对所获取的已有评论进行分析来获得关键词库中的词语。例如,可通过互联网从社交网站上获取已有评论。此外,还可预先获取已经生成的图像标签,并对所获取的已有标签进行分析来获得关键词库中的词语。具体地,关键词库可包括预先从与对于一组图像的评论不同的其它评论中提取的第一候选词语和从先前对其他图像生成的标签中提取的第二候选词语。

此外根据本发明的另一示例,第一候选词语和第二候选词语可包括被摄对象、场景、图像元数据、图像特征、多个图像之间的位置关系、和/或评论中出现频率高于预定频率的词等。例如,被摄对象可以是男人、女人、小孩、学生等。场景可以是雪天、晴天、阴天、室内等。图像元数据可以是从在拍摄相应图像时生成的EXIF信息中提取的,可包括拍摄的时间、地点、模式、光圈大小、快门速度、ISO值等。图像特征可以是诸如偏红、偏黄、发紫之类的对于图像特点的描述。多个图像之间的位置关系可以是诸如第一、第二、最后之类的描述图像出现顺序的词。此外,评论中出现频率高于预定频率的词可以是红眼、闭眼、模糊、噪点等和图像中出现问题相关的词。

第一候选词语中的一些词语可能与和第二候选词语中的一些词语重复。例如,指示被摄对象的词语,可能既出现在评论中又出现在标签中。可选择地,根据本发明的另一示例可对第一候选词语和第二候选词语进行合并处理以便后续操作。例如,在合并处理中可删除第二候选词语中与第一候选词语重复的词语。

此外,根据本发明的另一示例,关键词提取单元420可对评论进行划分,以获得多个评论片段,然后在每个评论片段中提取关键词。例如,可以按照自然句对评论进行划分,然后在每个自然句中提取关键词。此外,也可以以其它单位对评论进行划分。

确定单元430根据评论的一个语句中的关键词,在所述一组图像中确定与该语句对应的图像。例如,可计算一组图像中的每个图像与每个语句的关键词的匹配度,从而确定一组图像中的每个图像和评论中的每个语句之间的对应关系。

图5是示出根据本发明一个示例,确定单元430的示范性结构框图。如图5所示,确定单元440包括语句选择模块510、识别模块520和确定模块530。在确定单元440中的各个模块可分别执行上述图2中的方法200的各个步骤/功能。因此,以下仅对确定单元440的主要部件进行了描述,而省略了以上已经结合图2描述过的细节内容。

语句选择模块510在多个语句中选择一候选语句。然后识别模块520根据候选语句中的关键词对所述一组图像进行识别,以在所提取的该候选语句的关键词中确定与所述一组图像中的每个图像匹配的关键词作为该图像的标签。例如,识别模块520可根据关键词进行图像内容识别,以确定图像中是否存在关键词所指示的内容,并且当存在该内容时生成相应的标签。又例如,识别模块520可根据关键词进行排列顺序识别,以确定图像在所述一组图像中的顺序是否为关键词所指示的顺序,并且当确定顺序匹配时生成相应的标签。根据示例的识别模块520基于从评论的语句提取的少量的关键词对图像进行识别,而不需要对图像建立很多用于确定图像内容或特征的分类器或对象/场景识别器。

确定模块530根据与每个图像匹配的关键词,确定一组图像中与候选语句对应的图像。例如,确定模块530可确定在一组图像中具有最多标签的图像为候选语句对应的图像。又例如,确定模块530可根据与每个图像匹配的所有标签,计算每个图像与候选语句的匹配度,并且根据所计算的匹配度确定所述一组图像中与候选语句对应的图像。

根据本发明的一个示例,确定模块530可计算在候选语句中的关键词中与一个图像匹配的关键词(即,标签)的数量作为匹配度,并且确定匹配的关键词的数量是否超过预定阈值,当匹配的关键词的数量超过预定阈值,可确定该图像与当前候选语句对应。可选择地,可按照类型预先设置关键词的分类,并分配每类关键词的权重。确定模块530可计算匹配的关键词(即,标签)的加权数量作为匹配度。

可将评论中的各个语句逐一作为候选语句,并对于每个语句重复执行语句选择模块510、识别模块520和确定模块530,直到获得确定所有语句的对应图像为止。此外,对每个语句,在确定对应图像的操作开始之前,所有的图像都被重新初始化为未经过对应的状态。此外,确定单元440生成的图像的标签可被加入到关键词库中,以作为用于确定其他图像组与其评论的对应关系时所使用的第二候选词语。

在根据本实施例的确定图文对应关系的装置中,能够确定包含一段文字中的各个语句与一组图像中每个图像的对应关系。此外,通过从用户对于一组图像的评论和该组照片的标签中提取关键词,能够利用少量的关键词与图像中的大部分关键特征建立联系,从而简化了确定对应关系所需要进行的操作,并且提高了确定结果的准确性。

此外,根据本发明的另一示例,本发明还可以通过一种确定图文对应关系的系统来实施。图6是示出按照本发明实施例的确定图文对应关系的系统600的总体硬件框图。如图6所示,确定图文对应关系的系统600可以包括:输入设备610,用于从外部输入例如图像、评论等,并且例如可以包括图像传输线、图像输入端口等等;处理设备620,用于实施上述的按照本发明实施例的确定图文对应关系的方法,例如可以包括计算机的中央处理器或其它的具有处理能力的芯片等等,此外,处理设备620还可以连接到诸如因特网的网络(未示出),根据处理过程的需要向远程传送处理后的结果等等;输出设备630,用于向外部输出实施上述确定图文对应关系的方法所得的结果,例如可以包括显示器以及通信网络及其所连接的远程输出设备等等;以及存储设备640,用于以易失或非易失的方式存储上述图像、评论、预先建立的关键词库等数据,例如可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

所属技术领域的技术人员知道,本发明可以实现为系统、装置、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“组件、“模块”、“装置”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

上面参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号