首页> 中国专利> 一种基于NLP复合句分割的图像检索的方法

一种基于NLP复合句分割的图像检索的方法

摘要

一种基于NLP复合句分割的图像检索的方法,包括:1)分割复合句;2)对多个简单句子排序;3)对检索图像的句子进行抽象;4)查询剪枝;5)检索图像;6)评估结果:使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估方法的性能。本发明将NLP与图像检索结合起来,充分利用NLP的优势,对用户所提出的复合句进行详细的成分句法分析与依存句法分析,将分析处理过的句子作为查询语句,输入到数据库中对图像进行检索,不仅大大提高了图像检索的效果,也扩大了NLP的应用范围。

著录项

  • 公开/公告号CN115658850A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202211438366.8

  • 申请日2022-11-17

  • 分类号G06F16/33;G06F16/36;G06F16/532;G06F40/211;G06F40/253;

  • 代理机构杭州天正专利事务所有限公司;

  • 代理人舒良

  • 地址 310014 浙江省杭州市拱墅区潮王路18号

  • 入库时间 2023-06-19 18:27:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明属于自然语言处理和计算机视觉领域,是在其领域内关注度较高的应用技术,具体涉及一种基于NLP复合句分割的图像检索的方法与应用。

背景技术

自然语言处理专注于人机语言交互,研究如何处理和运用自然语言,最早被应用于图灵测试,经历了以规则为基础的研究法方法,到现在的基于统计学的模型和方法,从早期的传统机器学习方法,基于高维稀疏特征的训练方式,到现在主流的深度学习方法,使用基于神经网络的低维稠密向量特征训练模型。最近几年,随着机器学习以及相关技术的发展,NLP领域的研究取得一个又一个突破,研究者们也在设计各种模型和方法,来解决NLP的各类问题。

图像检索技术的研究根据描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索,另一类是基于内容的图像检索,本发明着重于前者。基于文本的图像检索技术始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,用户可以根据自己的兴趣提供查询关键词,检索系统根据用户提供的查询关键词找出那些标注有该查询关键词对应的图片,最后将查询的结果返回给用户。

在传统NLP与图像检索的结合中,首先是根据图片内容提出简单问句,然后分析所提简单句的语义,结合图片内容得出问题答案。

发明内容

本发明要克服现有技术的缺点,提供一种基于NLP复合句分割的图像检索的方法。

本发明的目的在于充分融合自然语言处理与计算机视觉两个模态下的信息,从而为基于文本的图像检索提供优秀的解决方案。本发明专利在两大技术结合中,更注重对于复合句的处理,所提问题的方式也不是看图提问的方式,而是根据所提问题在数据库中一步一步寻找问题答案,实现了一种基于NLP复合句分割的图像检索的完整架构。

本发明的目的是这样实现的:

一种基于NLP复合句分割的图像检索的方法,包括以下步骤:

1)复合句分割:根据用户所提出的复合句,使用Part-of-Speech为输入句子中的每个词性标注词分配词性标记,通过这种方法消除单词词性的歧义,为单词找到正确的标签。得出单词的词性标记后,使用Enhanced++Dependencies得出单词与单词之间的依存关系,结合语法最终分割为多个简单句。

2)多个简单句子排序:对1)中得到的多个简单句进行排序。根据计算机语言学,简单句由主语、谓语和宾语组成,由于本发明中涉及的问题是复合问题,存在主语和谓语的连续性,可根据其特性将简单句子进行排序。

3)对检索图像的句子进行抽象:在知识图谱中,图像中的每一个实体对应一个结点,所以只需要对上述句子中涉及的结点进行遍历和迭代就可以确定查询的第一个结点。首先是对第一个简单句进行查询,得出查询结果(复合问题的中间结果),这时候得出的结果可能会有许多,为了最终查询的准确性,需要把得出来的每一个结果作为下一个简单句的第一个实体节点进行查询,如此反复,直到得出复合问题的最终答案。

4)查询剪枝:本发明涉及的是复合句分割为简单句子的英文问题,在不同的问题类型中,有的会涉及“most”、“least”、“second”等关键词,若这些关键词出现在查询的第一个简单句中,就需要对查询的结果做一个统计,得出最符合此句子问题的答案(复合问题的中间结果),这时候得到的结果往往只有一个,只需要将这一个结果作为下一个简单句的初始节点进行查询,对比3)中类似的此过程,可以大大的减少下一步的检索量,故把它称为剪枝过程。

5)检索图像:首先将查询次序为1的简单句输入到数据库中进行查询,将获得的此查询结果作为接下来要查询的简单句的初始节点,在数据库中继续查询,以此类推,直到得出最终复合句的答案。

6)评估结果:使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估方法的性能。

优选地,所述步骤1)中,分割复合句包括以下过程:

步骤101,词性标注阶段,采用概率序列模型HMM进行词性标注,HMM计算可能的标签序列的概率分布,并选择最佳标签序列。对于HMM模型,首先我们假设Q是所有可能的隐藏状态的集合,V是所有可能的观测状态的集合,即:

Q={q1,q2,...,qN},V={v1,v2,...vM} (1)

其中,N是可能的隐藏状态数,M是所有的可能的观察状态数。

对于一个长度为T的序列,I对应的状态序列,O是对应的观察序列,即:

I={i1,i2,...,iT},O={o1,o2,...oT} (2)

其中,任意一个隐藏状态it∈Q,任意一个观察状态ot∈V

HMM模型做了两个很重要的假设如下:

(1)齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端,因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态,可能是前两个或者是前三个。但是这样假设的好处就是模型简单,便于求解。如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为:

aij=P(it+1=qj|it=qi) (3)

这样aij可以组成马尔科夫链的状态转移矩阵A:

A=[aij]N×N (4)

(2)观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设。如果在时刻t的隐藏状态是it=qj,而对应的观察状态为ot=vk,则该时刻观察状态vk在隐藏状态qj下生成的概率为bj(k),满足:

bj(k)=P(ot=vk|it=qj) (5)

这样bj(k)可以组成观测状态生成的概率矩阵B:

B=[bj(k)]N×M (6)

除此之外,我们需要一组在时刻t=1的隐藏状态概率分布Π:

Π=[π(i)]N (7)

其中π(i)=P(i1=qi)

一个HMM模型,可以由隐藏状态初始概率分布Π,状态转移概率矩阵A和观测状态概率矩阵B决定。Π,A决定状态序列,B决定观测序列。因此,HMM模型可以由一个三元组λ表示如下:

λ=(A,B,Π) (8)

步骤102,依存句法分析阶段,依存关系表示是一个加标签的有向图,其中节点是词汇项,加标签的弧表示依赖关系,从中心词到依赖。

依存语法中关于依存关系的四条公理:

(1)一个句子中只有一个成分是独立的;

(2)其它成分直接依存于某一成分;

(3)任何一个成分都不能依存与两个或两个以上的成分;

(4)如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;

优选地,所述步骤3)中,对检索图像的句子进行抽象包括以下过程:

步骤301,准备阶段,本发明所采用的查询数据库是ConceptNet与COCO部分图片抽象出来的数据之间的融合数据,使用的是Neo4j高性能图引擎;

步骤302,查询阶段,首先将查询次序为1的简单句输入到Neo4j中进行查询,将获得的此查询结果作为接下来要查询的简单句的初始节点,以此类推,直到得出最终复合句的答案。

优选地,所述步骤5)中,检索图像过程包括:

为了更加详细的描述图像检索过程,这里将复合句的回答形式分成两大类。其中一类为判断式回答形式,同样地,首先按次序对分割好的简单句进行分析,在数据库中进行查询,依次查询出每个阶段的结果,根据最终是否查询到符合问题的结果,将Yes或者No作为最终的答案。而另一类与第一类的主要不同点在于,根据最终查询到符合问题的结果,得出对应的图片。

优选地,所述步骤6)中,评估结果过程包括:

为了定量地评估图像检索任务的性能,使用准确率(Acc)、精准率(Prec

其中,TP

本发明的优点和积极效果是:

本发明将NLP与图像检索结合起来,充分利用NLP的优势,对用户所提出的复合句进行详细的成分句法分析与依存句法分析,将分析处理过的句子作为查询语句,输入到数据库中对图像进行检索,不仅大大提高了图像检索的效果,也扩大了NLP的应用范围。

附图说明

图1是本发明一些实施例提供的一种基于NLP复合句分割的图像检索的方法与应用流程示意图。

图2为本发明复合句的Part-of-Speech示意图。

图3是本发明复合句Enhanced++Dependencies示意图。

具体实施方式

为了使本发明的技术方案、设计思路能更加清晰,下面结合附图对本发明做进一步详尽的描述。

一种基于NLP复合句分割的图像检索的方法与应用,根据用户所提出的问题,通过NLP对问题进行分析,在数据库中查询与问题相关的图像、包含回答问题所需知识的知识库,从数据库中寻找最合适的答案。任务涉及自然语言处理和计算机视觉两个领域,如果没有考虑某个领域的信息或者对某个领域的信息考虑的不够充分,会导致信息的利用率偏低,对图像检索的准确率不高。所以,充分利用各个模态的信息是很关键的因素。

本发明中所使用的数据库来源于两个方面。一方面是引入外部知识,这里选用的是ConcepNet;另一方面选择部分MS-COCO数据集,使用SGG模型将来自MS-COCO的图片抽象为具体的数据结构,与ConceptNet进行融合,这里选用的是高性能图引擎Neo4j进行两者的融合,并且将融合后的数据作为本发明的数据库。

本发明的具体实现过程为:

1)分割复合句:根据用户所提出的复合句,使用Part-of-Speech为输入句子中的每个词性标注词分配词性标记,通过这种方法消除单词词性的歧义,为单词找到正确的标签。得出单词的词性标记后,使用Enhanced++Dependencies得出单词与单词之间的依存关系,结合语法最终分割为多个简单句。

2)对多个简单句子排序:对1)中得到的多个简单句进行排序。根据计算机语言学,简单句由主语、谓语和宾语组成,由于本发明中涉及的问题是复合问题,存在主语和谓语的连续性,可根据其特性将简单句子进行排序。

3)对检索图像的句子进行抽象:在知识图谱中,图像中的每一个实体对应一个结点,所以只需要对上述句子中涉及的结点进行遍历和迭代就可以确定查询的第一个结点。首先是对第一个简单句进行查询,得出查询结果(复合问题的中间结果),这时候得出的结果可能会有许多,为了最终查询的准确性,需要把得出来的每一个结果作为下一个简单句的第一个实体节点进行查询,如此反复,直到得出复合问题的最终答案。

4)查询剪枝:本发明涉及的是复合句分割为简单句子的英文问题,在不同的问题类型中,有的会涉及“most”、“least”、“second”等关键词,若这些关键词出现在查询的第一个简单句中,就需要对查询的结果做一个统计,得出最符合此句子问题的答案(复合问题的中间结果),这时候得到的结果往往只有一个,只需要将这一个结果作为下一个简单句的初始节点进行查询,对比3)中类似的此过程,可以大大的减少下一步的检索量,故把它称为剪枝过程。

5)检索图像:首先将查询次序为1的简单句输入到数据库中进行查询,将获得的此查询结果作为接下来要查询的简单句的初始节点,在数据库中继续查询,以此类推,直到得出最终复合句的答案。

6)评估结果:使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估方法的性能。

所述步骤1)中包括以下过程:

步骤101,词性标注阶段,采用概率序列模型HMM进行词性标注,HMM计算可能的标签序列的概率分布,并选择最佳标签序列。对于HMM模型,首先我们假设Q是所有可能的隐藏状态的集合,V是所有可能的观测状态的集合,即:

Q={q1,q2,...,qN},V={v1,v2,...vM} (11)

其中,N是可能的隐藏状态数,M是所有的可能的观察状态数。

对于一个长度为T的序列,I对应的状态序列,O是对应的观察序列,即:

I={i1,i2,...,iT},O={o1,o2,...oT} (12)

其中,任意一个隐藏状态it∈Q,任意一个观察状态ot∈V

HMM模型做了两个很重要的假设如下:

(1)齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。当然这样假设有点极端,因为很多时候我们的某一个隐藏状态不仅仅只依赖于前一个隐藏状态,可能是前两个或者是前三个。但是这样假设的好处就是模型简单,便于求解。如果在时刻t的隐藏状态是it=qi,在时刻t+1的隐藏状态是it+1=qj,则从时刻t到时刻t+1的HMM状态转移概率aij可以表示为:

aij=P(it+1=qj|it=qi) (13)

这样aij可以组成马尔科夫链的状态转移矩阵A:

A=[aij]N×N (14)

(2)观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态,这也是一个为了简化模型的假设。如果在时刻t的隐藏状态是it=qj,而对应的观察状态为ot=vk,则该时刻观察状态vk在隐藏状态qj下生成的概率为bj(k),满足:

bj(k)=P(ot=vk|it=qj) (15)

这样bj(k)可以组成观测状态生成的概率矩阵B:

B=[bj(k)]N×M (16)

除此之外,我们需要一组在时刻t=1的隐藏状态概率分布Π:

Π=[π(i)]N (17)

其中π(i)=P(i1=qi)

一个HMM模型,可以由隐藏状态初始概率分布Π,状态转移概率矩阵A和观测状态概率矩阵B决定。Π,A决定状态序列,B决定观测序列。因此,HMM模型可以由一个三元组λ表示如下:

λ=(A,B,Π) (18)

步骤102,依存句法分析阶段,依存关系表示是一个加标签的有向图,其中节点是词汇项,加标签的弧表示依赖关系,从中心词到依赖。

依存语法中关于依存关系的四条公理:

(1)一个句子中只有一个成分是独立的;

(2)其它成分直接依存于某一成分;

(3)任何一个成分都不能依存与两个或两个以上的成分;

(4)如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分。

所述步骤3)包括:

步骤301,准备阶段,本发明所采用的查询数据库是ConceptNet与COCO部分图片抽象出来的数据之间的融合数据,使用的是Neo4j高性能图引擎;

步骤302,查询阶段,首先将查询次序为1的简单句输入到Neo4j中进行查询,将获得的此查询结果作为接下来要查询的简单句的初始节点,以此类推,直到得出最终复合句的答案。

所述步骤5)具体包括:

为了更加详细的描述图像检索过程,这里将复合句的回答形式分成两大类。其中一类为判断式回答形式,同样地,首先按次序对分割好的简单句进行分析,在数据库中进行查询,依次查询出每个阶段的结果,根据最终是否查询到符合问题的结果,将Yes或者No作为最终的答案。而另一类与第一类的主要不同点在于,根据最终查询到符合问题的结果,得出对应的图片。

所述步骤6)中包括以下过程:

步骤601,结果评估:为了定量地评估图像检索任务的性能,使用准确率(Acc)、精准率(Prec

其中,TP

以上所述仅为本发明的较佳实施例而已,本领域的技术人员容易理解,并不用以限制本发明。尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员依然可以根据前述实施例或附图进行其他不同形式的修改或变动。这里无法对所有实施方式或技术方案进行穷举,所有本发明原则内的修改、更换等,均应包含在本发明要求的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号