首页> 中国专利> 一种利用噪声描述文本的可控推理性视觉问题生成方法

一种利用噪声描述文本的可控推理性视觉问题生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及多媒体领域的视觉问题生成技术领域，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法，包括输入图片和能得到的有关图片的简单描述；利用锚点场景图生成模块和所述图片及描述生成锚点场景图；以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题，该发明不仅规避了传统方法基于数据驱动产生的模式局限性，也不需要高昂的人工成本，同时生成的问题在内容和难度等方面都是可控的，在不同的应用场景下定制和扩展也很方便，可以根据目的高效、大量地扩增视觉问答数据集。

著录项

公开/公告号CN114880470A

专利类型发明专利
公开/公告日2022-08-09

原文格式PDF
申请/专利权人镇江智栎高科技有限公司;
展开▼

申请/专利号CN202210429636.2
发明设计人王树徽;毕超;
展开▼

申请日2022-04-22
分类号G06F16/35(2019.01);G06F16/583(2019.01);G06F40/186(2020.01);
代理机构重庆莫斯专利代理事务所(普通合伙) 50279;
代理人刘强
地址 212000 江苏省镇江市润州区官塘桥街道远洋社区29号楼14楼1401室
入库时间 2023-06-19 16:19:08

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-09

公开

发明专利申请公布

说明书

技术领域

本发明涉及多媒体领域的视觉问题生成技术领域，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法。

背景技术

视觉问题生成的目标是令机器根据给定的视觉信息自动生成一个自然语言问题。与其他视觉文本生成任务不同，问题生成更注重对视觉信息提炼后提出对人类来说有意义、有逻辑的疑问。近年来，视觉问题生成任务越来越受关注，不仅为视觉问答任务构建了大量的训练数据，同时也被应用于对话系统等人工智能领域。

现有的方法通常会考虑没有附件条件和依据条件信息来生成这两种情况。因此，如何更好地结合、对齐视觉信息，突破数据驱动的模式限制，低成本、可控地生成推理性、可解释性的问题，仍然是亟待解决的问题。

发明内容

本发明的目的在于提供一种利用噪声描述文本的可控推理性视觉问题生成方法，旨在利用给定图片和一些简单描述，自动生成大量内容和难度都可控的有显式推理性的问题，且该过程能够不依赖于数据驱动的训练或大量人工预处理，使得问题与现有数据集产生显著的模式差异，且极大地降低生成成本。

为实现上述目的，本发明提供了一种利用噪声描述文本的可控推理性视觉问题生成方法

本发明的一种利用噪声描述文本的可控推理性视觉问题生成方法，包括：

输入图片和所述图片的描述；

利用所述图片及描述生成锚点场景图；

以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题。

其中，所述利用锚点场景图生成模块和所述图片及描述生成锚点场景图的具体步骤为：

利用场景图生成任务的方法附加物体属性分类训练生成初步场景图；

利用所述初步场景图提取视觉概念；

利用所述视觉概念从有噪声的描述文本中抽取可用信息，并提取其中的实体和三元组关系；

利用显著性检测算法提取出所述图像中的区域；

将所述区域映射到场景图中；

将所述区域的物体作为中心锚点，使得最终锚点场景图的内容聚焦于此并根据推理长度逐层向外扩散，从而获得锚点场景图。

其中，以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题的具体步骤为：

定义函数模板，所述函数模板包含有参数空间、推理过程模板以及文本模板；

根据模板中的程序规则，在现有锚点场景图上进行深度优先搜索；

利用搜索结果找到符合所述模板程序规则的节点链条；

将所述节点链条作为参数回填进所述文本模板中，即实例化出一个自然语言问题；

对所述实例化出的自然语言问题加入推理约束检查。

其中，所述实体为图像中的物体实体，所述三元组关系为所述实体间的主宾关系。

其中，所述三元组关系可用提取到的信息与场景图做匹配，对响应的结点和连边提高相应置信度。

该发明设计了一种新的可控推理性视觉问题生成方法，先依据描述文本特征和显著性图像特征构建出特定场景图，再利用推理函数模板在场景图中实例化出推理链，生成内容和难度都可控的有显式推理性的问题。这样不仅规避了传统方法基于数据驱动产生的模式局限性，也不需要高昂的人工成本，同时生成的问题在内容和难度等方面都是可控的，在不同的应用场景下定制和扩展也很方便，可以根据目的高效、大量地扩增视觉问答数据集。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种利用噪声描述文本的可控推理性视觉问题生成方法的具体步骤流程图。

图2是利用锚点场景图生成模块和所述图片及描述生成锚点场景图的具体步骤流程图。

图3是以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题的具体步骤流程图。

图4是技术方法流程框架图。

图5是语法树解析示例图。

图6是实例化函数模板示例。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图6，本发明提供一种利用噪声描述文本的可控推理性视觉问题生成方法，包括：

S101输入图片和所述图片的描述；

所述描述包含所述图片内的物体、背景、颜色及位置关系等信息。

S102利用所述图片及描述生成锚点场景图；

S103以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题。

其中，所述利用所述图片及描述生成锚点场景图的具体步骤为：

S201利用场景图生成任务的方法附加物体属性分类训练生成初步场景图；

S202利用所述初步场景图提取视觉概念；

所述视觉概念可建模为：

G＝{V，E}，

其中V表示结点，对应于图像中的物体实体，而E表示边，对应于物体之间的关系，都附带有置信度分数。

S203利用所述图像的视觉概念从有噪声的描述文本中抽取可用信息，并提取其中的实体和三元组关系；

S204利用显著性检测算法提取出所述图像中的目标区域；

所述目标区域为更容易被人类关注到的区域。

S205将所述区域映射到场景图中；

S206将所述区域的物体作为中心锚点，使得最终锚点场景图的内容聚焦于此并根据推理长度逐层向外扩散，从而获得锚点场景图。

其中，以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题的具体步骤为：

S301定义函数模板，所述函数模板包含有参数空间、推理过程模板以及文本模板；

S302根据模板中的程序规则，在现有锚点场景图上进行深度优先搜索；

S303利用搜索结果找到符合所述模板程序规则的节点链条；

S304将所述节点链条作为参数回填进所述文本模板中，即实例化出一个自然语言问题；

S305对所述实例化出的自然语言问题加入推理约束检查。

以解决答案不唯一、推理链可退化和物体循环关联的问题，使筛选后的问题保持更合理的语义效果。

其中，所述实体为图像中的物体实体，所述三元组关系为所述实体间的主宾关系。

其中，所述三元组关系可用提取到的信息与场景图做匹配，对响应的结点和连边提高相应置信度。

用以保证内容的准确性。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种利用噪声描述文本的可控推理性视觉问题生成方法 [P] . 中国专利： CN114880470A . 2022-08-09
2. 利用文本描述生成图像进行行人搜索的方法 [P] . 中国专利： CN114359132A . 2022-04-15
3. METHOD AND PROCESS FOR AUTOMATIC GENERATION OF SYMPTOM CODES FROM TEXTUAL PROBLEM DESCRIPTIONS TO ENABLE PROBLEM CLASSIFICATION, EARLY WARNING TREND PREDICTION, AND FAST RECALL OF PROGNOSTIC/DIAGNOSTIC SOLUTIONS [P] . 美国专利： US2009265364A1 . 2009-10-22

机译：从文本问题描述中自动生成症状代码以实现问题分类，预警趋势预测以及预测/诊断解决方案的快速调用的方法和过程
4. System and method for dynamically generating a textual description for a visual data representation [P] . AU2003218277B2 . 2010-01-28

机译：动态生成视觉数据表示的文本描述的系统和方法
5. System and method for dynamically generating a textual description for a visual data representation [P] . 美国专利： US6972763B1 . 2005-12-06

机译：动态生成视觉数据表示的文本描述的系统和方法