首页> 中国专利> 对象识别装置和对象识别方法

对象识别装置和对象识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种对象识别装置和一种对象识别方法，对象识别装置其包括存储器与处理器。存储器用于存储多个指令；处理器连接存储器，并用于加载并执行多个指令以：对第一档案信息中的多个对象进行对象识别，以产生多个对象数据；根据多个对象数据产生多个对象数据彼此间相关的对象相关信息；根据对象相关信息产生第二档案信息，其中第二档案信息包含供选择操作的多个对象；以及当接收多个对象中的第一对象对应的第一选择操作指令时，根据对象相关信息产生与第一对象相关的第一对象数据。本发明公开的对象识别装置有利于使用者快速地阅读与搜寻到想观看的文字、图式或段落等。

著录项

公开/公告号CN112307163A

专利类型发明专利
公开/公告日2021-02-02

原文格式PDF
申请/专利权人新颖数位文创股份有限公司;
展开▼

申请/专利号CN202011060764.1
发明设计人李信颖;陈守贤;张莹珠;谢周炽;孙美君;
展开▼

申请日2020-09-30
分类号G06F16/33(20190101);G06F16/338(20190101);G06F16/53(20190101);G06F16/538(20190101);G06K9/32(20060101);G06K9/62(20060101);
代理机构44393 深圳精智联合知识产权代理有限公司;
代理人夏声平
地址中国台湾桃园市平镇区环南路2段11号18楼
入库时间 2023-06-19 09:46:20

说明书

技术领域

本发明涉及图形文件检索技术领域，尤其涉及一种对象识别装置和一种对象识别方法。

背景技术

一般而言，在图形文件格式的档案中，往往无法在图形页面中针对特定的文字或图式进行搜寻。举例而言，论文、专利或书籍的档案常常属于图形文件格式。由于档案中整个页面的内容为图形的格式，这将造成无法通过文字或图式搜寻方式查看文章内容，从而在阅读上有许多不便(例如，当阅读到页面上的文字提到有关图式或表格时，必须要翻阅文章内容以使用肉眼搜寻)。

此外，图形文件格式的档案中也常常没有明确标示文章段落。因此，当要阅读特定章节段落时，必须要自行卷页并用肉眼查察，这也导致文件不容易阅读及搜寻的问题。有鉴于此，要如何解决图形文件格式的档案的阅读与搜寻的困难是本领域技术人员急欲解决的问题。

发明内容

因此，本发明实施例公开一种对象识别装置和一种对象识别方法，以解决图形文件格式的档案的阅读与搜寻问题。

具体地，本发明实施例公开一种对象识别装置，包括：存储器，用于存储多个指令；处理器，连接该存储器，并用于加载并执行该多个指令以：对第一档案信息中的多个对象进行对象识别，以产生多个对象数据；根据该多个对象数据产生该多个对象数据彼此间相关的对象相关信息；根据该对象相关信息产生第二档案信息，其中该第二档案信息包含供选择操作的该多个对象；以及当接收该多个对象中之一的第一对象对应的第一选择操作指令时，根据该对象相关信息产生与该第一对象相关的第一对象数据。

在本发明的一个实施例中，该处理器还用于：根据多个文件信息以利用机器学习方法产生多个识别模型，并利用该多个识别模型对该第一档案信息中的该多个对象进行对象识别，以产生该多个对象数据。

在本发明的一个实施例中，该处理器还用于：利用该多个识别模型判断该多个对象的意义，并根据该多个对象的意义从该多个对象产生对象目录表，并将该对象目录表嵌入该第二档案信息，其中该对象目录表包括多个对象种类；以及当接收该对象目录表中的该多个对象种类之一的第一对象种类对应的第二选择操作指令时，根据该对象相关信息产生与该第一对象种类相关的第二对象数据。

在本发明的一个实施例中，对象识别装置还包括：显示器，连接该处理器，并用于显示该第一对象数据或该第二对象数据。

在本发明的一个实施例中，该对象相关信息为对象树信息，且该处理器还用于：判断该多个对象数据彼此间的多个链接关系数据，以根据该多个链接关系数据产生该多个对象数据的该对象树信息，并将该对象树信息嵌入该第二档案信息。

另外，本发明实施例公开一种对象识别方法，包括：对第一档案信息中的多个对象进行对象识别，以产生多个对象数据；根据该多个对象数据产生该多个对象数据彼此间相关的对象树信息；根据该对象相关信息产生第二档案信息，其中该第二档案信息包含供选择操作的该多个对象；以及当接收该多个对象中之一的第一对象对应的第一选择操作指令时，根据对象树信息搜寻该第二档案信息，以产生与该第一对象相关的第一对象数据。

在本发明的一个实施例中，对该第一档案信息中的该多个对象进行该对象识别以产生该多个对象数据的步骤包括：根据多个文件信息以利用机器学习方法产生多个识别模型，并利用该多个识别模型对该第一档案信息中的该多个对象进行对象识别，以产生多个对象数据。

在本发明的一个实施例中，还包括：利用该多个识别模型判断该多个对象的意义，并根据该多个对象的意义从该多个对象产生对象目录表，并将该对象目录表嵌入该第二档案信息，其中该对象目录表包括多个对象种类；以及当接收该对象目录表中的该多个对象种类中之一的第一对象种类对应的第二选择操作指令时，根据该对象相关信息产生与该第一对象种类相关的第二对象数据。

在本发明的一个实施例中，还包括：通过显示器显示该第一对象数据或该第二对象数据。

在本发明的一个实施例中，根据该多个对象数据产生该多个对象数据彼此间相关的该对象树信息的步骤包括：判断该多个对象数据彼此间的多个链接关系数据，以根据该多个链接关系数据产生该多个对象数据的该对象树信息，并将该对象树信息嵌入该第二档案信息。

上述技术方案可以具有如下优点或有益效果：可以让使用者选择或搜寻档案中的对象，并响应于用户点选了一个特定对象，产生所有相关于此特定对象的对象，以供用户观看。借此，有利于使用者快速地阅读与搜寻到想观看的文字、图式或段落等。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例涉及的对象识别装置的方块图。

图2是本发明一个实施例涉及的对象识别方法的流程图。

图3A是本发明一个实施例涉及的第一档案信息中的其中一个图形页面的示意图。

图3B是本发明一个实施例涉及的第一档案信息中的其中一个图形页面的示意图。

图4是本发明一个实施例涉及的对象树信息的示意图。

图5A是本发明一个实施例涉及的第二档案信息的示意图。

图5B是本发明一个实施例涉及的显示器显示第一相关对象的示意图。

图6是本发明一个实施例涉及的显示第一相关对象的示意图。

【附图标识说明】

100：对象识别装置；

110：存储器；

120：处理器；

130：显示器；

S201-S207：对象识别方法的步骤；

301-303、501-503：对象。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例涉及的对象识别装置的方块图。参照图1，本实施例的对象识别装置100包括存储器110与处理器120。存储器110可存储多个指令。处理器120可通讯连接存储器110，并用于加载并执行上述的多个指令。针对上述通讯连接的方法，处理器120可以有线或无线的方式连接存储器110。

对于有线方式而言，处理器120可以是通用串行总线(universal serial bus，USB)、RS232、通用异步接收器/传送器(universal asynchronous receiver/transmitter，UART)、内部整合电路(I2C)、序列周边接口(serial peripheral interface，SPI)、显示端口(display port)、雷电端口(thunderbolt)或局域网络(local area network，LAN)接口进行有线通讯连接，并没有特别的限制。对于无线方式而言，处理器120可以是利用无线保真(wireless fidelity，Wi-Fi)模块、无线射频识别(radio frequency identification，RFID)模块、蓝芽模块、红外线模块、近场通讯(near-field communication，NFC)模块或装置对装置(device-to-device，D2D)模块进行无线通信连接，也没有特别的限制。

在一些实施例中，存储器110例如是任何型态的固定式或可移动式的随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、闪存(flashmemory)、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)或类似组件或上述组件的组合。

在一些实施例中，处理器120例如是中央处理单元(central processing unit，CPU)，或是其他可程序化之一般用途或特殊用途的微控制单元(micro control unit，MCU)、微处理器(microprocessor)、数字信号处理器(digital signal processor，DSP)、可程序化控制器、特殊应用集成电路(application specific integrated circuit，ASIC)、图形处理器(graphics processing unit，GPU)、算数逻辑单元(arithmetic logic unit，ALU)、复杂可程序逻辑装置(complex programmable logic device，CPLD)、现场可程序化逻辑门阵列(field programmable gate array，FPGA)或其他类似组件或上述组件的组合。

在一些实施例中，对象识别装置100还可以包括显示器130，其中显示器130例如是阴极射线管(cathode ray tube)显示器、电浆(plasma)显示器、电致发光(electroluminescence，EL)显示器、液晶(liquid crystal，LC)显示器、触控(touchpanel)显示器、扩增实境(augmented reality，AR)显示器或虚拟现实(virtual reality，VR)显示器等各种供观看或查阅档案信息或图像信息的显示器。

图2是本发明一个实施例涉及的对象识别方法的流程图。同时参照图1与图2，本实施例的方法适用于图1的对象识别装置100，以下即搭配对象识别装置100中各装置之间的连接关系来说明本发明实施例公开的对象识别方法的详细步骤。

首先，在步骤S201中，处理器120可对第一档案信息中的多个对象进行对象识别(object detection)，以产生多个对象数据。换言之，处理器120可对第一档案信息进行对象识别，并识别出多个对象，以根据这些对象产生多个对象数据。

在一些实施例中，上述对象例如是属于窗体(tables)、图式(images)(包括2D平面图、3D立体图)、图表目录(list of illustrations)、章节目录(table of contents，TOC)、章节段落标题(headings)、文字(text)或其他内容的对象等。

在一些实施例中，第一档案信息例如是由外部装置(未绘出)预先存储或产生的图形文件格式的档案信息(例如，由外部摄影装置拍摄的论文、专利或书籍文件等所产生的图像文件案信息，或者由影像服务器存储的论文、专利或书籍文件等的图像文件案信息)。在另一些实施例中，第一档案信息例如是预先存储于存储器110中的图形文件格式的档案信息。

在一些实施例中，第一档案信息例如是位图(bitmap，BMP)、联合图像专家组(joint photographic experts group JPG)、标签图文件格式(tagged image fileformat，TIFF)、可携式文件格式(portable document format，PDF)等图形文件格式的档案信息。

在一些实施例中，处理器120可根据多个文件信息以利用机器学习(machinelearning)方法产生多个识别模型，并利用多个识别模型对第一档案信息中的多个对象进行对象识别，以产生多个对象数据，其中机器学习算法例如是可以通过卷积神经网络(convolutional neural networks，CNN)、递归神经网络(recurrent neural network，RNN)、深度学习(deep learning)或规则式系统(rule-based systems)等方式来执行。

在进一步的实施例中，处理器120可根据不同类型文件的文件信息(例如，各种论文、专利或书籍文件)以利用机器学习方法建立适用的多个识别模型，其中识别模型例如是可进行表格对象识别、2D平面图式对象识别、3D立体图式对象识别、目录对象识别、章节段落对象识别、文字识别以及其他可定义的类型的识别(例如，文章中是否出现人物之识别、数值之识别、化学式之识别、化合物之识别、物品之类型识别等)等的模型。

换言之，处理器120可根据不同类型文件的文件信息预先训练针对各种不同类型的对象的识别模型，以利用这些训练好的模型对第一档案信息中的对象进行识别，并产生对象数据。

在进一步的实施例中，处理器120可利用上述多个识别模型与图像处理技术识别各对象的位置信息及各对象的大小区块信息(即，各对象在第一档案信息中的位置坐标与尺寸)。举例而言，处理器120可预先训练针对各种对象的位置与大小的识别模型，并对第一档案信息中的图形页面进行分析，以识别并产生包括各对象的像素的坐标信息及各对象的像素的大小区块信息。

在进一步的实施例中，处理器120可利用上述多个识别模型判断多个对象的意义。详细而言，处理器120可利用多个识别模型对对象进行语意识别与图式识别，并借此判断出多个对象的意义。处理器120还可以根据多个对象的意义产生多个对象类型(即，处理器120可判断出哪些对象是属于相同对象类型的对象(例如，判断出多个对象属于窗体的对象))与对象种类(即，处理器120可判断出哪些对象是属于相同对象(例如，若判断出多个对象皆为「element member」，可将这些对象判断属于相同的对象))，其中对象类型例如是窗体、图式、图表目录、章节目录、章节段落标题等。

借此，处理器120可为属于相同对象的对象配置相同的识别符(detectionidentification)。进一步而言，处理器120可为各对象设定特定的标示符，并将这些标示符指示为多个对象数据。

再者，在步骤S203中，处理器120可根据多个对象数据产生多个对象数据彼此间相关的对象相关信息。换言之，处理器120可根据多个对象数据判断多个对象数据彼此间的多个关联性，以根据这些关联性产生对象相关信息。

在一些实施例中，处理器120可根据多个对象的意义产生多个对象数据彼此间的多个链接关系数据。借此，处理器120可利用这些链接关系数据产生对象相关信息。

举例而言，图3A是本发明一个实施例涉及的第一档案信息中的其中一个图形页面的示意图，且图3B是本发明另一个实施例涉及的第一档案信息中的其中一个图形页面的示意图。同时参照图3A与图3B，若识别出对象301为「22」、对象302为「element member」、对象303为「22」以及对象303为对象302后的对象，则可利用机器学习方法判断出对象302的意义为「组件构件」，且对象301的意义与对象303的意义皆为「组件构件的标号」。借此，可产生指示对象301的识别符与对象302与对象303的识别符具有相关性的链接关系数据，并以相同的方法，可产生指示所有对象的识别符彼此之间的多个链接关系数据，并利用这些链接关系数据产生对象相关信息。

在一些实施例中，参照图1与图2，处理器120可从第一档案信息识别至少一个图表目录的对象，并根据至少一个图表目录的对象与第一档案信息中的多个对象产生至少一个图表目录的对象对应的多个图式的对象与多个窗体的对象，进而据此产生至少一个图表目录的对象与对应的多个图式的对象、多个窗体的对象之间的多个链接关系数据。此外，若处理器120从第一档案信息无法识别出至少一个图表目录的对象，处理器120可从第一档案信息中识别多个图式的对象与多个窗体的对象，并产生多个图式的对象与多个窗体的对象对应的至少一个图表目录的对象，进而产生多个图式的对象、多个窗体的对象以及至少一个图表目录的对象之间的多个链接关系数据。

在一些实施例中，处理器120可从第一档案信息识别多个章节段落标题的对象与至少一个章节目录的对象，并可识别至少一个章节目录的对象对应的章节段落标题的对象，进而据此产生多个章节段落标题的对象与至少一个章节目录的对象之间的多个链接关系数据。若处理器120从第一档案信息无法识别至少一个章节目录的对象，处理器120可根据多个章节段落标题的对象产生对应的至少一章节目录的对象，并据此产生多个章节段落标题的对象与至少一个章节目录的对象之间的多个链接关系数据。

接着，在步骤S205中，处理器120可根据对象相关信息产生第二档案信息，其中第二档案信息包含供选择操作的多个对象。换言之，处理器120所产生的第二档案信息可包含供选择操作的多个对象，其中第二档案信息可以是任意格式的包含供选择操作的多个对象的档案，并没有特别的限制。

在一些实施例中，对象相关信息可以是一个对象树(object tree)信息。在进一步的实施例中，对象树信息可以包括各对象的对象数据、各对象的位置信息、各对象的大小区块信息以及各对象的链接关系数据。举例而言，图4是本发明一个实施例涉及的对象树信息的示意图。参照图4，当判断出第一档案信息中的多个对象的意义时，可产生第一档案信息的根结点，并根据多个对象的意义判断出多个对象对应的多个对象类型。借此，可以多个对象类型作为第一层节点(例如，对象类型1的节点)。

此外，在形成第一层节点后，可以多个对象类型对应的多个对象数据作为第二层节点(例如，对象数据1的节点)，并将各对象类型的节点与其对应的所有对象数据的节点相连接(例如，将对象类型1的节点连接对象数据1的节点与其他属于对象类型1的对象数据的节点)。如此一来，便可将多个对象数据对应的多个位置信息、多个大小区块信息以及多个链接关系数据作为第三层节点(例如，位置信息1、大小区块信息1以及链接关系数据1的节点)，并将各对象数据的节点与其对应的位置信息、大小区块信息以及链接关系数据的节点相连接(例如，将对象数据1的节点连接位置信息1、大小区块信息1以及链接关系数据1的节点)。

在进一步的实施例中，参照图1与图2，处理器120可将对象树信息嵌入第二档案信息。举例而言，处理器120可产生一个具有包含供选择操作的多个对象的属于PDF文件格式的第二档案信息，并可将上述的对象树信息嵌入此属于PDF文件格式的第二档案信息。

最后，在步骤S207中，当处理器120接收多个对象中之一的第一对象对应的第一选择操作指令时，处理器120可根据对象相关信息产生与第一对象相关的第一对象数据。换言之，当用户点选第二档案信息中的一个第一对象时，处理器120可根据对象相关信息从多个对象数据产生与第一对象相关的对象数据。

在一些实施例中，处理器120可在第二档案信息嵌入多个对象对应的多个点选对象，其中多个点选对象可以是注释的标签或者超连接(hyperlink)。

举例而言，图5A是本发明一个实施例涉及的第二档案信息的示意图。为让本发明能更明显易懂，在此仅以三个对象对应的点选对象501～503(设置于对象的位置的上方)作为例子。参照图5A，针对第二档案信息中的所有对象皆可额外设置对应的点选对象，此点选对象可设置于任何邻近于对象的位置(例如，对象的位置的上方)，并没有对点选对象在第二档案信息中的位置有特别的限制。进一步而言，「element member」、「22」以及「FIG.6」为识别出的对象，且在对象「element member」、对象「22」以及对象「FIG.6」的上方分别设置点选对象501～503以供使用者选择。此外，也可不设置这些点选对象，并让用户直接选择对象(即，直接点选对象「element member」、对象「22」或对象「FIG.6」)。通过上述的选择操作，便可根据对象相关信息从多个对象数据产生与第一对象相关的对象数据。

在一些实施例中，参照图1与图2，第二档案信息可包括对象目录表，且处理器120可利用上述多个识别模型判断多个对象的意义，并根据多个对象的意义从多个对象产生对象目录表，其中对象目录表包括多个对象种类。借此，当接收对象目录表中的多个对象种类中之一的第一对象种类对应的第二选择操作指令时，根据对象相关信息产生与第一对象种类相关的第二对象数据。举例而言，以下表一示意出了对象目录表的例子。

表1

当用户选择表一中的对象种类「element member」时，处理器120可立即根据对象相关信息产生与对象种类「element member」相关的第二对象数据(例如，产生对象「22」的识别符或对象「element member」对应的图式与表格等)。

在一些实施例中，处理器120可通过显示器130可显示上述的与第一对象相关的第一对象数据对应的第一相关对象，或者是显示与第一对象种类相关的第二对象数据对应的第二相关对象。

举例而言，图5B是本发明一个实施例涉及的显示器显示第一相关对象的示意图。为让本发明能更明显易懂，在此仅以一个对象「FIG.6」对应的点选对象503(设置于对象的位置的上方)作为例子。参照图5B，当使用者点选第二档案信息中的对象503时，可直接浮现出点选对象503对应的第一相关对象(即，对象「FIG.6」对应的图式的对象)。此外，图6是本发明另一个实施例涉及的显示第一相关对象的示意图。为让本发明能更明显易懂，在此仅以第一相关对象「element member」作为例子。同时参照图3B与图6，当使用者点选第二档案信息中的对象303时，可立即标注出所有第一相关对象「element member」。值得注意的是，当使用者点选第二档案信息中的对象303时，也可直接浮现出对象303相关的图式或窗体。此外，同时参照图3A与图6，当使用者点选第二档案信息中的对象301时，可直接浮现出对象301相关的第一相关对象「22」的意义(即，element member)。

在一些实施例中，参照图1与图2，当处理器120识别出六面图的对象时，处理器120可将六个投影面组合为一个3D立体图式的档案信息(例如，图形库传输格式(GraphicsLibrary Transmission Format，gLTF)的文件格式或已压缩通用场景描述(universalscene description zipped，USDZ)的文件格式)，并将此档案信息嵌入第二档案信息。当用户点选第二档案信息中的3D立体图式的档案信息对应的图式的名称时，可通过显示器130浮现3D立体图式的档案信息。

在一些实施例中，第二档案信息可包括至少一个图表目录的对象与至少一个章节目录的对象，其中至少一个图表目录的对象可包括对应的多个图式的对象与多个表格的对象，且至少一个章节目录的对象可包括对应的多个章节段落标题的对象。

在进一步的实施例中，当使用者通过处理器120与显示器130点选第二档案信息中的任意图表目录的对象中的任意对象或任意章节目录的对象中的任意对象时，处理器120可通过显示器130直接标注并显示上述点选的对象相关的第一对象数据(例如是以图5B或图6的显示方法)。

在进一步的实施例中，处理器120可将多个点选对象设置于任何邻近于至少一个图表目录的对象中的所有对象的位置以及任何邻近于至少一个章节目录的对象中的所有对象的位置。

在进一步的实施例中，当使用者通过处理器120与显示器130点选第二档案信息中的任意图表目录的对象中的任意点选对象或任意章节目录的对象中的任意点选对象时，处理器120可通过显示器130直接标注并显示上述点选的对象相关的第一对象数据(例如是以图5B或图6的显示方法)。

在一些实施例中，使用者可通过处理器120以利用放大、缩小、旋转操作指令对显示器130所显示的图式进行各种操作。

综上所述，本发明提出的对象识别装置可结合对象识别与对象相关信息的识别的方法从图形文件格式的档案产生一个包含可供选择的对象的档案，其中各对象之间可存在链接关系。如此一来，可让使用者点选或搜寻档案中的对象，并响应于用户点选了一个特定对象，产生所有相关于此特定对象的对象，以供用户观看。借此，有利于使用者快速地阅读与搜寻到想观看的文字、图式或段落等。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对象识别方法、对象识别装置及存储介质 [P] . 中国专利： CN112883791A . 2021-06-01
2. 对象识别方法、对象识别装置和电子设备 [P] . 中国专利： CN111435430A . 2020-07-21
3. Object recognition device, object recognition method, program for object recognition method, and recording medium having recorded thereon program for object recognition method [P] . 美国专利： US8160366B2 . 2012-04-17

机译：对象识别装置，对象识别方法，用于对象识别方法的程序以及其上记录有用于对象识别方法的程序的记录介质
4. OBJECT RECOGNITON DEVICE, OBJECT RECOGNITION METHOD, PROGRAM FOR OBJECT RECOGNITION METHOD, AND RECORDING MEDIUM HAVING RECORDED THERON PROGRAM FOR OBJECT RECOGNITION METHOD [P] . IN2009DE01042A . 2010-04-30

机译：对象识别装置，对象识别方法，用于对象识别方法的程序以及具有用于对象识别方法的已记录的赛隆程序的记录介质
5. Object recognition device, object recognition method, program for object recognition method, and recording medium having recorded thereon program for object recognition method [P] . 欧洲知识产权局专利： EP2136319A2 . 2009-12-23

机译：对象识别装置，对象识别方法，用于对象识别方法的程序以及其上记录有用于对象识别方法的程序的记录介质