首页> 中国专利> 规则发现程序、规则发现处理和规则发现装置

规则发现程序、规则发现处理和规则发现装置

摘要

规则发现程序、规则发现处理和规则发现装置。一种规则发现程序,其使得能够通过自动地搜索对于产生多媒体数据中的规则有效的特征部分来发现规则。输入样本数据项后,搜索单元选择构成各个样本数据项的数据阵列上的多个评估位置,以产生选择模式。接下来,集成单元对该选择模式中的该多个评估位置进行集成,以产生预定数量的评估区域,并且候选规则产生单元产生表示为样本数据项所共有的关系的候选规则。候选规则评估单元对所产生的候选规则进行评估,并且当该候选规则满足预定标准时,输出单元将候选规则作为规则输出。

著录项

  • 公开/公告号CN1766874A

    专利类型发明专利

  • 公开/公告日2006-05-03

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN200510055920.4

  • 申请日2005-03-18

  • 分类号G06F17/30;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人李辉

  • 地址 日本神奈川县

  • 入库时间 2023-12-17 17:12:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-08

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20080514 终止日期:20180318 申请日:20050318

    专利权的终止

  • 2008-05-14

    授权

    授权

  • 2006-06-28

    实质审查的生效

    实质审查的生效

  • 2006-05-03

    公开

    公开

说明书

技术领域

本发明涉及用于发现多个信息项之间的关系的规则发现程序、规则发现处理和规则发现装置,更具体地,该规则发现程序、规则发现处理和规则发现装置用于发现多媒体数据项和分别与这些多媒体数据项相关联的文本数据项之间的关系。

背景技术

目前,在多种领域中使用了基于多媒体数据的状态分析。例如,可以通过采集并分析组件的图像来确定在制造中使用的组件(部件)的图像是否令人满意。目前在包括静态或运动图像的分析、体数据(volumedata)的分析、时间系列信息的分析、流体分析,机械组件的性能分析、医学图像的诊断、大脑功能的识别(clarification)、市场分析等在内的广泛范围内使用基于诸如上述图像的多媒体数据的多种类型的状态估测(例如,疾病的诊断)。

在基于多媒体数据进行状态分析的情况下,当通过一规则(科学规则)来表示由多媒体数据表示的对象的特性和由多媒体数据表示的信息之间的关系时,可以提高多媒体数据的分析效率。例如,在存在组件的照片图像,并且在进行组件是否令人满意的确定时知道应该关注的照片图像的区域的情况下,可以根据该照片图像容易地进行该确定。

因此,需要对知识发现提供支持的装置(例如,图像挖掘(mining)装置),该知识与多媒体数据和表示对象特性的文本数据之间的关系有关。在这种情况下,需要确定与文本数据具有强相关性的多媒体数据的一部分(例如,这表示该组件是否令人满意)。

此时,可以将多媒体数据的特征部分确定为与文本数据具有强相关性的上述部分。从多媒体数据中提取预定特征(例如,在多媒体数据表示图像的情况下,为图像特征)的多种方法是公知的。由于存在包括相对普通的特征(例如,颜色)和对于个别领域特定的特征(例如,图像的某些部分的形状)在内的许多图像特征,所以难以预先指定适当的图像特征(与文本数据具有强相关性)。

考虑上述情况,提出了一种方法,用于在根据多对图像数据项和与这些图像数据项相关联的字符数据项(文本数据项),来发现与图像特征和文本特征之间的关系相关的知识(规则)的处理中,基于操作者的视觉观察来支持提取图像特征的操作。此时,可以设置表示图像和文本(即,表示事件之间的相关程度的规则)之间关系的相关规则,并显示相关规则的评估结果(例如,如日本未审查专利公报No.2003-67401中所公开的)。

但是,根据日本未审查专利公报No.2003-67401中公开的技术,人为地确定图像特征,因此产生下列问题。

(a)劳动成本增加。

(b)所发现的规则可能取决于个人观点。

(c)可能忽略难以发现的规则。

为了解决上述问题,由本专利申请的受让人提交的日本专利申请No.2003-433233公开了一种技术。根据该技术,对图像执行小波变换,并从通过小波变换产生的系数中提取下述系数,基于该系数可以确定文本数据的特征。

然而,在日本专利申请No.2003-433233中公开的上述技术中,通过分析仅仅获得了各个系数和文本数据之间的关系。因此,即使当文本数据和位于图像中的多个离散位置中的部分数据之间存在强相关性时,也不能提取表示该相关性的规则。例如,在某些情况下,即使当文本数据与区域A中的部分数据之间,或者文本数据与区域B中的部分数据之间没有相关性时,在文本数据与区域A和B中的部分数据的总和之间也可能存在强相关性。

此外,通常通过多个数据元(例如,图像的各个像素的亮度)来构成各个多媒体数据项。因此,如果将各个数据元作为单个变量进行处理,则这些变量的可能组合的数量会非常大。但是,通过完全检查这些变量的极大数量的可能组合,难以实时精确地获得文本数据和这些变量的极大数量的可能组合之间的关系。

发明内容

鉴于上述问题提出了本发明,并且本发明的目的是提供一种对于规则的产生有效的规则发现程序、规则发现处理和规则发现装置,其能够通过自动地搜索多媒体数据的特征部分,来发现表示多媒体数据项和文本数据项之间关系的规则。

为了实现上述目的,提供了一种规则发现程序,用于发现表示多媒体数据项和分别与这些多媒体数据项相关的文本数据项之间关系的规则。该规则发现程序使计算机包括:输入接收单元,用于接收分别由多媒体数据项和文本数据项形成的对所构成的样本数据项;搜索单元,用于执行选择数据阵列的评估位置的操作,并产生表示评估位置的选择模式,其中该数据阵列构成样本数据项中的各个多媒体数据项,而评估位置是要进行评估的位置;集成单元,用于执行对由搜索单元选择的数据阵列的评估位置进行集成,以产生一个或更多个待评估的评估区域的操作;候选规则产生单元,用于执行下述操作,该操作通过由一个或更多个数值来表示一个或更多个评估区域中的数据,在各个多媒体数据项中产生一个或更多个评估区域的特征数据,并产生表示各个多媒体数据项中的一个或更多个评估区域的特征数据和与这些多媒体数据项相关的文本数据项之一之间的关系的候选规则,其中由该候选规则表示的关系为所有多媒体数据项所共有;候选规则评估单元,用于执行下述操作,该操作对由候选规则产生单元所产生的候选规则所表示的关系的精确度进行评估,以获得评估结果;以及输出单元,用于执行下述操作,该操作在评估结果满足预定标准时,将由候选规则产生单元产生的候选规则作为规则输出。根据数据阵列的评估位置的不同组合来重复搜索单元、集成单元、候选规则产生单元、候选规则评估单元以及输出单元的操作,直到满足完成搜索操作的预定条件为止。

此外,为了实现上述目的,提供了一种规则发现处理,用于通过使用计算机来发现表示多媒体数据项和分别与这些多媒体数据项相关的文本数据项之间关系的规则。该规则发现处理包括以下步骤:(a)通过输入接收单元来接收分别由多媒体数据项和文本数据项形成的对所构成的样本数据项;(b)通过搜索单元来选择数据阵列的评估位置,并生成表示评估位置的选择模式,其中该数据阵列构成样本数据项中的各个多媒体数据项,而该评估位置是要进行评估的位置;(c)通过集成单元对在步骤(b)中选择的数据阵列的评估位置进行集成,以产生要进行评估的一个或更多个评估区域;(d),通过用一个或更多个数值来表示一个或更多个评估区域中的数据,由候选规则产生单元在各个多媒体数据项中产生一个或更多个评估区域的特征数据,并且产生表示各个多媒体数据项中的一个或更多个评估区域的特征数据和与这些多媒体数据项相关的文本数据项之一之间关系的候选规则,其中由候选规则表示的关系为所有多媒体数据项所共有;(e)通过候选规则评估单元对步骤(d)中产生的候选规则所表示的关系的精确度进行评估,以获得评估结果;以及(f)当该评估结果满足预定标准时,通过输出单元将步骤(d)中产生的候选规则作为规则输出。根据数据阵列的评估位置的不同组合重复步骤(b)至(f)中的操作,直到满足完成搜索操作的预定条件为止。

此外,为了实现上述目的,提供了一种规则发现装置,用于发现表示多媒体数据项和分别与这些多媒体数据项相关的文本数据项之间关系的规则。该规则发现装置包括:输入接收单元,用于接收分别由多媒体数据项和文本数据项形成的对所构成的样本数据项;搜索单元,用于执行下述操作,该操作选择数据阵列的多个评估位置,并产生表示这些评估位置的选择模式,其中该数据阵列构成样本数据项中的各个多媒体数据项,而评估位置是要进行评估的位置;集成单元,用于执行对由搜索单元选择的数据阵列的评估位置进行集成的操作,以产生要进行评估的一个或更多个评估区域;候选规则产生单元,用于执行下述操作,该操作通过由一个或更多个数值来表示一个或更多个评估区域中的数据,在各个多媒体数据项中产生一个或更多个评估区域的特征数据,并且产生表示各个多媒体数据项中的一个或更多个评估区域的特征数据和与这些多媒体数据项相关的文本数据项之一之间关系的候选规则,其中由候选规则表示的关系为所有多媒体数据项所共有;候选规则评估单元,用于执行下述操作,该操作对由候选规则产生单元所产生的候选规则表示的关系的精确度进行评估,以获得评估结果;以及输出单元,用于执行操作,该操作在该评估结果满足预定标准时,将由候选规则产生单元产生的候选规则作为规则输出。根据该数据阵列的评估位置的不同组合重复搜索单元、集成单元、候选规则产生单元、候选规则评估单元以及输出单元的操作,直到满足完成搜索操作的预定条件为止。

当结合通过示例的方式显示本发明的优选实施例的附图时,根据以下说明,本发明的上述及其它目的、特征和优点将变得明了。

附图说明

图1是表示在实施例中实现的本发明的概念图。

图2表示与PC机壳形状相对应的温度分布图像。

图3表示其中使用了本发明的实施例的系统的结构。

图4表示在实施例中使用的规则发现装置的硬件结构。

图5是表示规则发现装置的功能的方框图。

图6表示通过使用遗传算法在像素的选择中用于对各代进行交替的方法。

图7表示了处理顺序,其中重复进行评估位置的集成和多重回归分析。

图8是表示根据第一实施例的用于产生规则的处理顺序的流程图。

图9表示其上显示有规则的画面的示例。

图10是表示根据第二实施例的用于产生规则的处理顺序的流程图。

图11是表示根据第三实施例的用于产生规则的处理顺序的流程图。

图12是表示对逐个像素进行分析的处理顺序的流程图。

具体实施方式

将参照附图描述本发明的优选实施例,其中在所有附图中,相同的标号表示相同元件(element)。

首先,说明在实施例中实现的本发明的概要,然后说明实施例的细节。

图1是表示在实施例中实现的本发明的操作的概念图。如图1所示,根据本发明的规则发现程序或规则发现装置包括输入接收单元1、搜索单元2、集成单元3、候选规则产生单元4、候选规则评估单元5和输出单元6。

输入接收单元1接收多个样本数据项7a、7b和7c的输入,该多个样本数据项7a、7b和7c分别由多对多媒体数据项7aa、7ba和7ca以及文本数据项7ab、7bb和7cb构成。

搜索单元2选择数据阵列的多个评估位置(即,要进行评估的位置),并产生表示所选择的多个评估位置的选择模式8a,其中该数据阵列构成多个样本数据项7a、7b和7c中的多媒体数据项7aa、7ba和7ca中的每一个。例如,在多媒体数据项7aa、7ba和7ca是图像数据项的情况下,该数据阵列的评估位置是像素位置,并且由x-和y-坐标表示。

此外,搜索单元2改变数据阵列的评估位置(的组合),并重复进行用于产生选择模式8a的处理,直到满足完成搜索操作的预定条件为止。例如,搜索单元2重复进行用于产生选择模式8a的处理,直到所产生的选择模式的数量超过预定数量为止。

集成单元3集成各个选择模式8a中的数据阵列的多个评估位置,以产生一个或更多个(或预定数量的)评估区域8b和8c,作为要进行评估的区域。例如,集成单元3集成数据阵列的多个评估位置中相邻的多个评估位置。该预定数量例如为两个。

候选规则产生单元4通过由一个或更多个数值来表示一个或更多个评估区域中的数据,产生各个多媒体数据项7aa、7ba和7ca中的一个或更多个评估区域8b和8c的特征数据,并且产生候选规则8d,该候选规则8d表示各个多媒体数据项中的一个或更多个评估区8b和8c的特征数据和与这些多媒体数据项相关的多个文本数据项7ab、7bb和7cb中的一个之间的关系,其中该关系为所有多媒体数据项7aa、7ba和7ca所共有。例如,一个或更多个评估区域8b和8c中的每一个的特征数据是评估区域中的数据的平均值,并且可以通过多重回归分析来获得候选规则8d。根据多重回归分析,通过公式来表示被称为说明性变量的多个变量X1、X1,…,Xn与被称为目标变量的其它变量Y之间的关系,并进行分析,以确定说明性变量的变化对目标变量的变化的影响程度。

候选规则评估单元5对由候选规则产生单元4产生的候选规则8d表示的关系的精确度进行评估。例如,当通过多重回归分析获得候选规则8d时,可以基于由候选规则8d表示的预测公式的多重相关系数的值来对候选规则8d进行评估。

当由候选规则评估单元5获得的评估结果表示该候选规则满足预定标准时,输出单元6将该候选规则作为规则9输出。例如,该规则9包含分别表示用于产生规则9的评估区域8b和8c的评估区域信息项9a和9b,以及表示各个多媒体数据项7aa、7ba和7ca中的评估区域8b和8c的特征数据与这些多媒体数据项中的文本数据项7ab、7bb和7cb中的一个之间关系的预测公式9c。

具有上述功能的该结构如下进行操作。

当输入接收单元1接收到多个文本数据项7ab、7bb和7cb时,搜索单元2选择数据阵列的多个评估位置(即,要进行评估的位置),并且产生表示所选择的多个评估位置的选择模式8a,其中该数据阵列构成多个样本数据项7a、7b和7c中的各个多媒体数据项7aa、7ba和7ca。搜索单元2重复进行用于产生选择模式8a的处理,直到满足完成搜索操作的预定条件为止。

接下来,集成单元3对各个选择模式8a中的数据阵列的评估位置进行集成,以产生预定数量的(一个或更多个)评估区域8b和8c,作为要进行评估的区域。

然后,候选规则产生单元4通过由一个或更多个数值来表示一个或更多个评估区域中的数据,产生各个多媒体数据项7aa、7ba和7ca中的一个或更多个评估区域8b和8c中的每一个的特征数据,并且产生候选规则8d,该候选规则8d表示各个多媒体数据项中的一个或更多个评估区域8b和8c的特征数据和与这些多媒体数据项相关的文本数据项7ab、7bb和7cb中的一个之间的关系,其中该关系为所有多媒体数据项7aa、7ha和7ca所共有。

随后,规则候选评估单元5对由候选规则产生单元4产生的候选规则8d表示的关系的精确度进行评估。在由候选规则评估单元5获得的评估结果表示候选规则满足预定标准的情况下,输出单元6将该候选规则作为规则9输出。

如上所述,可以从样本数据项7a、7b和7c中自动地提取规则9。由于集成单元3对评估位置进行集成,所以即使当构成原始多媒体数据的数据元的数量很大时,也可以有效地产生候选规则。

此外,由于可以从样本数据项7a、7b和7c中自动地提取规则9,所以可以减小劳动成本。此外,由于可以获得文本数据和多媒体数据中的多个区域之间的关系,所以可以增大提取不易人为发现的多媒体数据的特征的可能性。此外,由于根据预定的过程对候选规则进行评估,所以可以以客观的方式来确定规则。

下面,通过使用多媒体数据为图像数据的示例来解释本发明的实施例。

<第一实施例>

在第一实施例中,将本发明用于工业产品的设计阶段。具体地,将本发明应用于为获得个人电脑的机壳(以下称为PC机壳)强度与浇注在模具中的材料的温度分布之间的关系而进行的分析。

图2表示与PC机壳形状相对应的温度分布图像。

在设计用于个人电脑20的机壳的模具时,必须考虑机壳的强度。机壳的强度受到浇注在机壳模具中的材料的温度分布的影响。因此,需要发现用于实现高强度机壳的温度分布的规则。此时,使用仿真器计算温度分布图像30,其表示浇注在模具中的材料的温度分布。

温度分布图像30例如通过色调(或亮度)来表示浇注在模具中的材料的各个位置的温度。此时,必须根据温度分布图像30来发现影响机壳强度的区域30a和30b。例如,在区域30a的温度较高而区域30b的温度较低时机壳强度增大的规则的情况下,希望对机壳的形状进行设计,以实现浇注在模具中的材料的这种温度分布。

图3表示使用了本发明的实施例的系统的结构。如图3所示,温度分布仿真器21与规则发现装置100相连。温度分布仿真器21可以根据机壳的形状,来计算浇注在机壳模具中的材料的温度分布。此外,温度分布仿真器21生成温度分布图像31a、32a和33a,各个温度分布图像31a、32a和33a例如通过色调或亮度来表示浇注在模具中的材料的各个位置的温度。例如,各个温度分布图像31a、32a和33a可以通过较接近于红色的颜色来表示与较高温度值相对应的区域,而通过较接近于蓝色的颜色来表示与较低温度值相对应的区域。

规则发现装置100基于由温度分布图像31a、32a和33a以及机壳强度值31b、32b和33b构成的多个样本数据项31、32和33来生成表示温度分布图像31a、32a和33a与机壳强度值31b、32b和33b之间存在的因果关系的预测公式,其中根据表示模具形状的数据,以及表示由模具产生的机壳强度值的机壳强度值31b、32b和33b来产生温度分布图像31a、32a和33a。

机壳的设计者可以通过使用上述系统来获得下述规则,该规则用于确定所设计的机壳的性能。为此,首先,设计者准备表示具有各种形状的机壳样本的模型数据,然后将该模型数据输入温度分布仿真器21。

温度分布仿真器21基于上述模型数据来计算浇注在上述机壳的模具中的材料的温度分布,产生温度分布图像31a、32a和33a,并将温度分布图像31a、32a和33a输入规则发现装置100。

此外,设计者通过测量来获得所设计的机壳的强度值31b、32b和33b(机壳强度值),并将这些值31b、32b和33b输入规则发现装置100。规则发现装置100保存成对的温度分布图像31a、32a和33a和机壳强度值31b、32b和33b作为样本数据项31、32和33,并且基于样本数据项31、32和33产生规则。

图4表示在实施例中使用的规则发现装置100的硬件结构。整个规则发现装置100由CPU(中央处理器)101控制,RAM(随机存取存储器)102、HDD(硬盘驱动器)103、图形处理装置104、输入接口105以及通信接口106通过总线107与CPU 101相连。

RAM 102临时存储由CPU 101执行的OS(操作系统)程序和应用程序中的至少部分程序,以及CPU 101进行处理所需的各种数据。HDD 103存储OS和应用程序。

监视器11与图形处理装置104相连,图形处理装置104根据来自CPU101的指令使监视器11在屏幕上显示图像。键盘12和鼠标13与输入装置105相连,该输入装置105通过总线107将从键盘12和鼠标13发送的信号传送给CPU 101。

通信接口106与网络10相连,并通过网络10与其它计算机交换数据。

通过使用上述硬件结构,可以实现根据本发明的规则发现装置100的功能。此外,也可以通过使用类似的硬件结构来实现温度分布仿真器21。

在下文中,对通过规则发现装置100来生成规则的方式进行详细说明。

图5是表示规则发现装置的功能的方框图。如图5所示,规则发现装置100包括输入接收单元110、搜索单元120、集成单元130、候选规则产生单元140、候选规则评估单元150以及输出单元160。

输入接收单元110接收分别由多对温度分布图像和机壳强度值构成的多个样本数据项的输入,其中温度分布图像表示各个机壳中的温度分布,并且由温度分布仿真器21提供。然后,输入接收单元110将所接收的样本数据项中的全部或部分作为输入数据传送给搜索单元120。此外,输入接收单元110可以将所选择的部分温度分布图像传送给搜索单元120。

此外,输入接收单元110具有一接口,通过该接口可以接收限制条件(例如设计者的预先知识(advance knowledge)),该限制条件可以通过人工输入提供给规则发现装置100。例如,输入接收单元110可以接收在稍后所述的规则(例如,多重回归分析中的预测公式)中使用的变量数量的上限的操控输入。根据要解决的问题由设计者来设置上述预先知识。

搜索单元120从构成各个温度分布图像的像素的位置中选择在生成候选规则时使用的一个以上的像素的位置作为评估位置,并产生表示评估位置的组合的信息作为选择模式。搜索单元120重复进行用于产生选择模式8a的处理,直到满足完成搜索操作的预定条件为止。

例如,当完成所有可能组合的搜索时,或者当重复次数达到预定的上限时,搜索单元120结束用于产生选择模式的处理。另选地,当通过候选规则评估单元150将候选规则评估为满足预定标准时,可以结束用于产生选择模式的处理。

如果对像素的所有可能组合进行计算,则选择模式的数量变为2N(其中N是像素的数量),并且搜索空间变得非常大。由于处理时间随搜索空间而增加,所以对所有像素进行搜索是不切实际的。因此,应预先确定结束搜索操作的条件。

为了减少处理时间,可以考虑采用近似搜索而不是穷举搜索(对所有可能的组合进行搜索)。近似搜索的具体示例是遗传算法(GA)。另选地,对于组合的搜索可以使用贪婪算法、神经网络等。在该实施例中,通过使用GA来对像素的组合进行搜索。稍后详细说明在该实施例中执行的GA处理。

集成单元130通过选择由搜索单元120产生的选择模式中的多个像素,对由搜索单元120选择的多个评估位置进行集成,以产生评估位置,并根据预定的过程通过预定变量值来表示所选择的像素的值,其中像素是构成各个图像的最小图像元素。

候选规则产生单元140通过使用由集成单元130获得的预定变量的值来产生候选规则,该候选规则描述各个多媒体数据项(温度分布图像)和对应的文本数据项(机壳强度值)之间的关系。具体地,候选规则产生单元140计算与通过对各个温度分布图像进行集成而获得的各个评估区域相对应的像素的平均值,并通过多重回归分析来生成预测公式,其中该预测公式构成候选规则。

在通过各个温度分布图像中的亮度来表示温度的情况下,各个像素值是表示像素亮度的数值,或者在通过各个温度分布图像中的色调来表示温度的情况下,各个像素值是像素的色调。在后一情况下,例如,较红的像素表示较高的温度值,较蓝的像素表示较低的温度值,并且较大的数值表示较高的温度值。可以通过下述计算的反算,根据色调值来获得温度值,通过该计算根据用于产生温度分布图像的温度值来获得色调值。

候选规则评估单元150基于与候选规则相关的信息对由候选规则产生单元140获得的候选规则进行评估。具体地,当通过多重回归分析获得候选规则时,候选规则评估单元150基于多重相关系数对候选规则进行评估。

多重相关系数可以取-1至1范围内的值,并且当预测公式中的误差较小时具有接近于1的绝对值。因此,候选规则评估单元150使用多重相关系数的值作为评估值,候选规则评估单元150基于该评估值来确定是否要提取该候选规则作为规则。例如,当多重相关系数的绝对值等于或大于预定阈值(例如,0.5)时,候选规则评估单元150提取候选规则作为规则。此外,由于在使用多重回归分析的情况下,说明性变量之间的相关系数也是很重要的,所以可以使用说明性变量之间的相关系数作为部分评估项。

当计算了候选规则的评估值,并且确定该评估值等于或大于预定阈值时,输出单元160将候选规则作为规则输出。输出单元160可以输出一个以上的规则。例如,在多重回归分析的情况下,预测公式、多重相关系数、表示与说明性变量相对应的像素选择的信息等构成规则。可以通过可视化(图形显示)来阐明表示与说明性变量相对应的像素选择的信息。设计者考虑以上获得的规则,以将其反映在产品的设计中。

接下来,将详细说明遗传算法(GA)。

在GA的实施中,将所选择的像素的各个组合认为是个体。在第一代中,准备预定数量(例如,32)的个体,其中选择了像素的不同组合。输出单元160在经过几代而产生的个体中重复进行遗传因子的交替操作(例如,交叉和变异),并搜索具有高评估值的至少一个像素组合。在近似搜索的情况下,如上获得的各个组合不是最优解,而是局部最优解。

图6表示通过使用GA算法在像素的选择中用于对各代进行交替的方法。为了简化说明,在图6的示例中,假定从4×4像素中选择,则个体的数量为4。将表示每个像素是否被选择的信息分配给像素作为遗传因子。在图6中,通过阴影线正方形表示所选择的像素,通过空白正方形表示未选择的像素。

考虑第n代中的个体的生成,其中n是自然数。

在这种情况下,搜索单元120确定初始遗传因子(所选择的像素的组合),根据该初始遗传因子产生第n代的个体。例如,搜索单元120以与各个个体的适合程度相对应的概率,从第(n-1)代的个体中选择预定数量的个体。此时,假定可以选择相同的个体一次以上,并且将所选择的个体中的每一个的遗传因子确定为第n代的个体的初始遗传因子。

接下来,搜索单元120对确定了初始遗传因子的个体执行交叉操作。具体地,搜索单元120从个体集合中选择多对个体,在以上多对中确定要交换遗传因子的区域(像素集合),交换位于形成该对的个体的对应位置中的像素的遗传因子,其中各个遗传因子表示是否选择了对应的像素。

例如,在图6的示例中,由个体#1和#2形成一对,而由个体#3和#4形成另一对。在图6中,个体#1和#2的右半边与个体#3和#4的左半边分别是其中要交换遗传因子的各个区域(像素集合)。由此,交换个体#1和#2的右半边中的对应像素的遗传因子,并交换个体#3和#4的左半边中的对应像素的遗传因子。另选地,可以以其它方式来确定其中要交换遗传因子的区域。

随后,搜索单元120执行变异操作。在变异操作中,搜索单元120以随机概率(例如,0.01)来选择像素,交换所选择像素的遗传因子(选择或非选择),然后计算各个个体的适合程度。将通过各个个体中的像素的选择状态的多重回归分析而获得的多重相关系数用作为该适合程度。

为了生成第(n+1)代的个体,以较高的概率为下一代选择第n代的具有较高适合程度的个体。在上述示例中,个体#1、#2、#3和#4的适合程度分别是0.1、0.6、0.4和0.9。因此,为下一代选择个体#1、#2、#3、和#4的概率分别为5%、30%、20%和45%。在图6所示的示例中,选择了个体#4、#2、#4和#3。

此后,对每一代执行用于交叉和变异的相似操作,并且当各代的交替数量超过预定数量(例如,5,000)时结束搜索操作。最后,当至少一个候选规则的适合程度较高时,输出单元160将该至少一个候选规则作为至少一个规则输出。

此外,如果将所选择的位置中的所有像素用作为多重回归分析中的关注变量,则变量的数量变得太大。因此,执行用于对所选择的像素位置进行集成的处理。

接下来,说明包括由集成单元130执行的用于对评估位置进行集成的处理在内的多重回归分析的顺序。

图7表示其中重复评估位置的集成和多重回归分析的处理顺序。为了简化说明,在图7的示例中,假定由三个温度分布图像41、42和43构成样本数据,各个温度分布图像由4×4像素构成。

在第一状态(ST1)中,如图7所示来选择温度分布图像41中的评估位置,其中由阴影正方形表示所选择的像素,而由空白正方形表示未选择的像素。

随后,执行对评估位置进行集成的处理,以实现图7中所示的第二状态(ST2)。在图7的示例中,以下述方式进行集成,在该方式中,由单个变量的值来表示相邻像素。具体地,表示经集成单元130集成的多个像素的(亮度)值的各个预定变量的值是像素值的平均值。由于以上述方式对评估位置进行了集成,所以与在评估中使用表示4×4像素之一的值的变量的情况相比,可以减少在评估中使用的变量数量。在图7的示例中,将第一状态(ST1)下的评估位置集成到第二状态(ST2)下的三个评估区域41a、41b和41c中。

此外,可以设置评估区域的数量的上限。在这种情况下,在处理中仅使用数量不超过该上限的评估区域。此时,在处理中优选地使用包含较大数量的像素的评估区域。在图7的示例中,假设评估区域的数量上限为2。因此,仅选择包含较大数量的像素的评估区域41b和41c用于该处理,并且排除与较小数量的像素相对应的评估区域41a,如图7的第三状态(ST3)所示。

由此,计算与所选择的评估区域41b和41c相对应的变量的值。在该示例中,获得评估区域41b和41c中的像素的亮度值的平均值,分别作为说明性变量x1和x2的值,如图7中的第四状态(ST4)所示。即,x1=12.3和x2=32.5。

对其它温度分布图像42和43也执行确定评估区域和计算说明性变量的值的操作,并由此获得说明性变量的值,如图7中的第五状态(ST5)所示。随后,候选规则产生单元140基于从温度分布图像41、42和43获得的说明性变量的值来执行多重回归分析,并获得如图7中的第六状态(ST6)所示的结果。

在该示例中,基于变量x1和x2的值以及目标变量y的值(为第五状态(ST5)下的各个样本数据项获得的),通过多重回归分析获得预测公式y=a+b×x1+c×x2,其中a、b和c是实数。即,该预测公式表示k维空间中的直线,其中k是目标变量的数量与说明性变量的数量的总和。该预测公式是用于基于说明性变量x1和x2的值来预测目标变量y的值的公式。计算系数a、b和c的值,以在将从各个样本数据项获得的说明性变量x1和x2的值代入该预测公式时,使目标变量y的值的误差最小。

可以根据该预测公式获得多重相关系数。多重相关系数是表示说明性变量与预测公式的匹配程度的数值。多重相关系数的较大绝对值表示预测公式的较高适合程度。因此,当多重相关系数等于或大于预定阈值时,输出该预测公式。例如,Takao Enkawa,″Tahenryo no Data Kaiseki(Multivariate Data Analysis)”,published in Japanese by AsakuraShoten,Japan pp.22-43,1988说明了用于推导预测公式以及多重相关系数的方法的细节。

对通过GA产生的预定数量的不同个体(由评估位置的不同组合形成的不同选择模式)执行用于对评估位置进行集成以及进行上述多重回归分析的处理,直到满足完成搜索操作的预定条件为止。

当说明性变量的数量大于样本数量时多重回归分析没有意义。但是,在图像数据的情况下,像素数量通常大于样本数量,难以使用像素本身的值作为说明性变量。因此,集成处理对于使说明性变量的数量小于样本数量是有效的。

在下文中,参照流程图来说明用于发现规则的处理的顺序。

图8是表示根据第一实施例的用于产生规则的处理的顺序的流程图。下面逐步地说明图8所示的处理。

<步骤S11>输入接收单元110加载多个样本数据项,各个样本数据项由一对温度分布图像和文本数据项构成,其中该温度分布图像表示浇注在机壳模具中的材料的温度分布,而该文本数据项表示机壳的强度。

<步骤S12>搜索单元120生成用于根据GA进行处理的第一代个体。具体地,搜索单元120对每一个个体从构成各个温度分布图像的像素中选择至少一个像素,并产生预定数量的(例如,32个)个体,每一个个体分别具有表示是否选择了对应像素的遗传因子。

<步骤S13>搜索单元120确定各代的交替数量是否到达了预定数量。当确定为是时,结束图8的处理。当确定为否时,操作进行到步骤S14。

<步骤S14>搜索单元120通过使用GA生成下一代的预定数量的个体。

<步骤S15>搜索单元120确定是否完成了对所有产生的个体进行的评估。当确定为是时,操作进行到步骤S13。当确定为否时,操作进行到步骤S16。

<步骤S16>集成单元130选择还没有进行评估的个体。

<步骤S17>集成单元130对所选择的个体中的相邻评估位置进行集成。

<步骤S18>候选规则产生单元140从通过集成产生的多个评估区域中选择预定数量的(例如,两个)评估区域(每一个评估区域都具有较大的范围(由较大数量的像素构成)),并产生表示机壳强度和所选择的评估区域的值之间关系的候选规则,其中该关系为所有样本数据项所共有。

具体地,在选择预定数量的评估区域之后,候选规则产生单元140获得各个样本数据项的各个所选择的评估区域中的像素亮度值的平均值,并将所获得的平均值确定为说明性变量的值(与样本数据项相对应)。此外,候选规则产生单元140将包含在各个样本数据项中的机壳强度值确定为目标变量的值(与样本数据项相对应)。当确定了所有样本数据项的说明性变量和目标变量的值时,候选规则产生单元140基于说明性变量和目标变量的上述值来执行多重回归分析,以产生构成候选规则的预测公式。

<步骤S19>候选规则评估单元150对由候选规则产生单元140产生的候选规则进行评估。具体地,候选规则评估单元150计算出在步骤S18中产生的预测公式的多重相关系数,将其作为评估值。

<步骤S20>输出单元160确定由候选规则评估单元150计算出的评估值(多重相关系数)是否等于或大于预定阈值。当确定为是时,操作进行到步骤S21。当确定为否时,操作进行到步骤S15,以对其它个体进行评估。

<步骤S21>输出单元160输出候选规则和表示所评估的个体中的各个所选择评估区域的范围的信息,作为特征提取规则。将所输出的特征提取规则存储在存储装置(例如HDD)中。此后,操作进行到步骤S15,以对其它个体进行评估。

如上所述,仅输出一个或更多个评价较高的个体,并且在规则发现装置100的屏幕上显示对各个输出的个体产生的信息,例如,产生对应规则时所选择的像素的位置。

图9表示其上显示有规则的画面的示例。在图9中,规则显示屏幕50上显示了温度分布图像51。温度分布图像51中表示了PC机壳的形状51a,并且在PC机壳的形状51a中通过颜色表示了浇注在PC机壳模具中的材料的温度分布。

此外,在该画面上还显示了表示温度分布和机壳强度之间关系的预测公式,以及表示该预测公式的可靠性程度的多重相关系数。此外,在温度分布图像51中显示了区域51b和51c,从该区域51b和51c中获得该预测公式的说明性变量x1和x2的值。

如上所述,由于可以从多对多媒体数据项和属性数据项中自动地提取规则,所以操作者不需要预先确定特征量,因此可以降低劳动成本。此外,本发明的优点在于自动提取的规则与个人观点无关,以及可以提取难以人为发现的规则。因此,根据本发明,可以客观地和详尽地发现规则,并且有效地获得高质量的规则。

<第二实施例>

在下文中说明本发明的第二实施例。根据第二实施例,仅当相邻评估位置处的像素值之间的差异较小时,才对相邻评估位置进行集成。

根据第二实施例的规则发现装置具有与根据图1所示的第一实施例的规则发现装置100相似的结构。但是,在第二实施例中由集成单元130和候选规则产生单元140执行的处理的某些部分与第一实施例的不同。因此,以下说明针对与第一实施例不同的部分处理,并且使用与图5相同的标号。

图10是表示根据第二实施例的用于产生规则的处理顺序的流程图。下面逐步地说明图10所示的处理。

图10的步骤S31至S37中执行的操作分别与图8的步骤S11至S17中执行的操作相同,图10的步骤S40至S42中执行的操作分别与图8的步骤S19至S21中执行的操作相同。因此,下面仅说明与第一实施例不同的步骤S38和S39中的操作。

<步骤S38>集成单元130选择在步骤S37中进行了集成的多个评估区域之一,然后获得多个样本数据项中的每一个中的温度分布图像中的所选择评估区域中的像素值的标准偏差。此外,集成单元130获得多个样本数据项的所选择的评估区域中的标准偏差的平均值。

随后,集成单元130逐个地选择在步骤S37中进行了集成的评估区域中的剩余评估区域,并获得多个样本数据项的所选择的评估区域中的标准偏差的平均值。

此外,集成单元130将标准偏差的各个平均值与预设的阈值相比较,并且当平均值等于或大于该阈值时,取消集成为与该平均值相对应的评估区域的操作。

<步骤S39>候选规则产生单元140从通过集成(没有被取消的)产生的评估区域中选择预定数量的(例如,两个)评估区域(每一个评估区域都具有相对大的范围(由较大数量的像素构成)),并产生表示机壳强度和所选择的评估区域的值之间关系的候选规则,其中该关系为所有样本数据项所共有。用于产生候选规则的处理的细节与第一实施例中的步骤S18相同。

如上所述,可以仅对其中像素值不太分散的评估位置进行集成。因此,根据温度变化不大的区域中的一组像素来产生各个评估区域,并且对各个评估区域计算说明性变量的值。由此,可以通过说明性变量的值精确地表示与下述区域的温度相关的特征,该区域与各个温度分布图像中的各个评估区域相对应。

具体地,说明性变量的值是像素的平均值。因此,当像素值的分散较大时,说明性变量的值不能精确地表示与下述区域的温度相关的特征,该区域与各个温度分布图像中的评估区域相对应。例如,当评估区域的前一半是高温区域而评估区域的后一半是低温区域时,获得平均温度值作为表示评估区域的说明性变量的值。即,说明性变量的值并不表示与各个温度分布图像中的评估区域相对应的区域的特征。根据第二实施例,由于在产生候选规则之前,取消了集成为像素值的分散较大的各个评估区域的操作,所以仅根据像素值的分散较小的评估区域来获得说明性变量的值。因此,可以产生其中精确地反映了温度分布图像的特征的候选规则。

<第三实施例>

在下文中,说明本发明的第三实施例。根据第三实施例,搜索单元进行从粗到精的搜索。即,首先进行解的粗略搜索,然后基于该粗略搜索对被评估为满足预定标准的像素组合进行解的精细搜索。

具体地,首先,在粗略搜索中,假设构成各个图像的最小图像元素为分别由多个像素而不是单个像素构成的图像元素。即,搜索单元选择分别由多个像素构成的上述图像元素中的一个以上图像元素的位置,而不是一个以上像素的位置,作为评估位置。例如,上述图像元素中的每一个由5×5像素构成。除了最小图像元素以外,粗略搜索的操作与基于逐个像素的前述搜索操作相同。由此,通过粗略搜索来获得至少一个解(即,具有等于或大于预定值的评估值的至少一个候选规则)。

接下来,基于在粗略搜索中评价较高的各个候选规则对所选择的图像元素进行精细搜索。该所选择的图像元素是位于评估位置处的图像元素,该评估位置构成在候选规则中使用的图像元素的至少一个组合,并且仅对所选择的图像元素进行精细搜索。逐个像素地进行精细搜索。由此,通过精细搜索获得的解是最终解。

根据第三实施例的规则发现装置具有与根据图1所示的第一实施例的规则发现装置100相似的结构。但是,在第三实施例中,由搜索单元120、集成单元130、候选规则产生单元140执行的处理的某些部分与第一实施例的不同。因此,以下说明针对与第一实施例不同的部分处理,并且使用与图5相同的标号。

图11是表示根据第三实施例的用于产生规则的处理顺序的流程图。下面逐步地说明图11所示的处理。

<步骤S51>输入接收单元110加载多个样本数据项,每一个样本数据项由一对温度分布图像和文本数据项构成,其中温度分布图像表示浇注到机壳模具中的材料的温度分布,而文本数据项表示机壳强度。

<步骤S52>搜索单元120定义多个图像元素,该多个图像元素中的每一个都由多个像素构成。例如,上述多个图像元素中的每一个都由5×5像素构成。

<步骤S53>搜索单元120生成用于根据GA来进行处理的第一代个体。具体地,搜索单元120从构成各个温度分布图像的图像元素中为每一个个体选择至少一个图像元素,并产生预定数量的(例如,32个)个体,每一个个体都具有表示是否选择了对应图像元素的遗传因子。

<步骤S54>搜索单元120确定各代的交替数量是否到达了预定数量。当确定为是时,结束图11的处理。当确定为否时,操作进行到步骤S55。

<步骤S55>搜索单元120通过使用GA来生成下一代的预定数量的个体(作为图像元素的组合)。

<步骤S56>搜索单元120确定是否完成了对步骤S53中产生的所有个体的评估。当确定为是时,操作进行到步骤S54。当确定为否时,操作进行到步骤S57。

<步骤S57>集成单元130选择还没有进行评估的个体。

<步骤S58>集成单元130对所选择的个体中的相邻评估位置进行集成。

<步骤S59>候选规则产生单元140从通过集成产生的多个评估区域中选择预定数量的(例如,两个)评估区域(均由较大数量的像素元素构成),并产生表示机壳强度和所选择的评估区域的值之间关系的候选规则,其中该关系为所有样本数据项所共有。

<步骤S60>候选规则评估单元150对由候选规则产生单元140产生的候选规则进行评估。具体地,候选规则评估单元150计算出在步骤S59中产生的预测公式的多重相关系数,作为评估值。

<步骤S61>搜索单元120确定由候选规则评估单元150计算出的评估值(多重相关系数)是否等于或大于预定阈值。当确定为是时,操作进行到步骤S62。当确定为否时,操作进行到步骤S56,以对其它个体进行评估。

<步骤S62>搜索单元120指定候选规则以及在如上进行了评估的个体中选择的要进行逐个像素分析处理的图像元素集合,并且开始进行逐个像素的分析。当完成逐个像素分析的处理时,操作进行到步骤S56,以对另一个体进行评估。

图12是表示逐个像素分析的处理顺序的流程图。下面逐步地说明图12所示的处理。在图12所示的处理中,逐个像素地产生各个个体,并且各个个体表示是否选择了像素,即,所选择的像素的组合。

<步骤S71>搜索单元120恢复在步骤S62中指定的集合中的图像元素的逐个像素表示。在根据GA的以下处理中,仅从在步骤S62中指定的集合中的图像元素中的像素中选择多个像素。

<步骤S72>搜索单元120生成用于根据GA来进行处理的第一代的个体。具体地,搜索单元120从各个温度分布图像的上述图像元素中的像素中选择至少一个像素,并产生预定数量的(例如,32个)个体,这些个体中的每一个都具有表示是否选择了各个像素的遗传因子。

<步骤S73>搜索单元120确定该逐个像素分析中的各代的交替数量是否达到了预定数量。当确定为是时,操作进行到图11中的步骤S56。当确定为否时,操作进行到步骤S74。

<步骤S74>搜索单元120通过使用GA来生成下一代的预定数量的个体。

<步骤S75>搜索单元120确定是否完成了对所有产生的个体进行的评估。当确定为是时,操作进行到步骤S73。当确定为否时,操作进行到步骤S76。

<步骤S76>集成单元130选择还没有进行评估的个体。

<步骤S77>集成单元130对所选择的个体中的相邻评估位置进行集成。

<步骤S78>候选规则产生单元140从通过步骤S77中的集成产生的多个评估区域中选择预定数量的(例如,两个)评估区域(分别由较大数量的像素构成),并产生表示机壳强度和所选择的评估区域的值之间关系的候选规则,其中该关系为所有样本数据项所共有。

<步骤S79>候选规则评估单元150对由候选规则产生单元140产生的候选规则进行评估。具体地,候选规则评估单元150计算出在步骤S78中产生的预测公式的多重相关系数,作为评估值。

<步骤S80>输出单元160确定由候选规则评估单元150计算出的评估值(多重相关系数)是否等于或大于预定阈值。当确定为是时,操作进行到步骤S81。当确定为否时,操作进行到步骤S75,以对另一个体进行评估。在步骤S80中使用的阈值大于在图11中的步骤S61中使用的阈值。

<步骤S81>输出单元160输出候选规则以及表示所评估的个体中的各个所选择评估区域的范围的信息,作为输出特征提取规则。将所输出的特征提取规则存储在存储装置(例如HDD)中。此后,操作进行到步骤S75,以对另一个体进行评估。

如上所述,由于根据第三实施例,通过组合粗略搜索和精细搜索可以获得特征提取规则,所以可以提高处理效率。例如,在初始温度分布图像是高分辨率图像的情况下,所选择像素的可能组合的数量变得非常大,因此,用于从所选择像素的所有可能组合中获得局部最优解的处理量也变得很大。根据从粗到精的搜索,由于首先进行解的粗略搜索,然后基于粗略搜索对被评估为满足预定标准的像素组合进行解的精细搜索,所以可以高效地搜索解。

在上述实施例中,尽管在多媒体数据项为图像的情况下获得规则,但是在处理其它类型的多媒体数据的情况下也可以执行类似的处理。例如,在声音数据的情况下,可以将具有预定长度的各个单元再现时间跨度中的数据(例如,表示声音的平均强度的数据)定义为可以由搜索单元120选择的最小数据元。在这种情况下,集成单元130在连续的单元再现时间跨度中对所选择的数据进行集成。

在上述实施例中,尽管在多媒体数据项为二维图像的情况下获得规则,但是也可以获得表示三维模型的数据(例如体数据)和文本数据之间关系的规则。在这种情况下,例如,可以将三维空间分为多个立方体,每一个立方体具有预定的大小,并且将根据立方模型表示各个立方体中的各个三维图像的一部分的数据定义为可以由搜索单元120选择的最小数据元。此外,集成单元130对与互相面对邻接的相邻立方体相对应的所选择的数据进行集成。

可以通过计算机来实现上述处理功能。在这种情况下,提供用于规则发现装置100的程序。该程序描述了规则发现装置100应该具有的处理功能的细节。当计算机执行上述程序时,在计算机上实现了规则发现装置100的处理功能。

描述处理细节的上述程序可以存储在计算机可读记录介质中。该计算机可读记录介质可以是磁记录装置、光盘、光磁记录介质、半导体存储器等。磁记录装置可以是硬盘驱动器(HDD)、软盘(FD)、磁带等。该光盘可以是DVD(数字通用盘)、DVD-RAM(随机存取存储器)、CD-ROM(光盘只读存储器)、CD-R(可记录)/RW(可重写)等。光磁记录介质可以是MO(磁光盘)等。

为了将该程序投入市场,例如,可以销售其中记录有该程序的便携式记录介质,例如DVD或CD-ROM。另选地,上述程序可以存储在属于服务器计算机的存储装置中,并且通过网络从服务器计算机传送到上述计算机。

执行上述程序的计算机将该程序存储在属于该计算机的存储装置中,其中,该程序最初是记录在例如便携式记录介质中或者是从服务器计算机传送来的。然后,该计算机从存储装置读取该程序,并根据该程序进行处理。另选地,该计算机可以直接从便携式记录介质中读取该程序,以根据该程序进行处理。此外,当从服务器计算机传送该程序的一部分时,计算机可以根据该程序的各个部分依次进行处理。

如上所述,根据本发明,通过重复产生评估位置的选择模式并减小特征数据位置的数量来获得候选规则,并将满足预定标准的候选规则作为规则输出,其中通过对选择模式中的评估位置进行集成,以生成评估区域,来实现特征数据位置的数量的减小。因此,即使在处理由大量数据元的阵列构成的多媒体数据的情况下,也可以自动地选择被指定为特征部分的区域,并发现精确的规则。

上述内容仅仅是对本发明原理的说明。此外,由于对于本领域的技术人员来说很容易进行多种修改和变化,所以不希望本发明限于所示和所述的确切结构和应用,相应地,可以将所有适当的修改及其等效物视为落入附加权利要求及其等效物限定的本发明的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号