首页> 中国专利> 年龄估计装置、年龄估计方法和年龄估计程序

年龄估计装置、年龄估计方法和年龄估计程序

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供了能够减少年龄估计所用的对图像数据进行加标签的劳动的年龄估计装置、年龄估计方法和年龄估计程序。用于估计拍摄成图像数据中的人的年龄的年龄估计装置包括：维度压缩装置，用于对图像数据应用维度压缩以输出低维度数据；分簇装置用于对所输出的低维度数据执行分簇；加标签装置用于对已分簇的低维度数据中的每个簇的代表性数据加标签；以及识别装置用于利用包含在已加标签的低维度数据和未加标签的低维度数据中的特征量基于学习结果来估计人的年龄。

著录项

公开/公告号CN102422323A

专利类型发明专利
公开/公告日2012-04-18

原文格式PDF
申请/专利权人 NEC软件有限公司;国立大学法人东京工业大学;
展开▼

申请/专利号CN201080019028.X
发明设计人植木一也;杉山将;伊原康行;
展开▼

申请日2010-04-14
分类号G06T7/00;
代理机构北京东方亿思知识产权代理有限责任公司;
代理人宋鹤
地址日本东京都
入库时间 2023-12-18 04:59:56

法律信息

法律状态公告日

法律状态信息

法律状态
2014-10-22

授权

授权
2014-09-24

著录事项变更 IPC(主分类):G06T7/00 变更前: 变更后: 申请日:20100414

著录事项变更
2012-05-30

实质审查的生效 IPC(主分类):G06T7/00 申请日:20100414

实质审查的生效
2012-04-18

公开

公开

说明书

技术领域

本发明涉及用于估计人的年龄的装置、方法和程序。

背景技术

例如，作为一种基于人脸图像数据利用识别设备等来机械地估计人的年龄的方法，例如，存在自己识别年龄的方法，即将年龄作为连续量来估计的方法(在该方法中，年龄估计被作为回归问题执行)。例如，非专利文献1中公开了这种方法。由于可以表达连续年龄，因此实验已表明，与年龄估计被作为识别问题执行的方法相比，出现更少的矛盾，并且，可以以高准确性来识别年龄。

回归问题可通过将求解所估计年龄(被估计的年龄)和正确年龄(正确的年龄)作为最小化问题来获得。具体的示例包括多线性回归分析和 (内核)岭回归(ridge regression)。这些方法执行学习，以便减少所估计年龄和正确年龄之间的均方误差或平均绝对误差。

图5示出了将年龄估计作为回归问题来执行的年龄估计装置的示例。一般而言，将要输入的图像数据(例如，脸部图像数据)是诸如像素数或像素数×3(R、G和B的颜色值)之类的高维度数据。因此，在维度压缩器61中，从图像数据中抽取特征，使得年龄信息被突出，而非必要信息 (光照条件、脸部角度，等等)被删除。因此，图像数据被从高维度数据转换成低维度数据。此处，在维度压缩器61中，例如，使用诸如主成分分析(PCA)、线性判别分析(LDA)和局部保持投影(LPP)之类的方法。该处理还被称为是“特征选择”和“维度压缩”。然后，识别设备62 基于所抽取的特征来估计年龄。

为了通过年龄估计装置60基于图像数据来估计年龄，需要维度压缩器61和识别设备62的学习。即，其正确年龄(实际年龄或感知年龄 (即，视年龄(apparent age)))已知的人的多个图像数据被输入到维度压缩器61，并且，每个数据由诸如N倍交叉验证(N-fold cross validation)和留一交叉验证(leave-one-out cross-validation)之类的方法评估。基于该评估结果，识别设备62的输出被调整，使得误差(所估计年龄和正确年龄之间的差异)可被减少。对于识别设备62的学习，应用诸如线性回归、多回归、岭回归和神经网络之类的方法。

通过重复类似的流程同时变更特征的类型和组合、抽取方法(即，维度压缩所使用的参数)等，参数和模型被选择，使得误差可被减少。

相关领域文献

[非专利文献]

非专利文献1：Y.Fu、Y.Xu和T.S.Huang，Estimating human age by manifold analysis of face pictures and regression on aging features，IEEE多媒体和展览会论文集，第1383页至第1386页，2007。

发明内容

发明所要解决的问题

为了在图5中所示的年龄估计装置中获得带有高准确性的年龄估计，需要收集大量的图像数据。但是，存在如下问题：需要手动地将正确年龄数据应用到大量图像数据中的每一个的操作(加标签)。

鉴于以上问题，做出了本发明，并且，其意欲提供能够减少对用于年龄估计的图像数据的加标签劳动的年龄估计装置、年龄估计方法和年龄估计程序。

解决问题的手段

为了获得前述目的，本发明的年龄估计装置是一种用于估计图像数据中的人的年龄的年龄估计装置，包括：维度压缩单元，该维度压缩单元用于对图像数据应用维度压缩以输出低维度数据；分簇单元，该分簇单元用于对所输出的低维度数据执行分簇；加标签单元，该加标签单元用于对已分簇的低维度数据中的每个簇的代表性数据加标签；以及识别单元，该识别单元用于利用包含在已加标签的低维度数据和未加标签的低维度数据中的特征量基于学习结果来估计人的年龄。

本发明的年龄估计方法是一种用于估计图像数据中的人的年龄的年龄估计方法，包括：用于对图像数据应用维度压缩以输出低维度数据的维度压缩步骤；用于对所输出的低维度数据执行分簇的分簇步骤；用于对已分簇的低维度数据中的每个簇的代表性数据加标签的加标签步骤；以及用于利用包含在已加标签的低维度数据和未加标签的低维度数据中的特征量基于学习结果来估计人的年龄的识别步骤。

本发明的程序是一种用于估计图像数据中的人的年龄的年龄估计程序，其中，计算机被导致执行如下处理：对图像数据应用维度压缩以输出低维度数据的维度压缩处理；对所输出的低维度数据执行分簇的分簇处理；对已分簇的低维度数据中的每个簇的代表性数据加标签的加标签处理；以及利用包含在已加标签的低维度数据和未加标签的低维度数据中的特征量基于学习结果来估计人的年龄的识别处理。

发明的效果

根据本发明，可减少对用于年龄估计的图像数据的加标签工作。

附图说明

图1是示出了根据本发明的实施例的年龄估计装置的配置的示图。

图2是示出了由根据本发明的实施例的年龄估计装置所执行的年龄估计结果的示例。

图3是示出了根据本发明的实施例的年龄估计装置的模型中的数据分布的示例的示图。

图4是示出了由估计器针对每个年龄基于脸部图像的年龄估计结果的示例的示图。

图5是示出了将年龄估计作为回归问题来执行的年龄估计装置的示例的示图。

具体实施方式

[第一实施例]

将描述合适地实现了本发明的第一实施例。

图1示出了根据该实施例的年龄估计装置的配置。年龄估计装置10 包括维度压缩器11、分簇设备12、加标签设备13，以及识别设备14。

例如，人的图像数据(例如，人脸图像数据)作为训练数据(学习数据)被输入到年龄估计装置10。该图像数据是具有像素数×照明水平数的维度的高维度数据。

当高维度图像数据被输入时，维度压缩器11执行维度压缩(维度减少)。即，维度压缩器11从图像数据抽取特征，使得年龄信息被突出，而非必要信息(光照条件、脸部角度，等等)被删除。例如，特征通过诸如PCA、LDA和LPP之类的方法被抽取。因此，高维度图像数据被转换成低维度图像数据(低维度数据)。

接下来，分簇设备12执行对通过维度压缩所获得的低维度数据的分簇。作为分簇，例如，可使用K-均值分簇。

接下来，在经过了分簇的低维度数据中，仅有代表性数据被加标签设备13加标签(对正确年龄数据的应用)。例如，最接近属于每个簇的数据的平均值的数据被看作是代表性数据，并且，代表性数据由加标签设备 13加标签；或者，从每个簇中随机选出的数据被看作是代表性数据，并且，代表性数据由加标签设备13加标签。另外，多个代表性数据可由加标签设备13来加标签。以下，已加标签的数据被称为已加标签训练数据 (已指导数据)，而未加标签的数据被称为未加标签训练数据(未指导数据)。

在输入到年龄估计装置10的图像数据中，认为数据的出现频率被局部增加的部分依赖于脸部特征的各种变化和拍摄环境的差异而被分散。如将稍后描述的，在高斯内核被用于回归模型的情形中，训练数据和测试数据之间的距离给出了重要的信息。因此，如上所述，对数据的出现频率增加的部分训练数据加标签可以是有效的方法。

通过这种方式，根据该实施例，加标签不是关于所有所输入的图像数据而执行的，而是关于部分数据(代表性数据)来执行的。因此，根据该实施例，可减少加标签的劳动。

识别设备14基于由维度压缩器11所抽取的特征来估计年龄。

作为维度压缩器11和识别设备14，可使用那些具有共同配置的设备。但是，在维度压缩器11中的特征抽取方法(维度压缩所使用的参数)和识别设备14的类型是基于通过考虑示出了所估计的年龄误差(所估计年龄和正确年龄之间的差异)的严重程度的“权重”所获得的评估结果来决定的。另外，权重的概念被引入到识别设备14的学习内容中。此处，将如以下来描述引入权重概念的原因。

如上所述，通过惯常的年龄估计装置(例如，在图5中所示的装置)，基于脸部图像数据，通过重复流程同时变更特征的类型和组合以及抽取方法(即，维度压缩所使用的参数)，参数和模型被选择，使得误差可被减少。但是，由于依赖于所意欲的年龄，年龄之间的距离是不同的，因此，使用所估计年龄和正确年龄之间的均方误差和平均绝对误差导致年龄识别的准确度的降低。例如，在正确年龄和识别年龄之间存在10年差异(误差)的情形中，在将5岁误认为是15岁和将35岁误认为是45岁之间的严重程度是不同的。换言之，即便是在相同的10岁差异的误差中，将5岁误认为15岁意味着将幼儿园的孩子误认为是初中生或高中生，并且，就人的感知而言，这是非常严重的误差。在另一方面，由于35岁的人的脸部特征非常类似于45岁的人的脸部特征，因此，人甚至常常不能识别其间的差异。因此，将35岁误认为45岁不像将5岁误认为15岁那么严重。

人的外观在青年阶段(诸如成长阶段)急剧变化，而在变成成年人之后缓慢地变化。因此，即便是相同的年龄差异误差，如果用相同的指示符来做出评估，则出现问题。

图4示出了由估计器针对每个年龄基于脸部图像来做出的年龄估计的结果的示例。示图示出了在针对每个年龄对其正确年龄已知的人的年龄估计的结果进行分类的情形中的“所估计年龄的标准偏差(变化程度)”。水平轴指示对象的正确年龄(真实年龄)，而垂直轴示出估计误差的标准偏差。此处，正确年龄(真实年龄)是由估计器所估计的年龄的平均值。由于年轻人的标准偏差很小，可以理解，大多数估计器将年轻人估计为类似的年龄。

因此，如果在年龄估计装置中年轻人的数据被错误地识别为成年人，则这与人所感知的结果极大地不同。

此处，该实施例通过将权重的概念引入到识别设备14的学习内容中而获得能够获得与人的识别结果非常匹配的识别结果的特征抽取。

另外，识别设备14通过不仅利用已加标签的训练数据还通过利用未加标签的训练数据来创建准确的模型(用于年龄估计的模型)。

此处，将参照图3A和图3B来描述在该实施例中所创建的模型的示例。图3A示出了在识别设备14的学习之前(初始状态)的模型的数据分布。如图3A所示，在学习之前的模型包括两种类型的数据，其已加标签的训练数据和未加标签的训练数据，并且，这些数据被边界分开。即，在图3A中，在a的范围内的未加标签训练数据被分类为由菱形所指示的已加标签的训练数据，而在b的范围内的未加标签训练数据被分类为由圆圈所指示的已加标签的训练数据。在该实施例中，例如通过将稍后描述的半指导学习，在图3A中所示的模型被转换成在图3B中所示的准确模型。与在图3A中所示的模型相比，在图3B中所示的模型的边界被变形，并且，在a的范围内的未加标签的训练数据被分类为由圆圈所指示的已加标签的训练数据，并且，在b的范围内的未加标签的训练数据被分类为由菱形所指示的已加标签的训练数据。

以下，将描述通过不仅利用已加标签的训练数据还利用未加标签的训练数据的半指导学习的年龄估计方法。该方法是未加标签的训练数据被用于内核函数的正规化最小二乘的方法(将权重指派给内核函数的正规化最小二乘的方法，内核正规化加权最小二乘：KRWLS)，并且，有效地使用整个训练数据的示图和副本(manifold)的结构。该方法意欲通过利用诸如示图和副本的结构(将稍后描述的表达式(3))之类的信息来平滑回归模型，从而提高年龄估计的准确度。另外，年龄的权重被在最小二乘中考虑。从这种特点来看，该方法可被称为是半指导内核正规化加权最小二乘(SKRWLS)。

此处，所考虑的问题是预测测试数据的真实年龄y^*的半指导学习，测试数据为特征向量x的抽取源，其中，在应用一个已加标签训练数据(x_i， y_i)[x_i是示例性变量(脸部特征<其可被称为特征向量>)，y_i是客观变量 (年龄)，i是1到l]和u个未加标签训练数据(x_i)[x_i是示例性变量(脸部特征<其可被称为特征向量>)，i是1+l到l+u]的条件下，y^*＝f(x)。在该实施例中，年龄估计函数f(x)由正定内核k(x，x’)的线性组合建模。这由以下的表达式(1)来表达。表达式(1)是用于输出确定的年龄的表达式。该年龄是通过在学习(将稍后描述其细节)期间获得最佳解并然后将所获得的最佳解带入表达式(1)中来输出的。

$f_{α} (x) = Σ_{i = 1}^{l} α_{i} k (x_{i}, x) + Σ_{i = l + 1}^{l + u} α_{i} k (x_{i}, x) . . . (1)$

在训练数据的数值l或u很大的情形中，可使用内核函数k(x_i，x)[i是 1到l+u]的子集而非其全部。在识别设备14中，对由以下表达式(2) (带有l+u行和1列的具有a₁到a_l+u分量的矩阵)所示的参数的学习被执行，使得以下的表达式(3)被最小化。表达式(3)是定义误差(处罚) 的表达式。该实施例意欲最小化误差(处罚)。

α＝(α₁，…，α_l+u)^T …(2)

$L (α) = \frac{1}{l} Σ_{i = 1}^{l} \frac{{(y_{i} - fα (x_{i}))}^{2}}{w {(y_{i})}^{2}} + λ {| | α | |}^{2}$

$+ \frac{μ}{4 (l + u)} Σ_{i, j = 1}^{l + u} {(f (x_{i}) - f (x_{j}))}^{2} W_{i, j} . . . (3)$

w(y)是加权函数，‖·‖是Rⁿ的欧几里得范数

在表达式(3)中的λ(＞0)是正规化参数，其用于防止过度拟合 (overfitting)而引入，并且，表达式(3)的第二个项是用于防止过度拟合的校正项(用于计算所获得的参数的大小的项)。在表达式(3)中的第一项是用于计算训练数据的年龄识别误差的项。在表达式(3)中的第三项是用于计算即便两个数据(已加标签或未加标签的数据)之间的距离很小也将大处罚应用到其间具有很大差异的两个年龄时的误差值的项 (即，该项用于执行学习使得当两个数据之间的距离很小时两个年龄之间的差异被减小)。

在表达式(3)中的μ(＞0)是用于调整年龄估计函数f(x)的平滑的参数。

在表达式(3)中的W_i，j表达x_i和x_j之间的近似程度(W_i，j随着两个数据间的距离的减少而增加)。W_i，j的示例通过以下的表达式(4)来示出。

在表达式(3)中的加权函数w(y)是表达针对每个年龄的所估计年龄误差的严重程度的函数。w(y)的值(权重)越大，所估计的年龄的误差越严重。

在表达式(3)中的最佳解可通过以下表达式(5)来获得。

最佳解

$α = \underset{α}{\arg \min} L (\hat{α}) = {(K^{T} DK + lλ I_{l + u} + \frac{lμ}{{(l + u)}^{2}} K^{T} LK)}^{- 1} K^{T} Dy . . . (5)$

K 具有k(x_i，x_j)作为(i，j)分量的内核矩阵

K^T K的转置矩阵

D 当1≤i≤I时，具有作为(i，i)对角线分量，并当 I＜i≤I+u时，具有0作为(i，i)对角线分量的I+u维对角矩阵

L 具有L_ij作为(i，j)分量的拉普拉斯矩阵

$(L_{i, j} = δ_{i, j} Σ_{i = 1}^{l + u} W_{i, j} - W_{i, j}, δ_{i, j}$

是克罗内克增量)

I_I+u I+u维单位矩阵

y 当1≤i≤I时具有y_i作为i分量并当I＜i≤I+u时具有0作为 i分量的I+u维向量

在训练数据的数量I+u很大的情形中，由于对在表达式(5)中的加括号部分的计算是困难的，因此，最佳解可通过减少所使用的内核函数的数量或通过梯度方法来执行数值计算来获得。

通过利用通过表达式(5)所获得的最佳解作为参数，新近输入到年龄估计装置10的m-测试数据的年龄被预测。此处，测试数据及其真实年龄被按以下表达。

测试数据

测试数据的真实年龄

根据以下的表达式(6)，基于加权均方误差(WMSE)，做出对一般化能力的评估。表达式(6)是定义测试数据的误差的表达式(计算测试数据的误差的表达式)。

$WMSE = \frac{1}{m} Σ_{i = 1}^{m} \frac{{({\tilde{y}}^{*} - f \hat{α} ({\tilde{x}}_{i}))}^{2}}{w {({\tilde{y}}_{i}^{*})}^{2}} . . . (6)$

在确定在维度压缩器11中的特征抽取方法和确定识别设备14的类型时，通过利用学习数据和测试数据来执行N倍交叉验证和留一交叉验证，评估基于表达式(6)的WMSE来做出，并且，获得在测试数据中的最高准确度的方法和类型(导致最小误差的方法和类型)被选择。

此处，将描述实验的示例，其中，已加标签的训练数据的数量I是 200，未加标签的训练数据的数量u是5000，测试数据的数量m是1500，以及每个年龄组的数据数量近似被均衡。此处，所考虑的情形是在以下表达式(7)中所示的高斯内核被用作内核函数的情形。内核宽度σ和正规化参数λ和μ被确定，使得测试误差变为最小。

$k (x, x^{'}) = \exp (- \frac{{| | x - x^{'} | |}^{2}}{2 σ^{2}}) . . . (7)$

例如，图2示出了利用通过此处以下的三种方法所获得的200个已加标签训练数据和随机获得的5000个未加标签训练数据关于女性的脸部特征向量集合所执行的指导学习(仅利用已加标签的训练数据的学习)和半指导学习(利用已加标签的训练数据和未加标签的训练数据的学习)的结果。三种方法如下述。

LR：随机获得已加标签的训练数据

LC1：通过利用PCA执行到四维水平的维度减少之后计算200个簇来获得已加标签的训练数据

LC2：通过利用PCA执行到十维水平的维度减少之后计算200个簇来获得已加标签的训练数据

参照图2，在指导学习仅通过利用由三种方法(LR、LC1和LC2)来获得的三种类型的训练数据来执行的情形中，利用由LC2所获得的训练数据的学习示出了最优效果。

另外，图2示出了在半指导学习被执行的情形中，其中，除了上述各自已加标签的训练数据之外，还是用了未加标签的训练数据，与指导学习的结果相比，其结果被改善了。

这说明包括如下步骤的方法是最有效的方法：通过分簇来获得少量已加标签的训练数据，并且，利用未加标签的训练数据组合已加标签的训练数据执行半指导学习。

通过这种方式，在该实施例中，通过利用已加标签的训练数据组合未加标签的训练数据并且利用WMSE作为评估标准，输出与人感知的年龄非常匹配的特征抽取方法和识别设备被选择。

由于特征抽取方法和识别设备被选择，使得输出与人感知的年龄非常匹配的输出年龄，根据该实施例的年龄估计装置可输出与人的感知非常匹配的估计结果。另外，由于利用识别设备(其中，与人的感知非常匹配的学习被执行)年龄被估计，因此，可估计与感知年龄非常匹配的年龄。

在前述实施例中，使用基于实际测量数据的加权函数。但是，人工做出的加权函数可被应用到表达式(3)、(5)和(6)。另外，在前述实施例中，仅使用了一个加权函数。但是，可使用多于一个加权函数。通过这种方式，年龄的权重及其估计的准确度希望可被提高和增加。因此，可提高所希望的年龄的估计准确度。

参照实施例，描述了本发明。但是，本发明并不限于上述实施例。在本申请的发明的范围内，可做出各种变更。

在前述实施例中的操作还可被硬件、软件或其复合结果所执行。

在处理通过软件实施的情形中，处理可通过将记录处理序列的程序安装到结合在专用硬件中的计算机的存储器中来实施。可替换地，处理可通过将程序安装到能够执行各种处理的通用计算机中来实施。

例如，程序可被初步记录在用作记录介质的硬盘和只读存储器 (ROM)中。可替换地，程序可被临时或永久地存储(记录)在可移动记录介质中，诸如，紧致盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘，以及半导体存储器。

除了将程序安装到来自前述可移动记录介质的计算机中以外，程序可从下载站点无线地被转移。可替换地，程序可经由诸如局域网(LAN)和因特网之类的网络有线地转移。计算机可接收所转移的程序，并且，可将程序安装到诸如集成了硬盘的记录介质中。

以上，参照实施例描述了本申请的发明。但是，本申请的发明并不限于上述实施例。在本申请的发明的范围内，可在发明的配置和细节中做出可被本领域技术人员所理解的各种变更。

该申请要求2009年4月28递交的日本专利申请No.2009-109680的优先权。日本专利申请的整个主题内容通过引用被结合于此。

参考标号说明

10 年龄估计装置

11 维度压缩器

12 分簇设备

13 加标签设备

14 识别设备

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 年龄估计装置、年龄估计方法和年龄估计程序 [P] . 中国专利： CN102422323A . 2012-04-18
2. 年龄估计方法、年龄估计模型的训练方法及装置 [P] . 中国专利： CN111967382A . 2020-11-20
3. Age estimation apparatus, age estimation method, and age estimation program [P] . 美国专利： US9036923B2 . 2015-05-19

机译：年龄估计装置，年龄估计方法和年龄估计程序
4. Age estimation device according to the non-contact biometric information collection , age estimation method and age estimation program [P] . 日本专利： JP5637583B2 . 2014-12-10

机译：根据非接触式生物信息收集的年龄估计装置，年龄估计方法和年龄估计程序
5. Age estimation apparatus, age estimation method, and age estimation program [P] . 美国专利： US8818111B2 . 2014-08-26

机译：年龄估计装置，年龄估计方法和年龄估计程序