首页> 中国专利> 一种基于数字图像的植物种类识别方法

一种基于数字图像的植物种类识别方法

摘要

本发明提供一种基于数字图像的植物种类识别方法,包括:采集植物器官数字图像作为测试样本,提取特征向量;将所述特征向量输入第一级分类器,获得投票数排名前n名的n个类别,3<n<10;第一级分类器通过如下方式获得:基于全部训练样本的特征集进行分类器训练;将所述特征向量输入第二级分类器,获得识别结果;第二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取所述n个类别所对应的特征集进行分类器训练。本发明通过分级SVM分类器,有效降低了分类器对样本种类数量的敏感性,消除了样本类别增加对识别准确率的影响,克服了SVM分类器对大样本量识别准确率低的问题,进而提高植物识别的准确率。

著录项

  • 公开/公告号CN102324038A

    专利类型发明专利

  • 公开/公告日2012-01-18

    原文格式PDF

  • 申请/专利权人 北京林业大学;

    申请/专利号CN201110262117.3

  • 发明设计人 曹卫群;裴勇;

    申请日2011-09-06

  • 分类号G06K9/62(20060101);G06K9/64(20060101);

  • 代理机构11315 北京国昊天诚知识产权代理有限公司;

  • 代理人许志勇

  • 地址 100083 北京市海淀区清华东路35号

  • 入库时间 2023-12-18 04:12:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-04-16

    授权

    授权

  • 2012-03-14

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20110906

    实质审查的生效

  • 2012-01-18

    公开

    公开

说明书

技术领域

本发明涉及图像识别技术,特别是涉及一种基于数字图像的植物种类识 别方法。

背景技术

植物分类学是植物科学体系的基础学科,在农业、林业以及其他相关产 业中起着重要的作用。植物分类学依据植物的多种外观性状特征对其进行鉴 别和分类。对于这些性状特征的获得,在传统的方式中往往采用人工实地测 量的方式进行作业。根据获得的数据对植物进行鉴别,确定其所属类别。整 个工作过程不但耗费较多的人力物力,而且对工作人员的专业知识和经验提 出很高的要求。随着信息技术和自动识别理论的发展,数字图像采集设备(如 数码相机)的逐渐普及,人们可以很方便地采集植物的数字图像,从而精确 地获得其外观特征信息,然后运用数字图像处理技术和模式识别技术对采集 到的样本做识别分析,从而使植物分类的自动化程度大大提高。并且通过计 算机进行分类识别,使得植物分类的效率和准确率有了显著提高。

花卉品种分类学是植物分类学的一个分支,目前的花卉品种分类,一般 是通过计算机对花卉的数字图像进行分析得到分类结果,采用的一般为模式 识别系统,模式识别系统通常由多个环节组成,一般来说包括信息采集、数 据处理、特征提取和选择、分类识别或者类型匹配。模式识别系统的设计的 关键之处在于选取适当的模式定义、有代表性的样本集、和样本隶属度较高 的特征以及有效的分类器等。而其中,分类器技术决定了系统对样本空间的 分类能力的好坏,影响了模式识别系统的最终性能。

现有的分类器技术包括相似性度量方法、贝叶斯决策方法、线性判别函 数、人工神经网络以及支持向量机等,以下分别具体介绍如下:

(一)相似性度量

相似性度量方法分析样本的特征向量在特征空间中的距离,根据其与特 定类别在样本空间中的位置的接近程度对其进行分类。

相似性度量方法具有算法简单直观易懂,计算速度快的优点。但是该方 法仅仅考虑两个特征向量之间的距离,没有分析一个类别在特征空间中的整 体分布情况,不能够解决复杂的分类问题。

(二)贝叶斯决策理论

贝叶斯决策理论方法属于统计模式识别理论,统计决策理论是模式分类 理论中最基本的理论之一,对模式分析和分类器的设计有着实际的指导意 义。使用此贝叶斯决策理论构造分类器时,要求各类别总体的分布概率已知, 且决策分类的类别数是有限的。

因此,贝叶斯决策的结果取决于是先验知识,先验概率在决策过程中起 了主导作用。但是在实际应用中,先验概率和类条件概率密度的正确估计往 往比较复杂,而且对于类别数并非已知的情况下,贝叶斯决策也无法计算。

(三)人工神经网络

上世纪50年代末,提出了感知机的数学模型来对人脑的功能进行简化 模拟,初步形成了人工神经网络的理论基础。

人工神经网络模拟人脑的结构和功能,由大量的彼此广泛相连的处理单 元组成,每个处理单元的结构和功能十分简单,取得了令人惊异的效果。在 神经网络方法中,采用反向传播法(BP)的多层感知器的应用最为广泛和成 功。该方法直接从训练样本数据中学习,并利用非线性规划的最快下降法使 权值收敛,具有简便有效的优点。模式识别的神经网络分类器与其他方法相 比具有以下几个明显的优势:具有较强的容错性,能够识别带有噪声或变形 的输入模式;具有很强的自适应学习能力;并行分布式信息存储与处理,识 别速度快;能把识别处理和若干预处理融为一体进行。

但是,人工神经网络算法根据不同的神经元模型和网络拓扑结构及学习 方法,具有不同的特性和能力。这需要根据样本的情况调整其学习方式,以 取得更好的效果。因此这也使得神经网络方法的效果对于使用者的经验过于 依赖,使用起来过于复杂,这对于初次接触神经网络分类器的用户来说很难 取得最优效果。

(四)支持向量机(SVM)介绍

支持向量机的理论基础是统计学习理论,是统计学习理论的最新成果和 新一代的机器学习方法。机器学习研究计算机模拟人的学习行为,根据已有 的训练样本推测系统的判别法则,对新输入样本作出尽可能真实的预测。支 持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折 衷,以期获得最好的推广能力。以下对支持向量机进行详细介绍。

1)支持向量机有两个主要的理论基础

支持向量机在统计学习理论的基础之上发展而来,算法的主要思想是: 对于输入的线性不可分的样本,通过将其特征空间变换到更高维数的空间, 使其线性可分,然后再计算最优线性分类面。这种变换是通过内积函数实现 的非线性变换。支持向量机有两个主要的理论基础:(1.1)结构风险最小化 原理;(1.2)VC维理论。

(1.1)结构风险最小化原理

通过对不同类型的函数集进行系统的研究,统计学习理论总结了函数集 的经验风险和实际风险之间的关系。其中,对于二分类问题的函数集,经验 风险Remp(α)和实际风险R(α)之间满足如下关系的概率大于或等于1-η:

R(α)Remp(α)+h[ln(2n/h)+1-ln(η/4)]n---(2-13)

其中,h是函数的VC维,n是样本数。

从中可以看出,机器学习的实际风险R(α)包括两个组成部分,即经验风 险Remp(α)和由VC维数决定的置信风险。传统的训练方式通过选择不同的算 法模型来影响置信风险的范围大小,当模型与样本契合度较高时就能得到较 好的识别结果。但由于算法的选择取决于训练样本的情况等先验知识和已有 的使用经验,而没有建立系统的理论化方法,使得算法的使用效果依赖于使 用者的经验和技巧,推广性较差。SRM(结构风险最小化,Structural Risk  Minimization)准则在按照VC维数大小进行排序的函数子集序列中寻找最小 经验风险,综合考虑经验风险和置信风险,有效的解决了这个问题。与传统 方法相比,SRM准则更加科学。在此基础上,发展出了支持向量机。

(1.2)VC维理论

VC维是统计学习理论所定义的最重要的函数集学习性能指标之一。VC 维的定义是:对于一个由h个点组成的点集,如果将其分为两类,则有2h种 分法。如果有函数集Q(z,α),α∈Λ,能够将点集用所有可能的2h种分法进行划 分,则称此点集能够被此函数集破开或打散。一个函数集的VC维,指能够 被该函数集打散的点集所包含的最大的样本点个数。下面举例说明:如果函 数集Q(z,α)α∈Λ是平面内所有直线的集合,那么所有两点集合都是可以被打 散的,大部分三点集合也可以被打散(如图1所示),但是四点集合不能够 被打散,因此其VC维为3。一般的,在r维欧式空间中的线性函数集(即 超平面集)的VC维为r+1。

2)支持向量机分类原理

支持向量机是统计模式识别理论最新的部分,并得到了广泛的应用。支 持向量机可以看做是一种广义线性分类器,其理论基础包括线性分类方法、 结构风险最小化原则、最优核函数等。支持向量机最初设计为二分类问题的 学习机器,其分类过程可以描述为寻找分类超平面,将样本空间中的两组样 本点分开,并且所选分类超平面与样本点的距离应该最远。对于线性不可分 的样本分布,使用核函数将特征空间向高维空间映射,使线性不可分问题变 为线性可分问题。支持向量机正是基于这种思想,将特征空间向高维空间映 射,然后构造最优分类超平面将样本分类。

(a)线性可分情况

从线性可分两类问题分析,此类问题的主要问题是找出最优分类超平 面,也称为最优线性判别函数。先给出训练样本集{xi,i=1,…,n},令该样本集 中的样本分为两类ω1和ω2,并分别标记为yi=+1或-1。则线性判别函数为

g(x)=wTx+w0                                (2-14)

式中w被称为权向量,w0被称为阈权值。

当方程g(x)=0时为分类超平面A,将样本点分为两类。但是实际上存在 着多个分类超平面能够将样本点分开,需要寻找使样本点分类间隔最大的分 类超平面:g(x)可以看作是点x到分类超平面A的距离的度量。引入间隔余 量b>0,令

yi(wTxi+w0)≥b                       (2-15)

使得所有样本点到分类超平面的距离都大于b/|w|。不失一般性,取b=1, 则使分类间隔最大的问题转化为在满足约束条件下,使w最小化的问题:

min12||w||2(2-16)

              s.t. yi[<w,xi>+b]-1≥0,i=1,2,…,n

拉格朗日乘子法是解决带有等式和不等式约束的优化问题的标准化方 法。根据拉格朗日乘子法和Karush-Kuhn-Tucker定理对问题进行求解,得到 最优解的充要条件为

yi(xiTw+w0)-10

αi≥0                                                 (2-17)

αi[yi(xiTw+w0)-1]=0,i=1,2,…,n

其中,{αi,i=1,…,n;αi≥0}为拉格朗日乘子。

进行分类计算时,重新将带有约束的优化问题写成对偶形式,一旦获得 拉格朗日乘子αi,w0的值即可由下式得到:

αi(yi(xiTw+w0)-1)=0---(2-18)

支持向量定义了分类超平面。对于新的样本x,根据式wTx+w0进行分类, 替换w和w0,代入后计算结果根据是否大于0得出判别分类。

(b)线性不可分情况

当样本集数据在原始特征空间上线性不可分时,通过核函数将原始空间 映射到高维空间,使其线性可分。经过非线性映射φ之后,原表达式中的xi需 相应地替换为φ(xi),判别函数变为:

g(x)=wTφ(x)+w0                                 (2-19)

此时的拉格朗日函数为:

L(w,w0,a)=12||w||2-Σi=1nαi[<w,φ(xi)>+w0-yi]---(2-20)

最后得到了相应的判别函数:

g(x)=Σi=1nαi*yiφT(xi)φ(x)+w0---(2-21)

可以看出,经过变换之后的样本分类仅仅取决于变化后的特征向量之间 的点积,因此用核函数K(x,x′)来代替点积:

               K(x,y)=φT(x)φ(y)                     (2-22)

这样可以避免直接计算变化φ(x),只需要核函数就可以写成内积形式, 甚至不需要明确知道φ。

核函数的选择会影响SVM的性能,如何选择与构造合适的核函数一直 是SVM的关键问题。但是目前尚没有统一的理论来解决核函数的选取问题, 就连参数的选取也往往采用大量实验来筛选。下面给出常见的几种核函数, 其中高斯函数的应用最为广泛。

表2-1常用核函数

3)多类分类问题

从前面的内容可知支持向量机的分类原理是基于二分类问题的。对于多 类样本分类问题,往往需要将其分解为若干个二分类问题进行。不同的分解 方式对应不同的多类分类器策略。最为常用的多类分类策略有两类:

(3.1)一对一(One-against-one)多类分类器

假设共有N类样本,将其中任意两个类都构造一个子分类器,共构造 N(N-1)/2个分类器,对于输入样本使用所有分类器进行分类,哪个类别胜出 的次数最多,则判定输入样本属于哪个类别。

(3.2)一对多(One-against-rest)多类分类器

假设共有N类样本,共需要构造N个分类器。每个分类器由一个类别 的样本作为正样本,除该类以外的所有类别的样本作为负样本进行训练。对 于一个输入样本,其分类结果是各个子分类器中输出最大值的类别。

因此,SVM分类器在进行多类分类时,随着样本类别数量的增加,相似 类别出现的可能性也随之增加,传统SVM分类器投票法出现错误结果的概 率也在增加。此外,投票法对于任意两个类别都会构建一个分类器。即当样 本类别为N时,传统SVM分类器投票法将构建N*(N-1)/2个分类器。若其 中一分类器的两类训练样本都不属于被测试样本的类别,那么该分类器投出 的一票一定不是该测试样本的真实类别,定义该分类器为本次识别过程中的 干扰分类器;

其数目可由分类器总数减去包含目标类别的分类器个数N-1来 计算,即为占总的分类器个数的比例为随着样本类别 数量的增加,干扰分类器的数目和所占的比例会快速增加,进而对识别的准 确性产生影响。

综上,现有的分类器技术存在着以下缺点或不足:

1)相似性度量方法,仅仅考虑两个特征向量之间的距离,没有分析一 个类别在特征空间中的整体分布情况,不能够解决复杂的分类问题。

2)贝叶斯决策,其结果取决于是先验知识,先验概率在决策过程中起 了主导作用。但是在实际应用中,先验概率和类条件概率密度的正确估计往 往比较复杂,而且对于类别数并非已知的情况下,贝叶斯决策也无法计算。

3)人工神经网络,需要根据样本的情况调整其学习方式,使得神经网 络方法的效果对于使用者的经验过于依赖,对于初次接触神经网络分类器的 用户来说很难取得最优效果。

4)支持向量机技术,虽然其优于相似性度量、贝叶斯决策和人工神经 网络,但在进行多类分类时,随着样本类别数量的增加,相似类别出现的可 能性也随之增加,干扰分类器的数目和所占的比例会快速增加,进而对识别 的准确性产生影响。

因此,现有分类器技术还存在着很多不完善的地方,难以适应植物分类 所需要的以下要求:不能因样本类别数量的增加而影响准确性、能够解决复 杂的分类、不依赖使用者的经验等等。

发明内容

本发明实施例的目的是提供一种基于数字图像的植物种类识别方法,通 过分级SVM分类器,有效降低了分类器对样本种类数量的敏感性,消除了 样本类别增加对识别准确率的影响,克服了SVM分类器对大样本量识别准 确率低的问题,进而提高植物识别的准确率。

为了实现上述目的,本发明提供了一种基于数字图像的植物种类识别方 法,包括:

步骤一,采集植物器官数字图像作为测试样本,提取所述测试样本的特 征向量;

步骤二,将所述特征向量输入第一级分类器,获得投票数排名前n名的 n个类别,3<n<10;所述第一级分类器通过如下方式获得:基于全部训练样 本的特征集进行分类器训练,获得基于支持向量机的所述第一级分类器;

步骤三,将所述特征向量输入第二级分类器,获得识别结果;所述第二 级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取所述n 个类别所对应的特征集进行分类器训练,获得基于支持向量机的所述第二级 分类器。

优选地,上述的植物种类识别方法中,n=5。

优选地,上述的植物种类识别方法中,还包括:步骤四,显示所述识别 结果。

优选地,上述的植物种类识别方法中,

在所述步骤一中,通过现场拍摄的方式或者通过输入的方式采集所述植 物器官数字图像;

在所述步骤二中,从本机或通过无线传输,将所述测试样本输入所述第 一级分类器。

优选地,上述的植物种类识别方法中,所述训练样本为花朵数字图像;

在所述步骤一之前,还包括:

根据花朵的中心对称和放射性的结构特点,将所述花朵数字图像分割为 特征环区域,对所述特征环区域进行特征提取,获得所述花朵数字图像的图 像特征;对训练样本库中的所有花朵数字图像进行特征提取,获得所述全部 训练样本的特征集。

本发明还提供一种基于数字图像的植物种类识别装置,包括:

测试样本采集模块,用于:采集植物器官数字图像作为测试样本,提取 所述测试样本的特征向量;

第一级分类器,用于:输入所述特征向量进行分类,获得投票数排名前 n名的n个类别,3<n<10;所述第一级分类器通过如下方式获得:基于全部 训练样本的特征集进行分类器训练,获得基于支持向量机的所述第一级分类 器;

第二级分类器,用于:输入所述特征向量进行分类,获得识别结果;所 述第二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取 所述n个类别所对应的特征集进行分类器训练,获得基于支持向量机的所述 第二级分类器。

优选地,上述的植物种类识别装置中,n=5。

优选地,上述的植物种类识别装置中,还包括:

结果显示模块,用于:显示所述识别结果。

优选地,上述的植物种类识别装置中,所述测试样本采集模块用于:通 过现场拍摄的方式或者通过输入的方式采集所述植物器官数字图像;从本机 或通过无线传输的方式将所述测试样本输入所述第一级分类器和所述第二 级分类器。

优选地,上述的植物种类识别装置中,所述训练样本为花朵数字图像; 还包括:

特征集获取模块,用于:根据花朵的中心对称和放射性的结构特点,将 所述花朵数字图像分割为特征环区域,对所述特征环区域进行特征提取,获 得所述花朵数字图像的图像特征;对训练样本库中的所有花朵数字图像进行 特征提取,获得所述全部训练样本的特征集。

与现有技术相比,本发明实施例至少存在以下技术效果:

1)本发明通过建立分级分类器,在第一级分类的基础上,将样本类别 减小到3-10个,得到第二级分类器,在很大程度上消除了样本类别增加对识 别准确率的影响。

2)本发明中测试样本采集模块可以是数码相机等,在野外直接采集植 物数字图像,通过无线的方式发给远端的服务器上的两级分类器进行识别, 然后把识别结果通过无线传输发回到野外终端,使现场的操作人员能立即知 道所拍摄植物的种类和价值。

3)本发明中,两级分类器可以作为远端服务器,远程接受测试样本并 返回识别结果,也可以将两级分类器与测试样本采集模块做在一个终端内, 现场采集现场识别。

4)本发明实施例中,让n=5,取前五个类别,可以同时保证较高的准确 率和运算速度。

5)因为特征环更适合描述花朵的中心对称和放射性的生长特征,因此, 本发明实施例中所提取的花朵图像特征能建立有效区分花朵的特征体系,基 于该特征提取方法所进行的花卉种类识别可达到较高的准确率。

附图说明

图1为现有技术2维空间线性函数集的VC维的示意图;

图2为本发明实施例提供的方法的步骤流程图;

图3为本发明实施例提供的装置的结构图。

图4为本发明实施例提供的植物种类识别装置的分级SVM分类器方案 的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图 对具体实施例进行详细描述。

图2为本发明实施例提供的方法的步骤流程图,如图2所示,基于数字 图像的植物种类识别方法,其包括:

步骤101,采集植物器官数字图像作为测试样本,提取所述测试样本的 特征向量;

步骤102,将所述特征向量输入第一级分类器,获得投票数排名前n名 的n个类别,3<n<10;所述第一级分类器通过如下方式获得:基于全部训练 样本的特征集进行分类器训练,获得基于支持向量机的所述第一级分类器;

步骤103,将所述特征向量输入第二级分类器,获得识别结果;所述第 二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提取所述 n个类别所对应的特征集进行分类器训练,获得基于支持向量机的所述第二 级分类器。

还可以包括:步骤104,显示所述识别结果。

可见,本发明通过建立分级分类器,在第一级分类的基础上,将样本类 别减小到3-10个,得到第二级分类器,在很大程度上消除了样本类别增加对 识别准确率的影响。

本发明实施例中,n越大,所取类别就越多,得到正确类别在其中的可 能性越大,但是取的太多会导致计算量的增加,同时太多的类别也会影响第 二次分类的正确性。因此,可以让n=5,取前五个类别,可以保证较高的准 确率和运算速度。

所述测试样本可以为现场拍摄的植物数字图像,通过无线传输给远端服 务器,远端服务器采用所述测试样本输入所述第一级分类器和所述第二级分 类器,获得识别结果后在返回给拍摄现场的终端设备,使工作人员在现场就 可以马上知道所拍摄植物的种类和价值,大大方便了野外科考人员的工作。 当然,也可以不用远端服务器,把相机和服务器作为一个装置,直接在现场 进行种类识别。

所述测试样本还可以是通过输入的方式获得的所述植物数字图像。

本发明实施例中,所述训练样本为花朵数字图像;在所述步骤101之前, 还包括:

根据花朵的中心对称和放射性的结构特点,将所述花朵数字图像分割为 特征环区域,对所述特征环区域进行特征提取,获得所述花朵数字图像的图 像特征;对训练样本库中的所有花朵数字图像进行特征提取,获得所述全部 训练样本的特征集。

因为特征环更适合描述花朵的中心对称和放射性的生长特征,因此,本 发明实施例中所提取的花朵图像特征能建立有效区分花朵的特征体系,基于 该特征提取方法所进行的花卉种类识别可达到较高的准确率。

此外,本发明实施例还提供了一种基于数字图像的植物种类识别装置, 图3为本发明实施例提供的装置的结构图,如图3所示,植物种类识别装置 包括:

测试样本采集模块301,用于:采集植物器官数字图像作为测试样本, 提取所述测试样本的特征向量;

第一级分类器302,用于:输入所述特征向量进行分类,获得投票数排 名前n名的n个类别,3<n<10;所述第一级分类器通过如下方式获得:基于 全部训练样本的特征集进行分类器训练,获得基于支持向量机的所述第一级 分类器;

第二级分类器303,用于:输入所述特征向量进行分类,获得识别结果; 所述第二级分类器通过如下方式获得:从所述全部训练样本的特征集中,提 取所述n个类别所对应的特征集进行分类器训练,获得基于支持向量机的所 述第二级分类器。

还可以包括:结果显示模块304,用于:显示所述识别结果。

测试样本采集模块301可以是数码相机等,在野外直接采集植物数字图 像,通过无线的方式发给远端的服务器进行两级分类器的识别,然后把识别 结果在直接无线传输回拍摄现场的终端设备,使现场的操作人员能立即知道 所拍摄植物的种类和价值。

当然,测试样本采集模块301也可以通过调用或输入的方式取得测试样 本。

因此,在实际应用中,植物种类识别装置可以是利用现有的相机采集后, 通过无线信号发送到服务器进行识别后,返回给终端一个结果;也可以是整 合入现有终端里的一个软件,直接在本地完成采集、识别和输出结果;也可 以是自己做一个新的终端。

其中,本发明的植物种类识别装置的关键是提出了一个分级SVM分类 器方案。该方案将分类过程分为三部分(如图4):

首先采用基于全部样本特征集训练的支持向量机(SVM1,第一级支持 向量机)进行第一次分类,将测试样本输入SVM1,获得投票数排名前五的 五个类别。所取类别越多,得到正确类别在其中的可能性越大,但是取的太 多会导致计算量的增加,同时太多的类别也会影响二次分类的正确性。取前 五个类别,可以保证较高的准确率和运算速度。

第二步:使用该五个类别的训练样本的特征集提取出来,用来训练得到 第二级支持向量机(SVM2)。

第三步:将原测试样本输入,获得分类结果,作为最终结果输出。

该方案通过建立分级分类器,在一级分类的基础上,将样本类别减小到 5个,在很大程度上消除了样本类别增加对识别准确率的影响。

本发明的植物种类识别装置中,n越大,所取类别就越多,得到正确类 别在其中的可能性越大,但是取的太多会导致计算量的增加,同时太多的类 别也会影响第二次分类的正确性。因此,可以让n=5或n=6,取前五个或前 6个类别,可以保证较高的准确率和运算速度。

所述训练样本为花朵数字图像;植物种类识别装置还包括:特征集获取 模块,用于:根据花朵的中心对称和放射性的结构特点,将所述花朵数字图 像分割为特征环区域,对所述特征环区域进行特征提取,获得所述花朵数字 图像的图像特征;对训练样本库中的所有花朵数字图像进行特征提取,获得 所述全部训练样本的特征集。

本发明实施例所采用的样本库与实验结果如下:本发明实施例所提出的 方法已被应用于花卉种类识别原型系统。通过为期一年的实地拍摄,建立了 包括矮牵牛、迎春、连翘、郁金香、多花蔷薇、三色堇、月季、孔雀草、金 盏菊、南非万寿菊、白晶菊、雏菊、茉莉、蝴蝶兰、膜叶秋海棠、鸢尾、棣 棠、华北漏斗菜、月季、藤本月季、芍药等50种花卉(1030张图像)在内 的样本库。使用本发明所定义的基于花卉生长特性的特征定义对样本库进行 特征提取,建立了训练特征集,并输入SVM分类器进行训练。使用训练出 的支持向量机建立了基于SVM的分级多类分类器。并使用该分类器对测试 样本库进行了识别测试。其中将样本集中的780张图像(每类不少于10张) 用作训练集,250张图像(每类5张图像)用作测试集进行实验。最终识别 率为90.8%。实验数据如表2-2所示。

表2-2,50种花卉识别结果

  类别号   识别率   类别号   识别率   类别号   识别率   类别号   识别率   类别号   识别率   1   80%   11   60%   21   80%   31   100%   41   100%   2   100%   12   100%   22   100%   32   80%   42   100%   3   100%   13   100%   23   100%   33   40%   43   100%   4   20%   14   100%   24   100%   34   40%   44   60%   5   100%   15   100%   25   80%   35   100%   45   100%   6   100%   16   100%   26   100%   36   100%   46   100%   7   100%   17   100%   27   100%   37   100%   47   100%   8   100%   18   100%   28   100%   38   80%   48   100%   9   80%   19   100%   29   100%   39   100%   49   100%   10   60%   20   100%   30   80%   40   100%   50   100%

以上数据为使用自建的花卉图片样本库进行的实验结果,其中三类样本 识别准确率偏低,一方面是由于样本拍摄条件有限,出现了花朵残缺、明显 的阴影等干扰条件,另一方面,由于一类样本的测试样本数较小,不良样本 对于识别准确率的影响过大造成。

目前已有的采用自建样本库进行的花卉种类识别的研究实验结果如下: Takeshi Saitoh等使用十个特征对其拍摄的30类花卉进行识别,达到了91% 的识别准确率;

本发明方法与其他方法对此图像库的的识别准确率对比如表2-3,表中 其他方法的实验数据来自Tzu-Hsiang Hsu等的论文(Tzu-Hsiang Hsu等, 2010)。

其中Zou和Nagy等方法的交互是指其在识别过程中,采用了一个曲线 模型拟合花朵区域形状。对于错误的识别结果,允许用户对于拟合的曲线进 行多次修正,重新计算识别结果,因而得到了较高的识别率(George Nagy 和Jie Zou,2004)。

表2-3 对Zou和Nage的图像库的实验识别准确率对比

  方法   识别准确率   HongA等方法   39.5%   Zou和Nagy等方法(无交互)   52%   Zou和Nagy等方法(有交互)   93%   Saitoh等方法   65.5%   Tzu-Hsiang Hsu等方法   77.8%   本文方法(1∶1分配训练样本集)   76.4%   本发明方法(2∶1分配训练样本集)   82.5%

与其他方法相比,本发明方法在更多的样本类别数下,达到了较高的准 确率。实验证明本发明的特征对于花卉图像更具有针对性和区别性,能够有 效的反应花卉特征。实验证明本发明提出的分类器方案提高了系统的识别准 确率和健壮性。

由上可知,本发明实施例具有以下优势:

1)本发明通过建立分级分类器,在第一级分类的基础上,将样本类别 减小到3-10个,得到第二级分类器,在很大程度上消除了样本类别增加对识 别准确率的影响。

2)本发明中测试样本采集模块可以是数码相机等,在野外直接采集植 物数字图像,通过无线的方式发给远端的服务器上的分类器进行识别,然后 把识别结果通过无线传输发回到野外终端,使现场的操作人员能立即知道所 拍摄植物的种类和价值。

3)本发明中,两级分类器可以作为远端服务器,远程接受测试样本并 返回识别结果,也可以将两级分类器与测试样本采集模块做在一个终端内, 现场采集现场识别。

4)本发明实施例中,让n=5,取前五个类别,可以同时保证较高的准确 率和运算速度。

5)因为特征环更适合描述花朵的中心对称和放射性的生长特征,因此, 本发明实施例中所提取的花朵图像特征能建立有效区分花朵的特征体系,基 于该特征提取方法所进行的花卉种类识别可达到较高的准确率。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号