法律状态公告日
法律状态信息
法律状态
2016-04-06
授权
授权
2013-12-04
实质审查的生效 IPC(主分类):G06N3/00 申请日:20130730
实质审查的生效
2013-11-13
公开
公开
技术领域
本发明属于动物机器人行为计算和智能控制领域,具体涉及一种可简化大鼠行为模式的大鼠机器人训练装置,以及基于该自动训练装置的大鼠行为识别方法和训练方法。
背景技术
动物机器人是指利用动物的运动机能、动力供应体制,从动物的感受传入或神经支配入手,实现对动物的运动和某些行为的人为控制。动物机器人在能源供给、运动灵活性、隐蔽性、机动性和适应性方面较传统机器人具有更明显的优势。已有的动物机器人包括大鼠机器人、飞蛾机器人、鲨鱼机器人、甲虫机器人、海豚机器人、鸽子机器人、蟑螂机器人、壁虎机器人,以及金鱼机器人等。其中大鼠机器人的研究相对成熟,通过在大鼠脑区(如内侧前脑束MFB、体感皮层桶状区BF)植入电极,借助大鼠所背的小型无线电子背包对大鼠脑部发出相应的微电刺激指令,引导大鼠向左走、向右走和向前走,从而实现大鼠机器人在复杂环境下的自由导航。
大鼠机器人用于导航前需要进行行为训练,训练的目地是使大鼠学会按照所给的电刺激指令来做出相应的行为:“向左”刺激提示,则往左走,“向右”刺激提示,则往右走,“向前”刺激,则往前走。其中左右电刺激施加在大鼠体感皮层桶状区两侧(这个部位的刺激能给大鼠虚拟的左、右提示),奖赏电刺激施加在大鼠中脑腹侧被盖区(VTA)或内侧前脑束或(这个部位的刺激能给大鼠带来兴奋、愉悦感)。训练的原理是操作性条件反射(operant conditioning):给予大鼠向左(向右)刺激提示,若大鼠出现向左(向右)走的行为,则给予奖赏电刺激,通过反复 的训练之后,大鼠一旦受到左(右)刺激提示,便会相应的向左(右)走;若只给予大鼠奖赏电刺激,大鼠会因为兴奋感向前移动,通过反复训练之后,大鼠在受到奖赏电刺激的时候,会朝着当前方向前进。
传统大鼠机器人训练方式是人工训练,训练过程要持续1到2周,1天2到3次,1次1个小时左右,训练过程中训练员需要一直观察大鼠的行为和状态,并且根据大鼠的行为给予适当的电刺激。由此可见人工训练存在以下问题:(1)训练员必须有训练大鼠的经验,且在训练过程中对大鼠的状态能够做出较为准确的判断;(2)整个训练过程耗费时间长且单调枯燥,训练员会感到疲劳乏味,在给大鼠电刺激引导的过程中有可能出现错误(3)训练过程中大鼠的行为和生理状态没有被记录,无法对大鼠进行定量的分析,这对大鼠行为学的研究来说是一个很大的损失。
其次,要实现大鼠机器人导航的自动训练,需要对训练过程中大鼠的行为进行准确的识别。传统采用顶部摄像头或者底部摄像头跟踪的方法,通过在大鼠头部、背部或者腹部、四肢做颜色标记来识别大鼠的行为,这种行为识别的方法虽然简单,但在实际操作中较为繁琐;另外,这种基于视频跟踪的行为识别方法大多根据动物的轮廓或者骨架信息来判断某个时刻的行为,实际上这并不准确,行为是一个过程量,而不是在某个时刻就可以被判断,比如根据当前一帧图像中的轮廓信息计算出大鼠有个向左摆的姿势,但不能说明大鼠此刻想要向左走,大鼠也可能正要向右摆动。
再者,要实现更为有效的自动训练,需要对训练过程中大鼠的状态有较好的判断,比如大鼠静止不动,则应该加大奖赏电刺激,若大鼠移动速度过快,则应该减少奖赏电刺激或者加大奖赏电刺激的间隔。但传统大鼠机器人的导航控制,并没有考虑大鼠的状态,只是根据导航目标和大鼠的空间分布给予机械的参数固定的刺激。
大鼠的训练过程中,行为模式比较复杂,尤其是现有的训练装置中,大鼠可以在迷宫的通道内转身,使得对大鼠的移动方向和速度很难进行预判,加大了训练难度和监控的难度。
在现有技术中,对大鼠的行为模式主要靠人工观察,效率和准确度都不理想,如何利用视频监控自动识别大鼠行为也是尚待解决的问题。
发明内容
本发明提供了一种可以简化大鼠行为模式,提高了信息反馈准确率的训练装置。
一种面向导航的大鼠机器人自动训练装置,包括:
能够三维移动的八臂载体;
固定在所述八臂载体上的八臂迷宫,且该八臂迷宫包括中心区域以及绕中心区域均匀分布的八条通道,各通道均为单向通道,在各通道的尽头设有大鼠回转区;
处在所述八臂迷宫的上方的摄像头;
用于采集摄像头信号的计算机;
通过老鼠衣固定于大鼠背部的电刺激背包,电刺激背包通过蓝牙方式接收来自所述计算机的指令。
所述大鼠回转区为了便于大鼠行进至通道尽头后转身,大鼠回转区可以适当宽于通道或在大鼠回转区的周围不设置所述的透明墙板。例如在通道的尽头透明墙板约短15cm,以便留出的空间便于大鼠转身,作为优选,透明墙板加高设置用于约束大鼠的行为。
各单向通道通过合适的宽度可以避免大鼠转身,大鼠在通道无法转身使得行为模式和数量大幅减少,简化了训练以及图像识别过程,提高了信息反馈的准确率。
能够三维移动的八臂载体可以升降和平移。便于根据需要调整位置。
所述八臂迷宫由透明底板以及可拆卸连接在透明底板顶面的透明墙板围成。透明墙板和透明底板可以采用有机玻璃。
所述的大鼠可选用常用实验鼠,纯白或者纯黑,对实验鼠的大小没有严格限制。
所述的摄像头焦距可调,可选用TAMRON的镜头(13VM2812ASII)和IMAGINGSOURCE的USB2.0彩色相机(DFK21BU04)组装,摄像头位于八臂迷宫的正上方。
本发明提供了一种大鼠行为识别方法,可通过视频监控以及图像处理技术实现大鼠训练的自动控制。
一种基于图像处理的八臂迷宫中大鼠行为识别方法,包括以下步骤:
a)在本发明所述的大鼠机器人自动训练装置中放入大鼠,利用摄像头实时采集八臂迷宫俯视图,得到带有大鼠的实时环境图像;
对当前帧进行二值化处理得到灰度图Ic;对于放入大鼠前的八臂迷宫俯视图进行二值化处理得到灰度图Ib;将灰度图Ic与灰度图Ib做差分处理得到差分图Id;
b)对差分图Id做腐蚀操作,并计算目标像素点个数Nr;
大鼠为白色则计算白色像素点,一般要求大鼠的颜色与八臂迷宫以及背景的颜色有一定色差,本发明中八臂迷宫采用透明材料,便于根据需要更换背景颜色。
c)用第一参照矩形框(80像素×80像素)由行到列均以40像素的步差搜索整个差分图Id,找出目标像素点最多的第一参照矩形框位置,计算该第一参照矩形框中目标像素点的平均位置Pr作为大鼠的身体质心位置,以平均位置Pr为中心建立跟踪矩形框Rr;所述参照矩形框与踪矩形框大小相同;
d)在差分图Id中以踪矩形框Rr为感兴趣区域(region of interest,即ROI)建立新的图像Ir,采用Shi-Tomasi特征提取方法提取得到图像Ir中的角点;
作为优选,提取得到图像Ir中的角点后,去掉位于八臂迷宫边沿和跟踪矩形框Rr边框位置的无效角点。
e)用第二参照矩形框(40像素×40像素)由行到列均以10像素为步差搜索跟踪矩形框Rr,找到角点最多的第二参照矩形框Rs,计算第二参照矩形框Rs中各角点的平均位置Ph作为大鼠的头部质心位置,并根据平均位置Ph相对于平均位置Pr的指向获得大鼠的身体朝向θb;
f)计算(优选采用非金字塔的Lucas-Kanade稠密光流的算法)第二参照矩形框Rs中运动跟踪点的个数Nm和平均偏转方向θh,θh做为大鼠的头部偏转方向。
由平均位置Pr、平均位置Ph、以及大鼠的身体朝向θb可得当前大鼠在八臂迷宫上的空间分布,例如是否处在通道内、处在哪个通道内等。
所述头部偏转方向θh代表大鼠想要移动的方向,可知大鼠当前想要移动的方向(左、右、前、后缩)。
所述八臂迷宫中大鼠行为识别方法,还包括对大鼠爬墙状态的识别,包括首先判定大鼠是否在通道内,若是则对比步骤b)中目标像素点个数Nr与阈值N,若目标像素点个数Nr<阈值N则认为大鼠处在爬墙状态。
判别大鼠在八臂迷宫的通道内是否有爬墙行为时,具体判定方法如下:
其中Nr为目标像素点个数,N为目标点像素个数的阈值(预先设定,在具体实施中,N的大小依据老鼠体型设定,Bclimb为布尔型变量,值为真(True)代表大鼠具有爬墙行为。阈值N的大小依据老鼠体型设定,获取大鼠不同姿态爬墙时目标点像素个数,取最大值作为阈值,低于该阈值均认为出现爬墙状态。
所述的八臂迷宫中大鼠行为识别方法,还包括对大鼠静止状态的识别,若连续50帧步骤f)中运动跟踪点个数Nm都为0,则认为大鼠处在静止状态。
本发明还提供了一种基于条件反射进行大鼠机器人训练的方法。
一种利用本发明所述的大鼠机器人自动训练装置进行大鼠机器人自动训练的方法,包括:
(1)利用摄像头在八臂迷宫正上方采集得到放入大鼠前的八臂迷宫俯视图作为背景环境图像,在所述环境图像上对八臂迷宫关键位置点进行标定,得到迷宫地图;例如各个通道为矩形,那么矩形的四个端点即为八臂迷宫关键位置点,另外中心区域的中点也是八臂迷宫关键位置点;
(2)设定训练阶段;
(3)将大鼠放置在八臂迷宫中任一位置开始训练,利用摄像头实时采集八臂迷宫俯视图,得到带有大鼠的实时环境图像;
在实时环境图像中利用本发明所述的识别方法获取大鼠行为;
(4)结合大鼠当前所处的训练阶段以及步骤(3)获取的参数向大鼠发送相应的刺激指令,直至完成所有训练阶段。
作为优选,所述训练阶段包括三个:
S1,只用奖赏电刺激,
在大鼠运动过程中,若运动路径正确或静止,则对大鼠施加奖赏电刺激,驱使大鼠顺时针或逆时针沿八臂迷宫各个通道走一圈;
S2,结合左、右电刺激和奖赏电刺激,
在大鼠走出八臂迷宫的某一通道时,施加左电刺激或右电刺激,驱使大鼠顺时针或逆时针进入下一相邻通道,直至沿八臂迷宫各个通道走一圈,在大鼠运动过程中,若运动路径正确或静止,对大鼠施加奖赏电刺激;
S3,在大鼠走出八臂迷宫的某一通道时,随机施加左电刺激或右电刺激,驱使大鼠进入对应的下一相邻通道,直至完成设定数量(例如10次,即正确完成10个通道的进出)通道的进出,在大鼠运动过程中,若运动路径正确或静止,对大鼠施加奖赏电刺激。
作为优选,所述奖赏电刺激采用如下动态调节方式:
设定奖赏电刺激的等级;
若静止行为次数超过阈值,则提高等级;
若连续n帧大鼠的平均速度超过阈值,则降低等级。
为了考虑大鼠的疲劳,若当前训练阶段的训练时间超过30分钟,则停止当前训练阶段。
所述静止行为次数和平均速度在步骤(3)中通过实时环境图像提取获得。
若静止行为次数NQ超过阈值Nq(例如取值为3),则提高刺激等级L=L+1;
若连续n帧(例如n取值为150,整个时间段为10s)平均速度VR超过阈值Vr(依大鼠平常速度设定),则降低等级L=L-1;
若训练时间Ttrain超过30分钟,则停止该回合训练;
如下公式所示(其中xi和yi为平均位置Pr在跟踪坐标系中的横坐标 和纵坐标)。
i为连续n帧中各帧的序号,例如n最大值为50;
T为起始帧。
其中奖赏电刺激等级L如下表1所示,Num表示电刺激的连续脉冲个数,Amplitude表示电刺激的幅值(电压,单位mv),这两个刺激参数越大老鼠越容易兴奋,L=1是能够保证大鼠有正常寻求奖赏反应的最小等级,L=6是能让老鼠有正常寻求奖赏反应的最高等级,k和a依据所训练的大鼠由人工设定。
表1
在训练过程中,为了自动对大鼠施加电刺激,则需要对大鼠的运动路径正确与否的进行判定。
既可以利用大鼠在通道内的运动方向,结合在通道进出口处的头部偏转方向来进行简单判断,也可以采用带有空转移的非确定性有限自动机(ε-NFA)建模以辅助判定。
建模时结合当前所在的训练阶段、平均位置Pr和平均位置Ph三个元素共同定义自动机的状态(state),在相应的状态里出现向目标状态转移的行为则给予大鼠及时的左、右电刺激提示和奖赏电刺激,反之(如爬墙、偏离目标方向移动等)则不给予大鼠奖赏。在两种情况下若识别出静止行 为,都给予大鼠奖赏电刺激使其兴奋从而活动起来。
本发明有益效果为:
(1)本发明训练装置中各单向通道通过合适的宽度可以避免大鼠转身,大鼠在通道无法转身使得行为模式和数量大幅减少,简化了训练以及图像识别过程,提高了信息反馈的准确率。
(2)本发明大鼠行为识别方法,可通过视频监控以及图像处理技术实现大鼠训练的自动控制。无需人工干预,将训练人员从繁琐冗长的训练任务中解放出来,训练时间比人工训练短;
训练过程中老鼠不会受到人工训练时出现的噪音(如输出刺激命令时点击鼠标发出的声音)的干扰;且实现了过程的自动化,避免人工训练过程中训练人员引入的主观错误;
不仅如此,本发明大鼠行为识别方法无需在大鼠身上做颜色标记,识别速度快且效果更为准确;
(3)本发明训练方法根据大鼠的行为和训练状态等提供自适应的刺激策略;可对大鼠的行为、轨迹、训练状态、刺激命令等实时记录,便于随时查阅,相关数据可用于大鼠导航行为的定量分析和个性化刺激参数配置;
附图说明
图1为本发明面向导航的大鼠机器人自动训练装置的结构示意图;
图2为本发明加高后的八臂迷宫结构示意图;
图3为本发明大鼠机器人的训练方法的原理框图;
图4为本发明的大鼠机器人的行为识别的流程图。
具体实施方式
如图1所示,本发明一种面向导航的大鼠机器人自动训练装置,包括:
能够三维移动的八臂载体;
固定在八臂载体上的八臂迷宫2,且该八臂迷宫2包括中心区域以及绕中心区域均匀分布的八条通道,各通道均为单向通道,在各通道的尽头设有大鼠回转区;
处在八臂迷宫的上方的摄像头6;
用于采集摄像头信号的计算机4;
通过老鼠衣固定于大鼠背部的电刺激背包5,电刺激背包5通过蓝牙方式接收来自计算机4的指令。
如图2所示,八臂迷宫由透明底板1以及可拆卸连接在透明底板1顶面的透明墙板3(采用树脂玻璃板)围成,对八臂迷宫的透明墙板3进行加高改造,防止大鼠逃逸行为(如攀爬、往外嗅探等)。
八臂迷宫1各个通道长60cm,宽15cm,透明墙板长40cm,宽30cm,透明墙板可以选用粘合剂明矾来固定在通道两侧。大鼠机器人自动训练开始前要用酒精(或清水)擦拭八臂迷宫以消除其他气味可能对训练造成的影响。
摄像头可选用TAMRON的镜头(13VM2812ASII)和IMAGINGSOURCE的USB2.0彩色相机(DFK21BU04)来组装,并通过USB数据线连接计算机,置于八臂迷宫正上方。
一种利用本发明大鼠机器人自动训练装置进行大鼠机器人自动训练的方法,包括:
(1)利用摄像头在八臂迷宫正上方采集得到放入大鼠前的八臂迷宫俯视图作为背景环境图像,在环境图像上对八臂迷宫关键位置点进行标定,得到迷宫地图;各个通道为矩形,矩形的四个端点与中心区域的中点即为八臂迷宫关键位置点;
(2)设定训练阶段,训练阶段包括三个:
S1,只用奖赏电刺激,
在大鼠运动过程中,若运动路径正确或静止,则对大鼠施加奖赏电刺激,驱使大鼠顺时针或逆时针沿八臂迷宫各个通道走一圈;
S2,结合左、右电刺激和奖赏电刺激,
在大鼠走出八臂迷宫的某一通道时,施加左电刺激或右电刺激,驱使大鼠顺时针或逆时针进入下一相邻通道,直至沿八臂迷宫各个通道走一圈,在大鼠运动过程中,若运动路径正确或静止,对大鼠施加奖赏电刺激;
S3,在大鼠走出八臂迷宫的某一通道时,随机施加左电刺激或右电刺 激,驱使大鼠进入对应的下一相邻通道,直至完成设定数量(例如10次,即正确完成10个通道的进出)通道的进出,在大鼠运动过程中,若运动路径正确或静止,对大鼠施加奖赏电刺激。
奖赏电刺激采用如下动态调节方式:
设定奖赏电刺激的等级;
若静止行为次数超过阈值,则提高等级;
若连续n帧大鼠的平均速度超过阈值,则降低等级。
若静止行为次数NQ超过阈值Nq(例如取值为3),则提高刺激等级L=L+1;若连续n帧(例如n取值为150,整个时间段为10s)平均速度VR超过阈值Vr(依大鼠平常速度设定),则降低等级L=L-1;如下公式所示(其中xi和yi为平均位置Pr在跟踪坐标系中的横坐标和纵坐标)。
i为连续n帧中各帧的序号,n最大值为50;T为起始帧。
其中奖赏电刺激等级L如下表1所示,Num表示电刺激的连续脉冲个数,Amplitude表示电刺激的幅值(电压,单位mv),这两个刺激参数越大老鼠越容易兴奋,L=1是能够保证大鼠有正常寻求奖赏反应的最小等级,L=6是能让老鼠有正常寻求奖赏反应的最高等级,k和a依据所训练的大鼠由人工设定。
表1
[0109] 考虑到大鼠的疲劳,若当前训练阶段的训练时间超过30分钟,则停止当前训练阶段。
(3)将大鼠放置在八臂迷宫中任一位置开始训练,利用摄像头实时采集八臂迷宫俯视图,得到带有大鼠的实时环境图像,对大鼠行为进行识别,具体步骤如下;
a)在本发明大鼠机器人自动训练装置中放入大鼠,利用摄像头实时采集八臂迷宫俯视图,得到带有大鼠的实时环境图像;
对当前帧进行二值化处理得到灰度图Ic;对于放入大鼠前的八臂迷宫俯视图(背景帧)进行二值化处理得到灰度图Ib;将灰度图Ic与灰度图Ib做差分处理得到差分图Id;
b)对差分图Id做腐蚀操作,并计算目标像素点个数Nr;
大鼠为白色则计算白色像素点,一般要求大鼠的颜色与八臂迷宫以及背景的颜色有一定色差,本发明中八臂迷宫采用透明材料,便于根据需要更换背景颜色。
c)用第一参照矩形框(80像素×80像素)由行到列均以40像素的步差搜索整个差分图Id,找出目标像素点最多的第一参照矩形框位置,计算该第一参照矩形框中目标像素点的平均位置Pr作为大鼠的身体质心位置,以平均位置Pr为中心建立跟踪矩形框Rr;参照矩形框与踪矩形框大小相同;
d)在差分图Id中以踪矩形框Rr为感兴趣区域(region of interest,即ROI)建立新的图像Ir,采用Shi-Tomasi特征提取方法提取得到图像Ir中的角点;提取得到图像Ir中的角点后,去掉位于八臂迷宫边沿和跟踪矩形框Rr边框位置的无效角点。
e)用第二参照矩形框(40像素×40像素)由行到列均以10像素为步差搜索跟踪矩形框Rr,找到角点最多的第二参照矩形框Rs,计算第二参照矩形框Rs中各角点的平均位置Ph作为大鼠的头部质心位置,并根据平均位置Ph相对于平均位置Pr的指向获得大鼠的身体朝向θb;
f)采用非金字塔的Lucas-Kanade稠密光流的算法计算第二参照矩形框Rs中运动跟踪点(参见《学习open cv》(中文版))的个数Nm和平 均偏转方向θh,θh做为大鼠的头部偏转方向;
(4)结合大鼠当前所处的训练阶段以及步骤(3)获取的参数向大鼠发送相应的刺激指令,直至完成所有训练阶段。
在发出刺激指令时,考虑以下因素,如果大鼠处于爬墙状态不给予奖赏电刺激,判断大鼠是否处于爬墙状态,具体判定方法如下:
其中Nr为目标像素点个数,N为目标点像素个数的阈值,Bclimb为布尔型变量,值为真(True)代表大鼠具有爬墙行为。阈值N的大小依据老鼠体型设定,获取大鼠不同姿态爬墙时目标点像素个数,取最大值作为阈值,低于该阈值均认为出现爬墙状态。
在各个训练阶段过程中,静止状态的识别通过下式判定:若连续50帧步骤f)中运动跟踪点个数Nm都为0,则认为大鼠处在静止不动的状态。
本发明提供的训练方法可以通过软件自动控制,软件原理框架如图3所示,该原理框架包含反应层(reactive layer)和审慎层(deliberative layer):反应层基于视频输入对大鼠的位置、朝向、行为进行行为识别,并依据行为识别结果和所处的当前训练阶段,采用带有空转移的不确定有穷自动机模型(ε-NFA)提供及时和准确的训练刺激;审慎层基于对训练状态的判断和刺激等级的智能划分,采用自动推理规则输出自适应的刺激策略。
自动训练过程中,可通过视频跟踪窗口和软件界面观察自动训练的效果;自动训练结束后,可通过多媒体数据库查阅大鼠机器人在训练过程中的状况,相关数据也可用于大鼠行为的定量分析和个性化刺激参数配置。
机译: 神经网络模型训练方法和装置,交易行为风险识别方法和装置
机译: 基于大鼠海马空间细胞的机器人导航图构建方法
机译: 训练设备,特别是用于训练大鼠,褐家鼠的大熊猫科人类气味的训练设备