首页> 中国专利> 生活记录照相机和使用语音触发器来控制其的方法

生活记录照相机和使用语音触发器来控制其的方法

摘要

一种生活记录照相机,其被配置为,在检测到由存在于生活记录照相机处的麦克风输出的音频信号中的、基于声音的触发器时,在没有用户输入的情况下捕捉数字图像。该基于声音的触发器指示用户或靠近用户的另外的人的活动。

著录项

  • 公开/公告号CN106537893A

    专利类型发明专利

  • 公开/公告日2017-03-22

    原文格式PDF

  • 申请/专利权人 索尼公司;

    申请/专利号CN201580033684.8

  • 申请日2015-04-30

  • 分类号H04N5/232;H04N7/18;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人吕俊刚

  • 地址 日本东京都

  • 入库时间 2023-06-19 01:51:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-01-14

    授权

    授权

  • 2017-04-19

    实质审查的生效 IPC(主分类):H04N5/232 申请日:20150430

    实质审查的生效

  • 2017-03-22

    公开

    公开

说明书

技术领域

本公开的技术总体涉及生活记录(lifelog)照相机,更具体地涉及一种响应于语音触发器而被控制进行拍照的生活记录照相机。

背景技术

生活记录照相机是,通常由用户佩戴且用于捕捉服务发生在用户附近的事件的照相存储器的相片的照相机装置。传统生活记录照相机被配置为在定时基础上捕捉图像。在一些装置中,例如,每30秒捕捉图像。如果被使得在数小时或一整天的过程期间拍照,则生活记录照相机可能以预定时间间隔拍摄数百或数千照片。在该方法下,由传统生活记录照相机捕捉的图像中的许多不是非常有趣。因此,生活记录照相机的存储器可能变得充满着用户不感兴趣的相片。更引人注目的时刻可能相当快速地发生在用于拍照的定时增量之间。然而,难以确定这些引人注目的时刻何时发生。

提高所存储图像的吸引力的一种提出的方式是,评价用于值得保持的视觉内容的相片,诸如含有人或特定类型的对象的图像。可以删除剩余图像。该方法的问题是,该方法是处理器密集型且消耗电力,这降低电池寿命。

另一种提出的技术是,将相片的拍摄同步到装置的位置,诸如被预定为具有感兴趣的位置或用户之前尚未行进到的位置。但这形成可能不产生用户生活事件的感兴趣描绘的、关于位置的假定。即,在该方法中,产生的图像可能不完全“讲述”用户的故事。同样,一些新位置(例如,停车场)可能相当寻常。

另一种方法是,降低捕捉相片之间的时间间隔,但这导致在错误的场合捕捉太多的数据。拍摄大量不感兴趣的相片可能骚扰用户,并且消耗电池寿命和数据存储空间。

发明内容

用于控制生活记录照相机的操作的所公开技术包括:检测作为用于拍摄一个或更多个相片的触发器的语音事件。检测语音触发器充当用于识别可能含有相片的感兴趣主题的代理者(proxy)。随着在兴趣方面相片主题的增加,利用生活记录照相机产品对用户体验的有利性也将提高。因此,所公开技术被设计为,尝试捕捉具有感兴趣主题的图像,或捕捉比仅使用基于时间方法时至少更高比例的感兴趣图像。

根据公开的一个方面,提供了一种用生活记录照相机来捕捉并存储数字图像的方法,该生活记录照相机被配置为在没有命令捕捉数字图像的用户输入的情况下捕捉数字图像,该方法包括以下步骤:检测由存在于生活记录照相机处的麦克风输出的音频信号中的、基于声音的触发器,该基于声音的触发器指示用户或靠近用户的另一个人的活动;用生活记录照相机的照相机模块捕捉数字图像,由对基于声音的触发器的检测来触发所述捕捉;以及将数字图像存储在存储器中。

根据方法的一个实施方式,基于声音的触发器包括人的语音。

根据方法的一个实施方式,基于声音的触发器包括:在没有讲话的预定时间段之后对讲话者的检测。

根据方法的一个实施方式,基于声音的触发器包括:在对话已经在进行中时对新讲话者的检测。

根据方法的一个实施方式,基于声音的触发器包括:对语音的特性的变化的检测。

根据方法的一个实施方式,语音的特性是如下各项中的至少一个:音高(pitch)、音调(tone)、声调(intonation)、音量、讲话速度、选词、语言结构、语言、情感的表达、情绪或讨论的主题。

根据方法的一个实施方式,基于声音的触发器包括:对姓名或问候的检测。

根据方法的一个实施方式,基于声音的触发器包括人生成的声音。

根据方法的一个实施方式,基于声音的触发器包括笑、喝彩、喘息、欢呼或歌唱中的至少一个。

根据本公开的另一个方面,提供了一种生活记录照相机,该生活记录照相机被配置为在没有命令捕捉数字图像的用户输入的情况下捕捉数字图像,该生活记录照相机包括:控制电路,该控制电路被配置为,检测由存在于生活记录照相机处的麦克风输出的音频信号中的、基于声音的触发器,该基于声音的触发器指示用户或靠近用户的另一个人的活动;照相机模块,该照相机模块响应与对基于声音的触发器的检测在控制电路的控制下捕捉数字图像;以及存储器,数字图像存储在该存储器中。

根据生活记录照相机的一个实施方式,基于声音的触发器包括人的语音。

根据生活记录照相机的一个实施方式,基于声音的触发器包括如下各项中的一个:在没有讲话的预定时间段之后对讲话者的检测,或在对话已经在进行中时对新讲话者的检测。

根据生活记录照相机的一个实施方式,基于声音的触发器包括:对语音的特性的变化的检测。

根据生活记录照相机的一个实施方式,语音的特性为如下各项中的至少一个:音高、音调、声调、音量、讲话速度、选词、语言结构、语言、情感的表达、情绪、或讨论的主题。

根据生活记录照相机的一个实施方式,基于声音的触发器包括:对姓名或问候的检测。

根据生活记录照相机的一个实施方式,基于声音的触发器包括呈如下各项中的至少一个的形式的人生成的声音:笑、喝彩、喘息、欢呼、或歌唱。

根据生活记录照相机的一个实施方式,生活记录照相机还包括麦克风。

根据生活记录照相机的一个实施方式,生活记录照相机还包括:具有与和生活记录照相机分离的另一个电子装置的接口,并且麦克风是另一个电子装置的一部分。

根据本公开的另一个方面,提供一种用生活记录照相机来捕捉并存储数字图像的方法,该生活记录照相机被配置为,在没有命令捕捉数字图像的用户输入的情况下捕捉数字图像,该方法包括以下步骤:用生活记录照相机的照相机模块捕捉数字图像,由用于捕捉图像的时间表来触发该捕捉;分析由存在于用于基于声音的触发器的生活记录照相机处的麦克风输出的音频信号,该基于声音的触发器指示用户或靠近用户的另一个人的活动,并且在数字图像的捕捉之前的预定时间量内发生,或在数字图像的捕捉之后的预定时间量内发生;以及如果检测到基于声音的触发器,则将数字图像存储在存储器的图像储存器中用于稍后显示或递送到与生活记录照相机分离的电子装置;否则不将数字图像保持在生活记录照相机中用于稍后显示或递送到与生活记录照相机分离的电子装置。

附图说明

图1是采用语音事件作为用于拍摄一个或更多个相片的触发器的生活记录照相机的示意框图。

图2是由生活记录照相机进行的照相机控制功能的流程图。

具体实施方式

现在将参照附图来描述实施方式,在附图中,类似的附图标记用于自始至终提及类似的元件。将理解的是,附图不必是等比例。关于一个实施方式描述的和/或例示的特征可以以相同方式或类似方式用于一个或更多个其他实施方式中,和/或与其他实施方式的特征组合或代替其他实施方式的特征来使用。

下面结合附图来描述电子装置和控制电子装置拍照的方法的各种实施方式。电子装置通常是但不必须是专用生活记录照相机。在其他实施方式中,电子装置可以为某一其他便携式电子装置,诸如但不限于移动电话、平板计算装置、游戏装置、数字傻瓜相机或媒体播放器。

初始参照图1,其例示了被配置为生活记录照相机10的示例性电子装置的示意框图。生活记录照相机10可以用针或夹子固定到用户所穿戴的衣服。在其他结构中,生活记录照相机10被配置为手镯或表带、戒指、头巾、眼镜、衣服、穿孔(piercing)等。

生活记录照相机10包括照相机模块12。照相机模块12包括用于成像场景以生成静止图像(并且在一些情况下生成视频)的适当光学器件和传感器。由照相机模块12捕捉的图像和视频可以存储在存储器16的图像储存器14中。

生活记录照相机10包括控制电路18,该控制电路18负责生活记录照相机10的整体操作,包括控制何时用照相机模块12捕捉图像。在一个实施方式中,控制电路18包括执行操作指令的处理器20。在一个实施方式中,对是否捕捉并存储图像的控制,作为成像引擎22的一部分来具体实施。成像引擎22也可以存储在存储器16中。

成像引擎22可以以可执行逻辑例程(例如,代码行、软件程序、固件等)的形式来具体实施,可执行逻辑例程存储在生活记录照相机10的永久计算机可读介质(例如,存储器16)上,并且由控制电路18来执行。所述操作可以被认为是由生活记录照相机10执行的方法。

控制电路18的处理器20可以是:执行代码以便进行生活记录照相机10的操作的中央处理单元(CPU)、微控制器或微处理器。存储器16例如可以为缓冲器、闪存、硬件驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)、或其他合适装置中的一个或更多个。在典型结构中,存储器16包括用于长期数据存储的非易失性存储器和起用于控制电路18的系统存储器作用的易失性存储器。存储器16可以通过数据总线与控制电路18交换数据。存储器16与控制电路18之间的伴随控制线和地址总线也可以存在。存储器16被认为是永久计算机可读介质。

生活记录照相机10可以包括用于与另一个装置(诸如计算机、移动电话、用于建立因特网访问的无线路由器等)建立通信的接口。示例接口为:用于使用电缆建立到另一个装置的连接的电连接器和接口电路形式的输入/输出(I/O)接口24。典型I/O接口24为USB端口。可以通过I/O接口24来接收操作电力和/或对生活记录照相机10的电池(未示出)进行充电的电力。电池可以在不存在外部电源时提供操作生活记录照相机10的电力。另一个示例接口为无线接口26。无线接口26例如可以为根据蓝牙标准、WiFi标准或另一个无线标准操作的接口26。另一个无线接口26可以为个人内部局域网(intrapersonal area network)(诸如人体局域网(BAN))。可以存在多个无线接口26,以通过多个标准(例如,BAN、蓝牙以及WiFi中的两个或更多个)操作。

生活记录照相机10可以包括用于显示所捕捉图像且用于帮助用户调节设置的显示器。然而,预期的是生活记录照相机10将不包括显示器,并且使用连接的装置或在将图像从生活记录照相机递送到另一个装置之后来观看图像。

在一个实施方式中,存在麦克风28来捕捉音频。所捕捉的声音可以充当用于由生活记录照相机10捕捉的视频的音频成分。如将描述的,生活记录照相机10可以监测针对语音事件(还被称为语音触发器)由麦克风28输出的音频信号,如果被检测到,则语音事件用于启动照相机模块12来捕捉相片。在一些实施方式中,触发语音事件使得捕捉多于一个相片或使得捕捉视频。如由处理器20执行的成像引擎22可以具有监测由麦克风28输出的音频信号的责任。

在所例示的实施方式中,麦克风28是生活记录照相机10的一部分,并且由生活记录照相机10来进行语音触发器的监测。在另一个实施方式中,输出针对语音触发器监测的音频信号的麦克风是另一个装置(诸如由生活记录照相机10的用户携带的移动电话)的一部分。在该实施方式中,音频信号诸如通过无线接口26而传达到生活记录照相机10,以便处理。在仍然另一个实施方式中,输出针对语音触发器监测的音频信号的麦克风是另一个装置(诸如移动电话)的一部分,并且另一个装置还处理音频信号,以检测语音触发器。如果另一个装置检测到语音触发器,则诸如通过无线接口26来向生活记录照相机10传达用于捕捉指示语音触发器的检测的相片或消息的命令。

虽然未例示,但生活记录照相机10可以包括或接收来自其他传感器的信号,该其他传感器生成也可以在图像捕捉中起作用的各输出。示例传感器包括但不限于:加速计或其他动作传感器、全球定位系统(GPS)接收器、电场传感器、磁力计、罗盘、生物传感器(例如,皮肤电反应(GSR:galvanic skin response)传感器、脉搏率监测仪、瞳孔扩张和/或眼睛移动传感器、脑波活动传感器、血压传感器、体温传感器、肌肉收缩传感器等中的一个或更多个)。

另外参照图2,其例示了表示可以由生活记录照相机10进行以控制图像的捕捉和存储的步骤的流程图。虽然以逻辑进行来例示,但所例示块可以以其他顺序,和/或在两个或更多个块之间同时进行。因此,所例示流程图可以被改变(包括忽略步骤),和/或可以以面向对象方式或面向状态方式来实施。

逻辑流可以在块30中开始。在块30中,可以针对是否应捕捉基于时间的图像进行确定。在一个实施方式中,即使生活记录照相机10还被配置为捕捉基于其他准则的图像,但生活记录照相机10也可以被配置为以预定间隔(例如,每20秒一次或每30秒一次)来捕捉图像。可以由用户来开启或关闭基于时间的图像的捕捉。因此,块30中的确定可以包括确定是否开启定时图像捕捉功能,如果是,则确定图像捕捉之间的预定时间间隔是否已经经过来实施用于捕捉图像的、基于时间的时间表。

如果在块30中进行肯定确定,则逻辑流可以进行到块32。在块32中,使用照相机模块12来捕捉图像,并且缓冲对应的数字照片。自动且在没有命令图像的拍摄的用户参与(例如,没有用户输入(诸如触摸快门按钮))的情况下拍摄在块32中捕捉的图像。

在块32之后,可以在块34中针对是否在从块32中图像的捕捉开始的预定时间量内检测到语音触发器进行确定。预定时间量可以为短于如块30中所确定的连续图像捕捉之间的时间间隔的任意时间量。同样,引起块34中的肯定确定的语音触发器可以在块32中的图像捕捉之前或之后。图像捕捉之前的、用于语音触发器的预定时间量不需要与在图像捕捉之后的、用于语音触发器的预定时间量相同。示例性预定时间大约为块32中的图像捕捉之前的五秒,和块32中的图像捕捉之后的15秒。另外一组示例性预定时间大约为块32中的图像捕捉之前的两秒,和块32中的图像捕捉之后的5秒。将理解,可以采用其他预定时间。

如果未在定时图像捕捉之前或之后预定时间量中检测到语音触发器,那么逻辑流可以进行到块36。在块36中,不保持图像(例如,从存储器16删除图像)。另选地,如果在定时图像捕捉之前或之后预定时间量内检测到语音触发器,那么逻辑流可以进行到块38。在块38中,将图像保持在图像储存器14中,以便随后递送到另一个装置和/或观看。在块36或块38中适当的一个之后,逻辑流可以返回到块30。

如将针对块40讨论的,生活记录照相机10可以被配置为检测包括语音触发器,该语音触发器指示由用户或另一个人进行的活动的语音事件。预期的是,从这些时刻捕捉和/或保持相片将引起:比在不关于用户或靠近用户的人的活动的情况下在定期基础上拍摄的图像更感兴趣的图像的收集。

在一个实施方式中,可以在块38中对被识别以便存储的图像进行额外的后处理。比如,可以进行图像分析,以搜索感兴趣的特性,诸如图像中的物体或人。如果确定图像具有感兴趣特性,那个它可以被保持;如果图像不含有感兴趣的特性,则可以删除图像。其他后处理可以包括通过比较图像的特性来确定图像是否是更早存储的图像的冗余。如果确定图像是冗余的,则可以删除图像,并且如果图像不是冗余的,则可以保持图像。在一个实施方式中,独立但具有不同面部表情,或处于不同设置的两个图像不被认为是冗余的。

如果在块30中进行否定确定,则逻辑流可以进行到块40。在块40中,针对所监测音频信号(例如,来自麦克风28的输出)是否含有语音触发器进行确定。如果是,则逻辑流进行到捕捉并存储图像的块42。自动且在没有命令图像的拍摄的用户参与(例如,没有用户输入(诸如触摸快门按钮))的情况下拍摄在块42中捕捉的图像。在块42之后或在块40中的否定确定之后,逻辑流可以返回到块30。

在由图2的流程图表示的方法的一个实现实施方式中,生活记录照相机10连续监测语音触发器。如果检测到语音触发器,那么用照相机模块12捕捉至少一个图像或视频,并存储在存储器16中。

在一个实施方式中,在块42中捕捉多于一个图像。比如,可以以半秒、一秒或两秒的间隔来捕捉两个、三个、四个或五个图像。这可以提高捕捉一个或更多个感兴趣的相片(例如,诸如含有讲话者或用户讲话的人的图像的相片)的机会。在其他情况下,生活记录照相机10可以响应于块40中语音触发器的检测而捕捉视频。可以针对预定的时间量(诸如五秒或十秒)来捕捉视频。要捕捉的图像的数量,或代替或除了捕捉一个或更多个图像之外捕捉视频的确定,可以基于被检测的语音触发器的类型和/或被检测语音触发器的强度(例如,讲话者被确定为恼怒的相对于非常生气,或讲话者以低语或提高的音量讲话相对于正常音量)。

现在将讨论各种类型的语音触发器。语音触发器可以应用于在麦克风28范围内的任意讲话者,包括用户或另一个个人。其他个人不需要将他的/她的讲话指向用户。可以采用滤波器来忽略来自电视或收音机的音频,该滤波器可以包括生活记录照相机10与另一个电子装置之间的电子协调,以区分和电视或收音机关联的讲话者与在出现生活记录照相机10时的讲话者。

一个语音触发器是:在预定时间段内(例如,30秒或一分钟)内没有讲话时讲话者的检测。例如,如果用户在计算机处安静地工作,并且另一个人讲话以引起用户的注意力,则可以由另一个人的语音的声音来检测语音触发器。在一个实施方式中,继续的对话(诸如用户在电话呼叫期间或与另一个位于相同位置的人讲话)将不引起语音触发器的检测。同样,较安静的讲话(诸如后台对话)将不引起语音触发器的检测。

另一个语音触发器是:在对话已经在进行中时对新讲话者的检测(例如,当第三人加入两个人的现有对话时)。为此,可以追踪讲话者的语音特性来确定新讲话者或话语是否是从现有方到对话。同样,语音识别和/或讲话识别可以用于该目的。

另一个语音触发器是:对讲话者语音的一个或更多个特性的变化的检测。成像引擎22可以被配置为,检测讲话者讲话时讲话者语音的一个或更多个特性的变化。同样,在讲话者与一个或更多个其他人交谈的情况下,成像引擎22可以被配置为,检测对话期间讲话者语音的一个或更多个特性的变化。例如,在对话期间,讲话者将具有与来自一个或更多个其他讲话者的叙述间插的连续叙述。如果讲话者的当前叙述在形成对话的叙述的交换期间,在来自同一讲话者紧接之前的叙述(或其他更早之前的叙述)的特性方面变化,那么可以检测到语音触发器。

针对变化可以被监测的示例性特性包括先不限于:音高、音调、声调、音量、讲话速度(例如,被定义为包括话语产生速率和讲话期间的暂停长度的讲话速度)、选词和/或语言结构(例如,所用词的类型,诸如常见对话词语、俚语或非正式词语或语言结构、正式词语或语言结构、脏话等)、情绪、情感表达(例如,悲伤、高兴、兴奋、平和、喜爱、害怕、愤怒等)、所讲的语言或方言以及讨论的主题。

监测这些特性中的一些(诸如选词和/或语言结构、特定情感表达、所讲语言或方言以及所讨论主题)可以包括将讲话者的语音转换成文本的讲话识别。该文本可以与具有用于不同词句、语言结构等的预定分类的语言和语法数据库进行比较。用于检测人所讲的语言,和/或用户所讲方言的示例性技术可以在美国第6061646号专利、美国第2013/00300789号专利申请公报以及欧洲第2494546号专利中找到,但可以采用如在各种其他源中描述的其他技术。用于检测对话主题的示例性技术可以在美国第2013/007137号专利申请公报中找到,但可以采用如在各种其他源中描述的其他技术。

可以使用用于检测如在讲话或语音特性中表明的情感的已知技术来完成监测情绪。这可以包括:监测相对于讲话者的正常(或“基线(baseline)”)讲话语音,在用户的讲话中找到的特性(例如,音高、音调、声调、音量、选词等)的组合。情绪可以包括例如高兴、悲伤、愤怒等,各情绪可与讲话者的基线讲话语音区分。在一个实施方式中,基于语音特性(例如,音高、音调、声调、音量、选词、选词和/或语言结构等)来对用于被识别讲话者的不同情绪进行分类。分类可以存储(例如,存储器16中),并用于与当前检测的讲话比较,以确定情绪的变化是否发生。用于检测语音信号中的情感的示例性技术的更详细描述可以在美国第7940914号和第7222075号专利中找到,但可以采用如在各种其他源中描述的其他技术。

在一个实现实施方式中,成像引擎22可以包括:用于各被监测特性的过渡检测模块。过渡检测模块被配置为,检测被监测音频信号中的对应状态过渡,并且如果检测到状态过渡,那么可以在块40中进行肯定确定。

另一个语音触发器可以是:不必是讲话的人所生成的声音(诸如笑、喝彩(例如,鼓掌)、喘息、欢呼、歌唱等)的检测。另一个语音触发器可以为:具体的词语或短语。比如,问候词(英语中的“hello(喂)”或“hi”(嗨),或瑞典语中的“hej”(嘿))可以触发拍照(因为这些词语在遇见另一个人时经常说)。可以用作语音触发器的其他示例性词语或短语包括:用户定义的词(例如,用于生活记录照相机10捕捉图像的命令词)、人的姓名、短语“早上好”等。

在又一个实施方式中,除了语音触发器之外的声音触发器可以用于提示拍照。声音触发器可以是不由人产生且通常不频繁发生的声音。这些非语言表达的声音触发器可以包括:例如火警、车祸、加速马达、突然的大噪声(例如,“突然巨响”)、狗叫或某一其他声音。

在一个实施方式中,可以对块42中捕捉的图像进行额外的后处理。比如,可以进行图像分析来搜索感兴趣的特性,诸如图像中的物体或人。如果确定图像具有感兴趣的特性,则可以保持图像,并且如果图像不含有感兴趣的特性,则可以删除图像。这样,作为语音触发器的检测结果而捕捉的、但不含有讲话者或其他感兴趣特性的相片将不出现在图像储存器中。这在特定环境中(诸如在用户看电视时或在不在照相机模块12的视场内的一个人打电话给用户时(例如,在用户忙于计算机时用户的配偶给用户打电话但未直接出现))可以是有利的。在这些示例性情况下,图像中人的不存在将引起图像的删除。在图像中所捕捉的、在显示器或电视上的人可以通过识别人周围的显示器或电视的图像特性来忽略。

其他后处理可以包括:通过比较图像的特性来确定图像是否是更早存储图像的冗余。如果确定图像是冗余的,则可以删除图像,并且如果图像不是冗余的,则可以保持图像。在一个实施方式中,单独但具有不同面部表情,或处于不同设置中的两张图像不被认为是冗余的。

虽然已经示出并描述了特定实施方式,但理解的是,本领域其他技术人员在阅读并理解本说明书时,将想到落在所附权利要求范围内的等同物和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号