首页> 中国专利> 根据用户视点识别动作的界面提供方法及提供装置

根据用户视点识别动作的界面提供方法及提供装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

根据本发明一个实施例，在三维上也实现所述二维指向技术而提供直观的三维用户界面。具体是，根据本发明的一个实施例，实现用户的眼睛、手指、画面上的动作点排列于一条直线上的动作点，从而提供直观的用户界面。

著录项

公开/公告号CN106575160A

专利类型发明专利
公开/公告日2017-04-19

原文格式PDF
申请/专利权人星船自动售货机株式会社;
展开▼

申请/专利号CN201580042708.6
发明设计人全洙永;权志勇;
展开▼

申请日2015-06-25
分类号G06F3/01;
代理机构北京汇泽知识产权代理有限公司;
代理人毛广杰
地址韩国首尔江西区航空大陆61街29C楼206号(登村洞首尔新技术创业中心)
入库时间 2023-06-19 01:53:56

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-07

未缴年费专利权终止 IPC(主分类):G06F 3/01 专利号:ZL2015800427086 申请日:20150625 授权公告日:20200519

专利权的终止
2020-05-19

授权

授权
2017-09-01

实质审查的生效 IPC(主分类):G06F3/01 申请日:20150625

实质审查的生效
2017-04-19

公开

公开

说明书

技术领域

本发明涉及根据用户视点识别动作的界面提供方法和提供装置，具体是，使用户的视点和用户界面显示的画面上的动作地点一致而提供用户界面的界面提供方法及提供装置方法及装置。

背景技术

UNI作为Natural User Interface的缩写，指通过用户的语音或者手势等对人类而言更加直观的方式命令电脑的界面，区别于表示通过文本输入的命令系统的TUI(TextUser Interface)或通过画面中图片触摸板和鼠标给电脑命令的GUI(Graphic UserInterface)。

NUI设备是实现以上说明的NUI所必需的输入设备，通常由用于识别用户语音的话筒和识别用户手势的彩色相机(RGB Camera)和/或者深度相机(Depth Camera)等组成。NUI装置的设备规格不同，但通常拍摄用户身体的全部或一部分后，应用程序应用该3D NUI大致识别用户的手或手指的三维位置如鼠标的游标般应用。具体是，用户在画面面前将手上下左右移动时可以移动画面的游标位置，手进一步伸展按下位于画面上的按钮而执行命令。公开韩国专利公报第10-2012-0070133号(公开日:2012.06.29)也提出了这些内容。

但所述方式一般存在以下问题。从用户的视点，手的位置画面上的游标位置不一样，用户自然以画面上的游标为准看着画面进行互动，因此用户看不了自己的手。用户为了移动画面中的游标，会比较不自然地移动自己的手，而且为了鼠标等输入，要使用更长的时间和付出努力。

上述背景技术是发明人为得到本发明而所拥有或者本发明的研究过程中掌握的技术信息，并不一定是本发明申请前已向普通公众公开的公知技术。

发明内容

技术问题

本发明一个实施例的目的在于，使从用户的视点上看时用户手的位置和画面上显示的用户界面的动作点的位置一体化。

技术方案

作为本发明的技术方案，第一方面是：作为通过直观的界面提供装置执行的根据用户视点识别的界面提供方法，包括：(A)采集用户的眼睛三维位置信息、用户的手三维位置信息以及图像显示装置画面顶点的三维位置信息的步骤；(B)将所述手的三维位置信息映射到所述眼睛和画面之间预先设定的体积正规空间内的步骤；(C)将映射于所述正规空间内的手的三维位置信息投影到所述图像显示装置的画面而转换为所述画面内虚拟空间位置信息的步骤；以及(D)将所述画面内的虚拟空间位置信息决定为提供于所述画面的用户界面操作所需动作点位置的步骤。

根据本发明第二方面涉及的根据用户视点识别动作的界面提供装置包括：采集用户的眼睛三维位置信息、用户的手三维位置信息和图像显示装置画面顶点的三维位置信息的位置信息采集部；将所述手的三维位置信息映射到所述眼睛和画面之间预先设置的体积的正规空间内的映射部；将映射于所述正规空间内的手的三维位置信息投影到所述图像显示装置画面而转换为所述画面内虚拟空间位置信息的画面位置信息生成部；以及，将所述画面内的虚拟空间位置信息决定为提供于所述画面的用户界面操作所需动作点位置的用户界面操作部。

根据本发明的第三方面，为执行第一方面的根据用户视点识别动作的界面提供方法可以提供存储于计算机可读记录介质的计算程序。

根据本发明的第四方面，为了执行第一方面的根据用户视点识别动作的界面提供方法可以提供计算程序被存储的计算机可读记录介质。

有益效果

本发明的有益效果在于，现有的通过眼睛-手指方向的直观指示技术只能应用于在二维上输入坐标(如触摸屏)，若想输入三维上的坐标，则眼睛和手指方向与画面显示的动作点不一致而无法实现直观界面。但本发明的一个实施例是在三维上也实现所述二维指向技术，从而提供直观的三维用户界面；

本发明一个实施例的装置的用途多样，可以在基于GUI的程序中代替鼠标使用，或者在TV画面上代遥控器使用，或者在演示画面上代替激光指示器使用；

为利用直观的三维用户界面而执行指定画面多个顶点的初始设置动作以后，计算画面多个顶点的三维位置信息时，会根据少数变量进行运算，从而减少用户执行初始设置动作所需的时间。

附图说明

图1是本发明一个实施例的根据用户视点识别动作的界面提供系统的组成图；

图2是图示本发明一个实施例的根据用户视点识别动作的界面提供装置的内部结构的框图；

图3是图示图2的位置信息采集部的内部结构的框图；

图4和图6是显示本发明一个实施例的用户的眼睛和手指与画面上的动作点映射的概念图；

图5是显示视锥体内形成的正规空间的概念图；

图7是说明本发明一个实施例的根据用户视点识别动作的界面提供方法的顺序图；

图8是具体说明图7的S120步骤的顺序图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。但本发明可以以各种不同形态实现，并不限于在此说明的实施例。而且为明确说明本发明，与说明无关的部分予以省略，对于说明书中相似的部分在图中使用了相似的符号。

说明书中描述某一个部件“连接于”其它部分时，不仅包括“直接连接”，还会包括其中间通过其它元件“用电连接”的情况。描述某一部分包括某个组件时，在没有特别叙述的前提下，不是排除其它组件，而是包括其它组件。

下面结合附图详述本发明。

根据图1，本发明一个实施例的系统10包括NUI装置100、界面提供装置200和图像显示装置300。

NUI装置100是指利用图像传感器、深度检测传感器和语音识别传感器中的至少一个识别用户的动作或者姿势或语音后应用于软件程序或者应用程序命令的所有装置。其中比较代表性的NUI装置100为，用于识别用户语音或手势等的话筒和彩色相机以及深度相机等。本发明一个实施例的NUI装置100是优选地，深度相机和/或彩色相机等拍摄用户动作后提取动作识别信息的装置。

NUI装置100会拍摄用户身体的全部或一部分而生成包括用户的手、手指或关节的位置信息、用户的手、手指或关节的旋转信息以及用户的手伸开或握拳信息中至少一个的识别信息(例如，深度值，颜色值)，并通过有/无线通信装置传输给界面提供装置200。

界面提供装置200是通过图像显示装置300提供直观的用户界面。界面提供装置200通过从NUI装置100接收的识别信息分析用户的动作后生成动作信息，根据生成的动作信息运行用户界面，将相应信息传递给图像显示装置300。就是说，界面提供装置200是分析用户的动作后将符合用户动作的用户界面的动作结果通过有/无线通信装置传送给图像显示装置300。

所述界面提供装置200可以用可与其它终端或服务器连接的计算机或便携式终端机、电视机、可穿戴设备(Wearable Device)等实现。在此，计算机包括如安装Web浏览器(WEB Browser)的笔记本电脑、台式电脑(desktop)、便携式电脑(laptop)等，便携式终端机是如可携带和移动的无线通信装置，包括如智能手机(Smart Phone)等任何种类的手持型(Handheld)无线通信装置。进一步，可穿戴设备是如手表、眼镜、首饰、服装、鞋等人体可穿戴的信息处理装置，可以直接或者通过其它信息处理装置经过网络访问远程服务器或者连接到其它终端。

图像显示装置300是根据从图像提供装置200接收的运行信息显示交互界面的装置，包括电脑显示器、TV、投影器、谷歌眼镜等可以显示图像的所有种类的设备。

界面提供装置200的组成可以包括图像显示装置300。例如，界面提供装置200可以是如笔记本电脑、智能手机、平板电脑等装载显示模块的设备。

下面结合图2和图3详述本发明一个实施例的界面提供装置200的结构。

界面提供装置200包括位置信息采集部210、映射部220、画面位置信息生成部230和用户界面操作部240。

位置信息采集部210采集用户眼睛的三维位置信息、用户手(包括手指)的三维位置信息和图像显示装置300的画面四个顶点的三维位置信息。

为此，根据图3，位置信息采集部210包括画面顶点位置信息获得部211和用户身体位置信息采集部212。为了提供直观的用户界面，需先获得或保存着画面顶点的三维位置信息。而且用户为了操作用户界面采取动作之前先执行初始设置而获得画面四个顶点的三维位置信息，画面顶点位置信息获得部211具有用来执行所述初始设置的结构。用户身体位置信息采集部212是为了初始设置以后操作用户界面而具有采集用户身体(眼睛和手)的三维位置信息的结构。下面具体说明各结构的动作。

画面顶点位置信息获得部211首先通过用户界面请求用户执行指定组成画面的各顶点的初始设置动作。然后用户执行用手或手指指定各顶点的动作。此时用户对于一个顶点只在从图像显示装置300相离的一个位置上执行指定所述一个顶点的初始设置动作，但对于一个顶点，也可以从多个位置进行初始设置动作。为了获得更准确的顶点三维位置信息，优选的是根据各顶点分别在五个以上的不同位置执行初始设置动作，但并不是对此进行限制，也可以在其它数量的其它位置上执行初始设置动作。

NUI装置100从用户的各初始设置动作获得用户眼睛的三维信息和手(包括手指)的三维位置信息后传递给画面顶点位置信息获得部211。例如，用户对于一个顶点，五次轮换着位置执行初始设置动作时，从一个顶点共获得(眼睛的三维位置信息、手的三维位置信息)的对数为5对。

下面为了说明上的便利，将用户眼睛的三维位置信息称为＝用户手的三维位置信息称为＝图像显示装置300的画面四个顶点的三维位置信息称为＝d_lt，d_rt，d_lb，d_rb。在此，p是表示顶点的值，是lt、rt、lb、rb中的某一个，i是对于一个顶点仅在一个位置上试图初始设置动作的次数，i是大于0的整数，lt指左侧上端，rt指右侧上端，lb指左侧下端，rb指右侧下端。作为参考，d_lt指左侧上端顶点，d_rt是右侧上端顶点，d_lb指左侧下端顶点，d_rb指右侧下端顶点。和是通过NUI装置100测定的值，是已知的值，但d_lt，d_rt，d_lb，d_rb是成为测定对象的值，相当于变量。

画面顶点位置信息获得部211将各顶点对代入优化能量函数的最小二乘法(Least-Square Method)获得d_lt，d_rt，d_lb，d_rbd_lt，d_rt，d_lb，d_rb。应用最小二乘法的能量函数(E)见以下数学公式1。

<数学公式1>

E＝E_l+λE_q

E_l是测定从经过的三维上的直线对应的顶点之间距离的第一参数。换言之，E_l是以数学化方式表达由用户输入的眼睛的位置和手指位置形成的虚拟光线的交叉地点存在顶点的可能性大。将E_l用数学公式2和数学公式3具体表达如下。

<数学公式2>

<数学公式3>

在此，N_p是表示指顶点p的的数量的值。

E_q是用来判断由画面的四个顶点连接形成的多边形是否形成四边形的第二参数。E_q是将画面的四个顶点中相邻的两个顶点连接的向量之间内积大小的数式。就是说，利用向量之间的内积大小接近0时可以判断向量相互垂直的观点产生的数式。E_q具体表达如下面数学公式4所示。

<数学公式4>

E_q＝((d_rl-d_lt)·(d_lb-d_lt))²+((d_lt-d_rt)·((d_rb-d_rt))²+((d_rb-d_lb)-(d_lt-d_lb))²+((d_lb-d_rb)·(d_rt-d_rb))²

λ是决定E_l和E_q之间重要性的加权值，作为有关界面提供装置200的适当数值，是预先设定的值。E_q是四个顶点不形成长方形状时值变大，但形成与长方形状相似的形状时值的变量化变小，故尽量要满足的条件。E_l是关于各顶点，顶点与经过的直线之间的距离越近，值越变小。但值并不是始终正确，通常优选地，将λ预先设定，使E_q被赋予更大的加权值。例如，λ可以指定为15.0左右的值。

简言之，E_l和E_q均为最小值时，可以获得最符合实际画面四个顶点位置的顶点的三维位置信息，因此画面顶点获得部211求d_lt，d_rt，d_lb，d_rb而使能量函数具有最小值。

另外，画面顶点位置信息获得部211仅凭能量函数的多个参数中E1也可以求出四个顶点的三维位置信息。此时，为获得顶点的三维位置信息的运算量减少，例如，约两秒内即可获得顶点的三维位置信息的初始解(Initial Solution)。而且应用于能量函数数式的变量以d_lt，d_rt，d_lb，d_rb(4个变量)的三维位置信息指定，故共指定12个变量。因维数小，即使将各顶点的用户眼睛和位置输入所需的时间都合在一起，但五分钟以内即可执行初始设置步骤。

另外，画面顶点位置信息获得部211再应用Gradient descent方法或Levenberg-Marquadt方法等反复式非线性优化方法获得更准确的画面四个顶点的三维位置信息。

用户身体位置信息采集部212在初始设置步骤完成以后通过图像显示装置300提供用户界面，采集用于操作用户界面的用户的眼睛和手的三维位置信息。NUI装置100从用户动作生成眼睛和手的三维位置信息，用户身体位置信息采集部212从NUI装置100接收而采集眼睛和手的三维位置信息。

映射部220为了将用户的手所处的实际空间和画面内的虚拟空间映射，将手的三维位置信息映射到眼睛和画面之间的被预先设定的体积的正规空间内。

具体地，如图4的金字塔形态的空间内可以定义在用户的眼睛和图像显示装置300的画面之间实际空间和图像显示装置300的画面310内表达用户界面的三维模型的虚拟空间。此时将构成实际空间的金字塔的一部分拆开时，可以假设如图5的平截头体形状的视锥体(view frustum:vf)。映射部220将手指的三维位置信息(X、Y、Z)映射为以边角长度相同的正六面体形成的正规空间(Canonical form)内的点。优选地，正规空间可以以X、Y、Z均具有-1和1之间值的正六面体组成。例如，手指的三维位置信息(X、Y、Z)在正规空间上的坐标信息为(-0.5,0.7,-0.8)。图5中只显示了一个手指地点的三维位置信息，但用户用手指连续执行动作时，多个手指地点的三维位置信息会映射到正规空间内。所述映射是通过将透视投影(Perspective projection)技术逆应用而实现。

画面位置信息生成部230将具有正规空间坐标信息的手的三维位置信息投影到图像显示装置300画面而转换为画面内的虚拟空间位置信息。具体地，画面位置信息生成部230采集面向画面内对象的虚拟相机的位置信息和方向向量、向上向量和将正规空间透视投影到虚拟空间所需的视角，将采集的信息应用到透视投影矩阵，进而将正规空间内的手的三维位置信息转换为画面内虚拟空间的三维位置信息。

用户界面操作部240是将虚拟空间的三维位置信息决定为动作点的位置。用户界面操作部240是用户改变手的位置时，与此对应使动作点的位置也变化，生成相关的用户界面运行信息后传递给图像显示装置300。例如，根据图4和图6，画面310上显示的动作点430与用户的手指420和眼睛410排列在一条直线上。用户移动手指420时，动作点430也移动排列于所述一条直线上，进而用户会施加向画面310上直观显示的模型O上移动等输入。

下面结合图7和图8详述本发明一个实施例的鉴于用户的视角识别动作的界面提供方法。根据图7和图8中图示的实施例的方法包括图2和图3中图示的界面提供装置200中以时序处理的多个步骤。因此即使是省略的内容，但上面关于界面提供装置200叙述的内容仍然适用于以下说明方法。

首先，根据图7，界面提供装置200将用户界面提供给图像显示装置300,S110。用户界面是基于动作识别操作的界面，会显示多个对象。

界面提供装置200为了掌握图像显示装置300的画面四个顶点的三维位置信息而执行初始设置S120。

根据图8，为了执行S120步骤，界面提供装置200请求用户用手分别指四个顶点S121。用户回应请求执行对各顶点的动作时，NUI装置100获得用户的眼睛和手的三维位置信息，由界面提供装置200从NUI装置100采集各顶点的眼睛和手的三维位置信息S122。然后界面提供装置200将眼睛和手的三维位置信息代入能量函数，计算各顶点的三维位置信息S123。能量函数是由求从眼睛和手通过的直线与顶点之间距离的第一参数和判断四个顶点是否形成长方形的第二参数组成，具体计算过程如下。

重新回到图7，用户为操作用户界面而执行动作(例如，拖动画面上显示的图标移动的动作)，NUI装置100从这些动作获得眼睛和手的三维位置信息。界面提供装置200从NUI装置100采集眼睛和手的三维位置信息S130。

界面提供装置200将手的三维位置信息映射到眼睛和图像显示装置300的画面之间正规空间S140。例如，具有位置信息(100,-200,150)的手的三维位置信息被映射到正规空间，从而被正规化为1和-1之间的值。也就是说，可以正规化为如(-0.5,0.7,0.8)的值。

界面提供装置200将映射的手的三维位置信息透视投影到画面以后转换为画面内虚拟空间的位置信息S150。画面内虚拟空间的位置信息是被指定为画面上显示的动作点(例如游标)的位置信息。进而眼睛、手、动作点处于一条直线上。

然后，界面提供装置200将画面内虚拟空间的位置信息决定为用于操作用户界面的动作点的位置S160。

根据图7至图8说明的实施例的方法也可以以通过计算机运行的程序模块等包括可通过计算机运行的指令的记录介质形态实现。计算机可读介质可以适用计算机可访问的任一可用介质，包括易失性和非易失性介质、分离型和非分离型介质。计算机可读取介质可以将计算机存储介质和通信介质全部包含。计算机存储介质包括通过用于存储计算机可读取的指令、数据结构、程序模块或其它数据等信息的任一方法或者技术实现的易失性或非易失性、分离型和非分离型介质。通信介质包括典型的计算机可读指令、数据结构、程序模块或者载波等被调制的数据信号的其它数据或者其它传送机制，并包括任意的信息传递介质。

本发明一个实施例的动作识别方法可以通过包括可用计算机运行的指令的计算机程序(或者计算机程序产品)实现。计算机程序包括通过处理器处理的可编程的机械指令，可以以高级编程语言(High-level Programming Language)、面向对象程序设计语言(Object-oriented Programming Language)、汇编语言或者机器语言等实现。计算机程序可以记录于计算机可读记录介质(例如，存储器、硬盘、磁/光学介质或者SSD(Solid-StateDrive)等)。

本发明一个实施例的方法是上述的计算机程序通过计算装置运行而实现。计算装置可以包括处理器、存储器、存储装置、连接于存储器和高速扩展端口的高速接口、连接于低速总线和存储装置的低速接口至少一部分。所述多个部分分别利用各种总线相互连接，可以安装在通用主板或者用其它适当方式装配。

处理器可在计算装置内处理指令，所述指令是如连接于高速接口的显示器为了显示给外部输入、输出装置上提供GUI(Graphic User Interface)的图形信息而在存储器或存储装置上存储的指令。其它实施例是，多个处理器及(或者)多个总线可以适当地与多个存储器和存储器形态一起被利用。处理器可以用包括独立的多个模拟及(或者)数字处理器的多个芯片组成的芯片集实现。

存储器是在计算装置内存储信息。作为一例，存储器可以以易失性存储器装置或者其集合组成。又例如，存储器可以以非易失性存储装置或者其集合组成。存储器可以是计算机可读取的其它形态介质，如磁或光盘等。

存储装置可以给计算装置提供大容量存储空间。存储装置可以是计算机可读介质或者包括所述介质的配置，例如，可以包括SAN(Storage Area Network)内的多个装置或者其它配置，可以是磁盘驱动器、硬盘装置、光盘装置或者磁带装置、闪存以及与其类似的其它半导体存储器装置或者装置阵列。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所述的技术方案进行修改；而这些修改，并不使相应技术方案的本质脱离本发明各实施例所述技术方案的范围。例如，以单一型说明的各个组件可以分散实施，同样以分散型说明的多个组件也可以以结合形态实施。

本发明的保护范围应根据下述的权利要求范围进行解释，而且权利要求范围的意义及范围以及在其同等范围内的所有修改或变形都属于本发明的权利要求范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 根据用户视点识别动作的界面提供方法及提供装置 [P] . 中国专利： CN106575160B . 2020.05.19
2. 根据用户视点识别动作的界面提供方法及提供装置 [P] . 中国专利： CN106575160A . 2017-04-19
3. a method for providing a user interface (UI) of an electronic device that is capable of recognizing a user voice command and a user motion gesture, and an electronic device that is capable of recognizing a user voice command and a gesture of user movement [P] . BR112013019982A2 . 2016-12-13

机译：一种用于提供能够识别用户语音命令和用户动作手势的电子设备的用户界面（UI）的方法，以及能够识别用户语音命令和用户动作手势的电子设备
4. DEVICE AND METHOD FOR PROVIDING USER INTERFACE WHICH RECOGNIZES A USER'S MOTION CONSIDERING THE USER'S VIEWPOINT [P] . 韩国专利： KR101453815B1 . 2014-10-22

机译：提供考虑用户视点的用户动作的用户界面的装置和方法
5. Method and apparatus for providing different user interface effects for different motion gestures and motion properties [P] . 美国专利： US10146329B2 . 2018-12-04

机译：用于为不同的动作手势和动作属性提供不同的用户界面效果的方法和装置