首页> 中国专利> 基于仿生代理的多模交互界面描述方法

基于仿生代理的多模交互界面描述方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明一种基于仿生代理的多模交互界面描述方法，其中多模交互标记语言对多模交互系统的描述方法如下：(1)定义多模交互标记语言标签；(2)编写多模交互标记语言代码；(3)对所编写的多模交互标记语言代码进行有效性验证；(4)对经过有效性验证的代码进行解析，将多模交互标记语言代码按照规则转换为Vbscript代码；(5)将转换的Vbscript代码嵌入相应的网页背景中，调用控件模块的相关函数实现交互。其中仿生代理感知模块表情识别控件的实现步骤如下：(1)实现人脸检测器；(2)实现专门表情分类器；(3)最终表情分类器选取各专门表情分类器的最高分，判定表情。该描述方法具有简单易用、可扩展性强的特点，能够使普通用户轻松的开发出基于网页的仿生代理多模交互界面。

著录项

公开/公告号CN101174218A

专利类型发明专利
公开/公告日2008-05-07

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN200710176411.6
发明设计人毛峡;李峥;薛雨丽;
展开▼

申请日2007-10-26
分类号G06F9/44(20060101);G06K9/00(20060101);
代理机构11232 北京慧泉知识产权代理有限公司;
代理人王顺荣;唐爱华
地址 100083 北京市海淀区学院路37号
入库时间 2023-12-17 20:06:53

法律信息

法律状态公告日

法律状态信息

法律状态
2011-12-28

未缴年费专利权终止 IPC(主分类):G06F9/44 授权公告日:20090708 终止日期:20101026 申请日:20071026

专利权的终止
2009-07-08

授权

授权
2008-07-02

实质审查的生效

实质审查的生效
2008-05-07

公开

公开

说明书

(一)技术领域：

本发明涉及一种基于仿生代理的多模交互界面描述方法，尤其是多模交互标记语言(Multi-model Interaction Markup Language)和仿生代理感知模块的设计实现，属于信息技术领域。

(二)背景技术：

人机交互已从语言命令阶段(CUI)、图像用户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。多模界面是感性用户界面研究的崭新领域。在多模界面中，用户可以使用自然的交互方式，如语音、手势、眼神和表情等与计算机交互进行协同工作。然而计算机没有脸和身体，无法运用上述的交互方式。因此具有多模表现能力的仿生代理受到了越来越多研究者的关注。利用具有语言会话等多种表现能力的交互式仿生代理的多模表现成为一种有效的人机交互方法。情感在人类决策、感知、学习以及其它一些类似的行为中发挥着重要作用，越来越多的研究者意识到要想真正实现人与仿生代理之间的和谐感性交互，就要将情感因素融入其中。情感能够提供仿生代理所需的自主性，并且是智能的最终来源，也就是说仿生代理应该具有像人类一样识别情感和表达情感的能力。这种基于仿生代理的多模界面很难编码，因为要描述仿生代理的动作、语音、情感表达以及情感识别能力是相当复杂的。为了解决这个问题，国外的一些大学和研究机构开发了用于描述仿生代理行为的语言。但现存的描述语言只能简单的描述仿生代理的动作、语音和情感表达能力，并不能描述情感识别能力。也就是说，现存的语言只能控制仿生代理的被动表现，即根据预先设定的内容进行动作、语音和情感的表达，而没有实现对用户情感的主动感知。因此，设计一种基于仿生代理的多模交互界面描述语言，实现对仿生代理感知能力的描述对情感化人机交互的发展具有重要意义。

(三)发明内容：

本发明的目的是：①针对目前国内在仿生代理描述语言领域的空白及目前国外的仿生代理描述语言只能描述仿生代理的动作、语音和情感表达能力，设计开发了一种基于可扩展标记语言(Extensible Markup Language)的能够描述仿生代理感知能力的多模交互标记语言(Multi-model Interaction Markup Language)，真正实现了仿生代理与用户的情感交互。通过多模交互界面生成软件屏蔽了底层代码，能够使普通用户(非专业程序员)轻松的开发出基于183-203)，其通过调用仿生代理模块中的函数实现了对仿生代理动作、语音及情感表达的控制。右边perception方框及所包含部分为本发明设计实现的感知模块，实现了对仿生代理情感识别能力的描述。图4所示为该部分的DTD定义。<perception>为感知模块的根元素；<emotionrecognition>为情感识别模块的根元素；<face>用来调用表情识别控件，此元素的align属性确定控件在背景网页中的位置；<recognize>元素将比较表情识别控件所返回的结果与其属性result的值，根据不同的结果执行不同的操作；<speech>与<text>为定义的备用元素，用来实现情感语音识别控件与文本情感提取控件的扩展。

步骤2：根据所定义的元素及属性编写多模交互标记语言代码；

步骤3：对所编写的多模交互标记语言代码进行有效性验证；

步骤4：对经过有效性验证的代码进行解析转换。采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APIs for XML)实现对多模交互标记语言代码的解析，同时按照规则实现多模交互标记语言代码到Vbscript代码的转换；

步骤5：将转换的Vbscript代码嵌入相应的网页背景中，调用仿生代理模块及感知模块的相关函数实现交互。

二、关于仿生代理感知模块表情识别控件的实现方法；其步骤如下：

步骤1：采用Viola提出的积分图像和AdaBoost算法相结合的方法(P.Viola，M.Jones.Rapid Object Detection using a Boosted Cascade of Simple Features[A].Proceedings of IEEEConference on Computer Vision and Pattern Recognition(电气和电子工程师协会2001年计算机视觉和模式识别会议)[C].2001.511-518)，实现人脸检测器；

步骤2：设选定的3种单一表情高兴、生气和惊讶为e₁，e₂，e₃，平静表情为e₀，对于每种选定的单一表情e_i，以该类表情样本为正例样本，其它各类表情样本及平静样本为反例样本，基于人脸检测器的改进方法训练专门表情分类器h_ei；人脸检测器和专门表情分类器是两种不同的算法，人脸检测器的输出为0或1，0代表非人脸，1代表人脸；专门表情分类器通过下述式(1)将输出改为[0，1]区间的实数，

$h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}} - - - (1)$

式中h_e为专门表情分类器，T为循环次数，h_t为每轮选取的误差最小的弱分类器， $α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},$ 其中ε_t为h_t的判别误差；

步骤3：最终表情分类器H从各专门表情分类器h_ei的得分中选取最高分，若最高分超过

$h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}} - - - (1)$

式中h_e为专门表情分类器，T为循环次数，h_t为每轮选取的误差最小的弱分类器， $α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},$ 其中ε_t为h_t的判别误差；

步骤3：最终表情分类器H从各专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情。

最终表情分类器H的表达式如式(2)，最终表情分类器H从3个专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值θ，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情e₀，通过调整阈值θ，可获得较高的识别率。

$H (x) = (\begin{matrix} \arg \max_{i} h_{ei} (x) & if \max_{i} h_{ei} (x) \geq θ \\ e_{0} & otherwise \end{matrix}) - - - (2)$

式中H为最终表情分类器，h_ei为单一表情e_i的专门表情分类器，e₀为平静表情，θ为设定的阈值，i∈{1，2，3}。

为了方便实现基于仿生代理的多模交互界面描述，根据上述描述方法开发了多模交互界面生成软件，流程框图如图2所示。该软件通过编译系统实现对多模交互标记语言的解析转换，编译系统主要由有效性验证模块、代码解析模块和代码转换模块组成。其中有效性验证模块调用DTD(Document Type Definition)验证用户所编写的多模交互标记语言代码的有效性；代码解析模块通过调用MSXML.DLL中的XML简单接口SAX(Simple APIs for XML)实现对多模交互标记语言代码的解析；代码转换模块将经过解析的代码转换为VbScript代码嵌入到相应的背景网页中。控件模块主要由仿生代理模块和情感识别模块组成。其中仿生代理模块使用了微软公司提供的MsAgent ActiveX控件，而情感识别模块目前主要由表情识别控件组成。

本发明一种基于仿生代理的多模交互界面描述方法，其优点和积极效果在于：

1.该仿生代理多模交互标记语言不仅实现了对多模交互界面中仿生代理动作、语音和情感表达能力的描述，而且实现了对仿生代理感知能力的描述。可以使仿生代理根据用户表情做出恰当的反应，实现主动交互；

2.该仿生代理多模交互标记语言基于可扩展标记语言(Extensible Markup Language)设计，元素及属性简单易记，通过多模交互界面生成软件屏蔽了底层代码，能够使普通用户轻松开发出基于网页的仿生代理多模交互界面；

3.仿生代理感知模块具有很强的扩展性，可以加入语音情感识别控件和文本情感提取控件等，只要根据所开发的控件加入相应的元素及转换法则即可实现扩展，因此可以实现多通道的情感交互。如图3中的备用框所示。

(四)附图说明：

图1多模交互系统框图。

图2多模交互界面生成软件流程框图。

图3多模交互标记语言元素框架。

图4多模交互标记语言感知模块DTD定义。

图5感知模块人脸表情分类器判决。

图6多模交互标记语言示例。

图7多模交互标记语言描述效果1。

图8多模交互标记语言描述效果2。

图3中所列元素及其描述内容说明如下：

(五)具体实施方式：

本发明一种基于仿生代理的多模交互界面描述方法，包括多模交互标记语言及感知模块的设计实现；其中：

一、关于使用多模交互标记语言实现对多模交互系统的描述，其步骤如下：

步骤1：多模交互标记语言元素及属性定义，包括对国外现存的标记语言中相关元素及属性的继承以及感知模块中元素及属性的定义，图3左边白色方框部分为继承自多模表现标记语言(Multi-model Presentation Markup Language)中的元素(DTD定义等详细说明请参考文献：Prendinger H，Descamps S，Ishizuka M，MPML：A Markup Language for Controlling theBehavior of Life-like Characters，Journal of Visual Languages and Computing，Vol.15，No.2，2004.183-203)，其通过调用仿生代理模块中的函数实现了对仿生代理动作、语音及情感表达的控制。右边深色方框部分为本发明设计实现的感知模块，实现了对仿生代理情感识别能力的描述。图4所示为该部分的DTD定义。<perception>为感知模块的根元素；<emotionrecognition>为情感识别模块的根元素；<face>用来调用表情识别控件，此元素的align属性确定控件在背景网页中的位置；<recognize>元素将比较表情识别控件所返回的结果与其属性result的值，根据不同的结果执行不同的操作；<speech>与<text>为定义的备用元素，用来实现情感语音识别控件与文本情感提取控件的扩展。

步骤2：根据所定义的元素及属性编写多模交互标记语言代码；

步骤3：对所编写的多模交互标记语言代码进行有效性验证；

步骤4：对经过有效性验证的代码进行解析转换。采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APls for XML)实现对多模交互标记语言代码的解析，同时按照规则实现多模交互标记语言代码到Vbscript代码的转换；

步骤5：将转换的Vbscript代码嵌入相应的网页背景中，调用仿生代理模块及感知模块的相关函数实现交互。

二、关于仿生代理感知模块表情识别控件的实现方法；其步骤如下：

$h_{e} (x) = \frac{Σ_{t = 1}^{T} α_{t} h_{t} (x)}{Σ_{t = 1}^{T} α_{t}} - - - (1)$

式中h_e为专门表情分类器，T为循环次数，h_t为每轮选取的误差最小的弱分类器， $α_{t} = \log \frac{1 - ϵ_{t}}{ϵ_{t}},$ 其中ε_t为h_t的判别误差；

最终表情分类器H的表达式如式(2)，最终表情分类器H从3个专门表情分类器h_ei的得分中选取最高分，若最高分超过设定的阈值θ，则判决为获得最高分的专门表情分类器对应的表情，否则判定为平静表情e₀，如图5所示，通过调整阈值θ，可获得较高的识别率。

$H (x) = (\begin{matrix} \arg \max_{i} h_{ei} (x) & if \max_{i} h_{ei} (x) \geq θ \\ e_{0} & otherwise \end{matrix}) - - - (2)$

式中H为最终表情分类器，h_ei为单一表情e_i的专门表情分类器，e₀为平静表情，θ为设定的阈值，i∈{1，2，3}。

图6所示为利用多模交互标记语言开发的基于仿生代理的网上购物推荐系统的代码片段。图7和图8所示为该代码片段经过多模交互界面生成软件生成的效果。图6中第4行表示使用仿生代理genie；第7行表示背景网页为main.html；第8-11行仿生代理要求用户以语音或点击图标的方式选择所感兴趣的商品种类(图7所示)；12-17行表示仿生代理接收用户的语音指令，当听到单词“wine”时就跳转到页面wine.html；第19行表示背景网页为wine.html；20-22行表示仿生代理将向用户推荐商品；24-40行表示调用表情识别控件判断用户对商品是否满意，其中27-31行表示当表情识别控件返回高兴的结果时仿生代理认为用户对所介绍的商品满意，并引导用户定购该商品(图8所示)，32-36行表示表情识别控件返回生气的结果时则向用户介绍另外一种商品。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于仿生代理的多模交互界面描述方法 [P] . 中国专利： CN100511141C . 2009.07.08
2. 基于仿生代理的多模交互界面描述方法 [P] . 中国专利： CN101174218A . 2008-05-07
3. MULTI-MODAL MULTI-AGENT-BASED EMOTIONAL COMMUNICATION SYSTEM [P] . 世界知识产权组织专利： WO2016163565A1 . 2016-10-13

机译：基于多模态多代理的情感交流系统
4. APPARATUS AND METHODS FOR MANAGING MULTI-DATASET IN AGENT-BASED MULTI MICRO-SIMULATION [P] . 韩国专利： KR20160014252A . 2016-02-11

机译：在基于代理的多模拟中管理多数据集的装置和方法
5. SENTIMENT COMMUNICATION SYSTEM BASED ON MULTIPLE MULTIMODAL AGENTS [P] . 韩国专利： KR101652486B1 . 2016-08-30

机译：基于多多模态代理的情感通信系统