首页> 中国专利> 基于智能家居设备的多维度观影系统控制方法

基于智能家居设备的多维度观影系统控制方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种基于智能家居设备的多维度观影系统控制方法，对任意给定的视频进行分析，包括图像信息、音频信息、字幕文字信息；对分析的结果进行整合，获得视频内容，以及视频内容随时间的变化；利用内容与感官间的映射关系，形成随视频变化的感官变化脚本，脚本内容包括温度感觉、湿度感觉、移动感、味觉、增强视觉、触觉；根据感觉随视频变化的脚本，通过智能家居设备产生与脚本同步的感受。本发明具有分析准确性高、利用智能家居设备因而成本低廉、实时性强等优点。

著录项

公开/公告号CN103970892A

专利类型发明专利
公开/公告日2014-08-06

原文格式PDF
申请/专利权人无锡清华信息科学与技术国家实验室物联网技术中心;
展开▼

申请/专利号CN201410223724.2
发明设计人孙雨新;杨磊;刘云浩;
展开▼

申请日2014-05-23
分类号G06F17/30(20060101);G06T7/00(20060101);
代理机构无锡市大为专利商标事务所(普通合伙);
代理人曹祖良
地址 214135 江苏省无锡市新区菱湖大道清源路大学科技园立业楼A区5楼
入库时间 2023-12-17 01:00:24

法律信息

法律状态公告日

法律状态信息

法律状态
2017-03-01

授权

授权
2014-09-03

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140523

实质审查的生效
2014-08-06

公开

公开

说明书

技术领域

本发明属于多媒体技术与智能家居领域，尤其是一种基于智能家居设备的多维度观影系统控制方法。

背景技术

多维电影是在2D或者3D电影播放的基础上，伴随一些物理特效的电影形式。它能够通过给予观众视听感受以外的感受来提升观影体验，让观众可以在观影同时感受到与电影中人物一样的环境变化。虽然多维电影已经经历了20年的发展，但由于高昂的造价，它依旧只能在大型商场或者游乐场部署。另外，制作多维电影需要产生控制设备的脚本，从而实现对设备的控制命令的发出，而这需要大量人工操作。所以，以上这两点严重的阻碍了多维电影在群众中的普及。

随着物联网技术的发展，截至2013年，已经有12亿的智能家居设备部署在了8亿家庭中。在如此多的智能家居设备普及的环境下，智能家居设备可以帮助用户做很多事情。比如洗衣机和冰箱可以自动运行；空调可以自动调节室内温度；安放摄像头可以识别访客；以及一个集中式的控制路由可以负责这些设备的人工控制。智能家居环境为在家庭中建立一套多维电影院提供了机会，家庭不单单会使我们的栖身之所，还将成为娱乐的中心。

发明内容

本发明的目的在于克服现有技术中存在的不足，提供一种基于智能家居设备的多维度观影系统控制方法，用户无需购买专业多维影院设备，不需要专人进行控制脚本撰写工作，具有造价低廉，物理效果丰富，无人工干预产生脚本等优点。本发明采用的技术方案是：

一种基于智能家居设备的多维度观影系统控制方法，包括下述步骤：

S1.将影片视频以镜头为单位进行切分；

S2.对镜头内的图像、声音、字幕进行提取和分析，获得镜头内容，内容表示为关键词与对应置信度；

S3.对内容分析结果，即通过图像、声音、字幕获得的关键词-置信度对，使用投票的方式进行统计，得出分析内容的最终结果；

S4.将镜头分析得到的内容与建立的感受与物体的映射关系表进行匹配，获得当前镜头内给人的感受，从而形成感受随视频变化的脚本；

S5.根据感觉随视频变化的脚本，通过智能家居设备产生与脚本同步的感受，并通过传感器反馈调节这一过程。

进一步地，所述步骤S1具体包括：从载入的视频的第二帧画面开始，逐帧比较它与前一帧间颜色直方图差异，如果差异值大于设定阈值λ_hsv，则判定当前帧与前一帧之间发生了镜头切换，这一时刻与上一次镜头切换发生时刻之间的视频片断为一个镜头，利用这种方法，将整个视频以单个镜头为单位进行切分。

进一步地，步骤S1中，颜色直方图的种类为HSV颜色直方图，颜色直方图的差异度用下面公式表示：

$\frac{Σ_{i = 1}^{N} (H_{k} (i) - {\overline{H}}_{k}) (H_{k + 1} (i) - {\overline{H}}_{k + 1})}{\sqrt{{Σ_{i = 1}^{N} (H_{k} (i) - {\overline{H}}_{k})}^{2} Σ_{i = 1}^{N} {(H_{k + 1} (i) - {\overline{H}}_{k + 1})}^{2}}}$

其中，

${\overline{H}}_{k} = \frac{1}{N} Σ_{i = 1}^{N} H_{k} (i)$

H_k(i)为第k帧的直方图，N为直方图箱子个数，N＝a*b，a为亮度维度上采用的箱子个数，b为色调维度上采用的箱子个数。

进一步地，所述步骤S2具体包括：

S21.将镜头内中间时刻的图像帧提取出来，作为关键帧，利用图像分析算法对关键帧图片进行分析，并利用图像标注方法对画面内容进行标注；

S22.将镜头所对应时间段内的音频提取出来，通过变换得到音频特征，将这个特征与标准音频库中的声音进行匹配，如果匹配程度超过阈值λ_sound，则认为镜头内包含标准音频库中的声音；以此方式对声音内容进行标注；

S23.将镜头所对应时间段内的字幕以文本的形式提取出来，进行文本分析，而获得字幕内容；

S24.将镜头内的关键帧与其前一帧进行光流分析，得到镜头拍摄时的移动方向，即得到以第一人称观看影片时的运动感受。

更进一步地，步骤S21中使用的图像分析算法为：

将训练图片集T的每一张图片划分为K个块，共|T|×K块，并利用k-means聚类算法，和hsv颜色特征和Garbor图像纹理特征对这些块进行聚类，设得到M个类别，c_i∈{0,1}表示为第i个类别是否存在，则对每个图像I∈T，

有I＝{c₁,c₂,…,c_M}；

对于新输入的关键桢J，它包含类别c_i的概率为：

$P (c_{i} | J) = (1 - β) \frac{# (c_{i}, J)}{Σ_{k = 1}^{M} # (c_{k}, J)} + β \frac{Σ_{k = 1}^{M} # (c_{i}, J_{k})}{M}$

其中P(c_i|J)为在给定图片J的情况下，包含第i个分类的块的概率，#(c_i,J)为 J中第i个分类的块的个数，为所有包含第i个分类的图片个数，β为一个系统系数；当概率P(c_i|J)大于一定阈值λ_Image时，认为这个图片J中包含类 i,即包含类i所包含的关键词。

更进一步地，步骤S22具体包括：

S221，使用工具将镜头对应的音频提取出来；

S222，特征采用MFCC特征，提取MFCC特征的步骤为：将声音进行分段付利叶变换,每段时间为T_window；将付利叶变换后的结果映射到梅尔音阶上；将每个梅尔音阶上的频率进行对数变换；对变换后的结果进行离散余弦变换；变换后的结果的系数即为MFCC特征；

S223，使用该段音频的MFCC特征与音频库中的音频MFCC特征利用DTW算法进行匹配，如果得到的相似度大于λ_sound＝0.2，则认为包含对应音频的单词。

更进一步地，步骤S23具体包括：

建立一个包含若干单词的词库，并为库内单词标注上对应的感受，对镜头内的台词的文本作为输入，得出对应关键词；并包含以下步骤：

S231，对文本进行去标点和分词处理，得到单词列表；

S232，对每个单词进行取词根操作；

S233，对每个取过词根的单词在词库中寻找，是否有匹配的词目，如果有则表示字幕中存在这个词目，如果没有，则表示不存在。

进一步地，步骤S3中采用投票方式对视频内容进行决策，图像、声音、字幕三种信息提供的内容均用关键词-置信度的二元对表示，设关键词集合为KW，图像内容分析结果可以表示为：

$R_{image} = {c_{k_{1}}, c_{k_{2}}, . . ., c_{k_{i}}, . . ., c_{k_{n}}}$

其中为图像内容中对第i个关键词的置信度，n为关键词的总数即 n＝|KW|；同理可以得出声音的内容标注结果：

$R_{sound} = {c_{k_{1}}^{'}, c_{k_{2}}^{'}, . . ., c_{k_{i}}^{'}, . . ., c_{k_{n}}^{'}}$

和字幕的内容标注结果：

$R_{text} = {c_{k_{1}}^{''}, c_{k_{2}}^{''}, . . ., c_{k_{i}}^{''}, . . ., c_{k_{n}}^{''}}$

和分别表示声音内容中和字幕内容中对第i个关键词的置信度；

对内容的投票结果为

$R = {c_{k_{1}}^{'''}, c_{k_{2}}^{'''}, . . ., c_{k_{i}}^{'''}, . . ., c_{k_{n}}^{'''}}$

其中 $c_{k_{i}}^{'''} = (c_{k_{i}} + c_{k_{i}}^{'} + c_{k_{i}}^{''}) / 3,$ 如果大于阈值λ_c＝0.5，则认为存在该词。

进一步地，步骤S4中的感受与物体映射关系表的内容为：

物体→温度感受，湿度感受，运动感受，味觉，增强视觉，触觉；

步骤S4中，对不同词汇进行分析得到的感受可能存在冲突，采用投票的方式对这些感受进行冲突消除，#(感受名称)表示某种感受名称在此次标注中出现的次数，S(感受名称)表示某种感受最后的投票结果，以百分比形式表示；

选择投票结果最高的感受作为最终感受的结果。m表示某种感受的第m种感受结果。

进一步地，步骤S5中，智能家居设备包括能够产生温感、湿感、运动感、嗅觉、触觉和增强视觉的设备中的一种或多种；

对智能家居设备的调控包括两种方式：1)即时控制、2)延迟控制；对于延迟控制，采用预测方法对相应智能家具设备的调控效果进行预测，并根据预测流程选择最合适的调控步骤。

本发明的优点在于：利用本发明提出的多维度观影系统控制方法，结合对智能家居设备的控制，能够产生多维影院的效果，使得多维影院的普及变得简单方便，还节约了成本，并且控制过程自动进行，无需人工干预产生脚本。

附图说明

图1为本发明的流程示意图。

图2为本发明的家庭多维影院示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

本发明提供的基于智能家居设备的多维度观影系统控制方法，包括以下步骤，如图1所示：

S1，将影片视频载入至内存中，从第二帧画面开始，逐帧比较它与前一帧间颜色直方图差异，如果差异值大于设定阈值λ_hsv，则判定当前帧与前一帧之间发生了镜头切换，即两帧分属不同镜头中，这一时刻与上一次镜头切换发生时刻之间的视频片断为一个镜头。利用这种方法，将整个视频以单个镜头为单位进行切分。

优选的，S1中颜色直方图的种类为HSV颜色直方图，并在亮度维度上采用 a＝32个箱子、在色调维度上采用b＝30个箱子；

颜色直方图的差异度用下面公式表示：

其中，

${\overline{H}}_{k} = \frac{1}{N} Σ_{i = 1}^{N} H_{k} (i)$

H_k(i)为第k帧的直方图，N为直方图箱子个数，在此系统中为a*b＝32*30＝ 960个；

如果这个差异度大于阈值λ_hsv＝0.1，则认定为一次镜头切换发生。

S2.对镜头内的图像、声音、字幕进行提取和分析，获得镜头内容，内容表示为关键词与对应置信度；S2具体包括以下步骤S21、S22、S23、S24：

S21.将镜头内中间时刻的图像帧提取出来，作为关键帧，利用图像分析算法对关键帧图片进行分析，并利用图像标注方法对画面内容进行标注；分析图片时，分析图片中包含的物体和环境，包含关键词如：森林、水流、太阳等。

此处所使用的图像分析算法的过程为：

有I＝{c₁,c₂,…,c_M}；

对于新输入的关键桢J，它包含类别c_i的概率为：

$P (c_{i} | J) = (1 - β) \frac{# (c_{i}, J)}{Σ_{k = 1}^{M} # (c_{k}, J)} + β \frac{Σ_{k = 1}^{M} # (c_{i}, J_{k})}{M}$

优选的，S21中，K＝500,β＝0.2,λ_Image＝70％。

S22.将镜头所对应时间段内的音频提取出来，通过变换得到音频特征，将这个特征与标准音频库中的声音进行匹配，如果匹配程度超过阈值λ_sound，则认为镜头内包含标准音频库中的声音，即包含对应的发声物体；

特别的，S22中进行音频分析分为以下步骤：

S221，工具使用FFMPEG将镜头对应的音频提取出来；

S223，使用该段音频的MFCC特征与音频库中的音频MFCC特征利用DTW算法进行匹配，如果得到的相似度大于λ_sound＝0.2，则认为包含对应音频的单词；以此方式对声音内容进行标注；

S23.将镜头所对应时间段内的字幕以文本的形式提取出来，进行文本分析，而获得字幕内容；

优选的，S23中字幕分析方法使用关键词匹配算法，需要准备一个包含很多单词的词库，并为他们标注上对应的感受，如表1所示，对镜头内的台词的文本作为输入，得出对应关键词；

特别的，S23中包含以下步骤：

S231，对文本进行去标点和分词处理，得到单词列表；

S232，对每个单词进行取词根操作，如人们→人；

S233，对每个取过词根的单词在词库中寻找，是否有匹配的词目，如果有则表示字幕中存在这个词目，如果没有，则表示不存在；

表1

S24.将镜头内的关键帧与其前一帧进行光流分析，得到镜头拍摄时的移动方向，即得到以第一人称观看电影时的运动感受。如果镜头向左(右)移动，则认为这时应该产生左侧的风，来表达观众和镜头一起移动；如果镜头向前移动，则应该产生前向的风，来表达观众与镜头一起向前，比如车辆向前行驶时总会产生前向风。

S3.对内容分析结果，即通过图像、声音、字幕获得的关键词-置信度对，使用投票的方式进行统计，得出分析内容的最终结果；

优选的，S3中采用投票方式对视频内内容进行决策。图像、声音、字幕三种信息提供的内容均用关键词-置信度的二元对表示，设关键词集合为KW，图像内容分析结果可以表示为：

$R_{image} = {c_{k_{1}}, c_{k_{2}}, . . ., c_{k_{i}}, . . ., c_{k_{n}}}$

其中为图像内容中对第i个关键词的置信度，n为关键词的总数即 n＝|KW|；同理可以得出声音的内容标注结果：

$R_{sound} = {c_{k_{1}}^{'}, c_{k_{2}}^{'}, . . ., c_{k_{i}}^{'}, . . ., c_{k_{n}}^{'}}$

和字幕的内容标注结果：

$R_{text} = {c_{k_{1}}^{''}, c_{k_{2}}^{''}, . . ., c_{k_{i}}^{''}, . . ., c_{k_{n}}^{''}}$

和分别表示声音内容中和字幕内容中对第i个关键词的置信度；

对内容的投票结果为

$R = {c_{k_{1}}^{'''}, c_{k_{2}}^{'''}, . . ., c_{k_{i}}^{'''}, . . ., c_{k_{n}}^{'''}}$

其中 $c_{k_{i}}^{'''} = (c_{k_{i}} + c_{k_{i}}^{'} + c_{k_{i}}^{''}) / 3,$ 如果大于阈值λ_c＝0.5，则认为存在该词。

S4.将镜头分析得到的内容与建立的感受与物体的映射关系表进行匹配，获得当前镜头内给人的感受，感受内容包括温度感觉、湿度感觉、运动感觉、嗅觉、触觉和增强视觉，从而形成感受随视频变化的脚本；

特别的，S4中的感受与物体映射关系表由人工创建，表内容为：

物体→温度感受，湿度感受，运动感受，味觉，增强视觉，触觉；

表1中列出了部分单词所对应的感受，我们的系统中包含这些词汇，但不限于这些词汇，在包含更多的词汇的情况下将产生更好的分析效果；

优选的，在S4中对不同词汇进行分析得到的感受可能存在冲突，采用投票的方式对这些感受进行冲突消除，#(感受名称)表示某种感受名称在此次标注中出现的次数，S(感受名称)表示某种感受最后的投票结果，以百分比形式表示，以温度感受为例：

对于冷、热、常温间的冲突，我们选择投票结果最高的感受作为最终温度感受的结果。同理可以解决干燥、潮湿，喷水与否，闪光与否等的冲突。

S5.根据感觉随视频变化的脚本，通过智能家居设备产生与脚本同步的感受，并通过传感器反馈调节这一过程；

特别的，S5中使用的智能家居设备并无限制，但能够产生温感、湿感、运动感、嗅觉、触觉和增强视觉，如果设备存在，则能够产生对应效果；如果不存在，或用其他设备代替，或不能产生对应感受

优选的，本发明使用一些常用家庭电器产生对应效果，如表2所示，摆放方式如图2所示，本发明中使用了但不限于表2中所列智能家居设备；

表2

智能家居设备能够产生的物理效果空调温度感受-温度变化加湿器湿度感受-湿度变化风扇运动感受-不同风向的风气味发生器(装有香精的加湿器) 嗅觉-气味变化闪光灯增强视觉-炫目闪光背景彩灯增强视觉-背景延展喷雾器(或喷水器) 触觉-水喷在皮肤上的感觉

优选的，S5中对智能家居的调控分为两种方式：1)即时控制2)延迟控制。即时控制是指在指令发出之后能够直接改变室内环境，以表2中设备为例，风扇、闪光灯、气味发生器、喷水器、背景彩灯均属于即时控制；而空调、加湿器为延迟控制，因为湿度感受和温度感受不可能在空调工作变化之后立刻发生变化，而需要一段长时间。对于延迟控制，该发明采用预测方法对空调和加湿器的调控效果进行预测，并根据预测流程选择最合适的调控步骤，以温度控制为例，温度调节预测曲线为：

$T_{heat} (t_{j}) = (\begin{matrix} T (t_{i}) + γ_{h} (t_{j} - t_{i}) & if T_{i} < T_{\max} \\ T_{\max} & if T_{i} \geq T_{\max} \end{matrix})$

$T_{cool} (t_{j}) = (\begin{matrix} T (t_{i}) + γ_{c} (t_{j} - t_{i}) & if T_{i} < T_{\min} \\ T_{\min} & if T_{i} \geq T_{\min} \end{matrix})$

其中T_heat(t_j)为加热时，在已知初始温度为T_i时，t_j时刻的温度，γ_h为升温速率，当达到最高温度时就维持恒定；T_cool(t_j)为制冷时，在已知初始温度为T_i时， t_j时刻的温度，γ_c为降温速率，当达到最低温度时就维持恒定；

本发明在选择调控方式时便利所有操作可能性(每隔τ＝30s时间调节一次),选择能够使温度匹配程度最高的调控方式进行调节。

本发明在最后一步控制智能家居设备按照脚本内容对室内环境进行调节，并利用传感器对环境调节进行反馈，可以产生身临其境的效果，使得观众在家即可享受多维电影带来的美好享受。

本发明中涉及的一些术语解释如下：

MFCC：现有语音识别系统采用的最主要的两种语音特征是线性预测倒谱参数(Linear Prediction Cepstrum Coefficient，LPCC)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，该特征考虑了人耳的听觉特性，将频谱转化为基于Mel频率的非线性频谱，然后转换到倒谱域上。由于充分模拟了人的听觉特性，而且没有任何前提假设，MFCC参数具有识别性能和抗噪能力，实验证明在语音识别中MFCC参数的性能明显优于LPCC参数。

HSV(Hue,Saturation,Value)是根据颜色的直观特性由A.R.Smith在1978 年创建的一种颜色空间,也称六角锥体模型(Hexcone Model)。这个模型中颜色的参数分别是：色调(H)，饱和度(S)，亮度(V)。

DTW算法：Dynamic Time Warping，动态时间归整算法。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于智能家居设备的多维度观影系统控制方法 [P] . 中国专利： CN103970892B . 2017.03.01
2. 基于智能家居设备的多维度观影系统控制方法 [P] . 中国专利： CN103970892A . 2014-08-06
3. METHOD FOR CONTROLLING VISUALIZATION DEVICE OF MULTIMODAL INTERFACE SYSTEM FOR IoT-BASED SMART HOME CONTROL [P] . 韩国专利： KR20200042178A . 2020-04-23

机译：基于IoT的智能家居控制多模态界面系统可视化设备的控制方法
4. Smart home control method and system based on alljoyn technology [P] . 美国专利： US10178610B2 . 2019-01-08

机译：基于alljoyn技术的智能家居控制方法及系统
5. INTELLIGENT HOME CONTROL METHOD AND SYSTEM BASED ON ALLJOYN TECHNOLOGY [P] . 欧洲知识产权局专利： EP3118700B1 . 2019-05-01

机译：基于AllJoyn技术的智能家居控制方法及系统