首页> 中国专利> 利用深度强化学习控制环境舒适度的系统及其方法

利用深度强化学习控制环境舒适度的系统及其方法

摘要

本发明涉及一种利用深度强化学习控制环境舒适度的系统及其方法。首先,由至少一环境因子感测模块、一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元分别侦测活动空间中的环境因子的信息、空调设备的状态信息及排风扇系统的状态信息。然后,由一电脑整合环境因子的信息、空调设备的状态信息及排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将整合信息进行权衡运算以产生优化调控结果,进而由电脑依据优化调控结果产生相应的调控指令以优化调控空调设备与排风扇系统。据此,本发明能控制活动空间中的环境舒适度,以达到省电节能的效果。

著录项

  • 公开/公告号CN112212481A

    专利类型发明专利

  • 公开/公告日2021-01-12

    原文格式PDF

  • 申请/专利权人 中华电信股份有限公司;

    申请/专利号CN201910831167.5

  • 申请日2019-09-04

  • 分类号F24F11/89(20180101);F24F11/64(20180101);F24F11/58(20180101);F24F11/54(20180101);F24F120/10(20180101);F24F110/70(20180101);F24F110/10(20180101);F24F110/20(20180101);

  • 代理机构11314 北京戈程知识产权代理有限公司;

  • 代理人程伟;王锦阳

  • 地址 中国台湾桃园市

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明关于一种控制环境舒适度的技术,特别是指一种利用深度强化学习(DRL)控制环境舒适度的系统及其方法。

背景技术

中国台湾地处亚热带气候区,夏季天气炎热,高温时常可达摄氏33度(℃)以上,高温高湿的气候导致室内环境闷热,因此需要空调设备来调节温度。然而,在例如校园教室的活动空间或室内环境中,众多学生在教室内时,通常在开启空调设备时需将门窗紧闭,如此会使二氧化碳(CO

在一现有技术中,提出一种结合影像辨识的空调舒适度控制系统与方法,其在人员的活动空间中架设多个摄影机,以利用摄影机所拍摄的影像,经过影像分析模块侦测人员数量与位置。同时,系统持续收集环境因子感测器的数据,并在计算环境舒适度、最适温度、最适风速后自动控制空调设备,以针对人员所在位置提供一个舒适的热环境,借此提高空调使用效率。然而,此现有技术需结合多个摄影机与影像辨识功能,以致额外增加多个摄影机的费用及硬件成本。

因此,如何提供一种新颖或创新的控制环境舒适度的技术,实已成为本领域技术人员的一大研究课题。

发明内容

本发明提供一种新颖或创新的利用深度强化学习(Deep ReinforcementLearning;DRL)控制环境舒适度的系统及其方法,其能控制环境舒适度,或在环境舒适度与能源消耗之间取得平衡,也可进一步达到省电节能的效果。

本发明中利用深度强化学习控制环境舒适度的系统包括:至少一空调设备与一排风扇系统,其设置于活动空间中;至少一环境因子感测模块,其侦测活动空间中的环境因子的信息(information);一控制与侦测模块,其具有一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元,用以分别侦测空调设备的状态信息及排风扇系统的状态信息;以及一第一电脑,其整合来自环境因子感测模块的环境因子的信息、来自空调设备控制与状态侦测单元的空调设备的状态信息、及来自排风扇系统控制与状态侦测单元的排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有环境因子的信息、空调设备的状态信息及排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由第一电脑依据优化调控结果产生相应的调控指令,以依据调控指令优化调控空调设备与排风扇系统。

本发明中利用深度强化学习控制环境舒适度的方法包括:由至少一环境因子感测模块侦测活动空间中的环境因子的信息,且活动空间中设置有至少一空调设备与一排风扇系统;由一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元分别侦测空调设备的状态信息及排风扇系统的状态信息;以及由一第一电脑整合来自环境因子感测模块的环境因子的信息、来自空调设备控制与状态侦测单元的空调设备的状态信息、及来自排风扇系统控制与状态侦测单元的排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有环境因子的信息、空调设备的状态信息及排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由第一电脑依据优化调控结果产生相应的调控指令,以依据调控指令优化调控空调设备与排风扇系统。

为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所示附图作详细说明。在以下描述内容中将部分阐述本发明的额外特征及优点,且这些特征及优点将部分自所述描述内容可得而知,或可经由对本发明的实践习得。本发明的特征及优点借助于在权利要求书中特别指出的元件及组合来认识到并达到。应理解,前文一般描述与以下详细描述两者均仅为例示性及解释性的,且不欲约束本发明所欲主张的范围。

附图说明

图1为强化学习的基本概念示意图;

图2为本发明中利用深度强化学习控制环境舒适度的系统的架构示意图;

图3为本发明中利用深度强化学习控制环境舒适度的方法的流程示意图;

图4A与图4B分别为本发明在活动空间中设置各种设备及其连接方式的实施例示意图;

图5A与图5B分别为本发明中未开启排风扇与采取深度强化学习演算法(Agent)自动控制(开启)排风扇时,活动空间中二氧化碳的浓度的曲线图;

图6A与图6B分别为本发明在深度强化学习演算法(Agent)控制下,随单位时间变化的PMV(预测平均票选值)数值与温度设定值的曲线图;以及

图7为本发明中不同的控制方法对热舒适度及能耗(冷气耗电)的影响的数据表。

附图标记说明

1 利用深度强化学习控制环境舒适度的系统

10 环境因子感测模块 11 黑球温度感测器

12 温湿度/二氧化碳感测器 20 空调设备

21 开关控制 22 温度设定值

23 风速设定值 30 排风扇系统

31 排风扇 32 开关控制

40 控制与侦测模块 41 环境侦测单元

42 空调设备控制与状态侦测单元

43 排风扇系统控制与状态侦测单元

50 第一电脑 60 第二电脑

61 深度强化学习演算法 70 人机界面

71 输入单元 80 路由器

A1、A2 时间点 B1、B2 圆圈

C1、C2 圆圈 D 数据表

E 活动空间 S1至S4 步骤。

具体实施方式

以下经由特定的具体实施形态说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容了解本发明的其他优点与功效,也可因而通过其他不同的具体等同实施形态加以施行或应用。

图1为强化学习(Reinforcement Learning)的基本概念示意图,其中,t表示时间。强化学习是机器学习(Machine Learning)家族的一员,其为一种目标导向(goal-oriented)的学习方法,旨在经由与环境互动过程中获得的各种奖励或惩罚以学会如何做决策。

强化学习决策过程的模拟包括下列六个要素:[1]Agent(演算法):其经由行动与环境互动,以代替人们做决定而执行动作,且Agent表示演算法本身。[2]Environment(环境):其为与Agent互动的世界,环境会将Agent的当前状态及行动作为输入,再将奖励和下个状态作为输出。[3]State(状态):其为Agent在特定时间点所处的状态,它可以是特定的位置或特定的配置;而且,State可以是由环境反馈的当前状态,也可以是未来的状况。[4]Action(行动):其为所有Agent可以采取的行动而形成的集合,且Agent会在可能的行动列表中进行选择。[5]Reward(奖励):其为人们衡量Agent所采取行动的成败指标,奖励可以是立即的或延迟的,但它必须有效的评估Agent采取的动作。[6]Policy(策略):其为Agent决定行动的策略,这个策略会因应不同状态做出调整,尽可能地获得最高奖励。

图2为本发明中利用深度强化学习控制环境舒适度的系统1的架构示意图。如图所示,深度强化学习控制环境舒适度的系统1包括至少一个(如多个)环境因子感测模块10、至少一个(如多个)空调设备20、一排风扇系统30、一控制与侦测模块40、一第一电脑50、一第二电脑60、以及一人机界面70。

空调设备20与排风扇系统30可设置于活动空间中,且控制与侦测模块40可具有一环境侦测单元41、一空调设备控制与状态侦测单元42、一排风扇系统控制与状态侦测单元43。第一电脑50与第二电脑60可分别为例如单板电脑与终端运算电脑等不同电脑,且深度强化学习演算法61可建构于第二电脑60中;但在其他实施例中,第一电脑50与第二电脑60可为同一电脑或整合成一个电脑,且第一电脑50或第二电脑60可为笔记型电脑、桌上型电脑、平板电脑、服务器(如云端服务器、网络服务器、远端服务器)等,而深度强化学习演算法61可建构于第一电脑50中。人机界面70具有输入单元71,以供用户通过人机界面70的输入单元71输入场所/场域(即活动空间)的人员数量的信息,且人机界面70可结合于第一电脑50或第二电脑60上。

具体而言,环境因子感测模块10具有至少一个(如多个)黑球温度感测器11(如黑球温度计)及至少一个(如多个)温湿度/二氧化碳感测器12等,以供控制与侦测模块40的环境侦测单元41读取来自环境因子感测模块10(黑球温度感测器11、温湿度/二氧化碳感测器12)的环境因子的信息。空调设备20具有开关控制21、温度设定值22(如冷气温度设定值)或风速设定值23等参数,以供控制与侦测模块40的空调设备控制与状态侦测单元42设定各参数。排风扇系统30可由至少一个(如二个或多个)排风扇31所构成,且各排风扇31具有开关控制32、吸排模式或级别大小调控等参数,以供控制与侦测模块40的排风扇系统控制与状态侦测单元43设定各参数。

举例而言,环境侦测单元41可通过无线网络或有线网络连接环境因子感测模块10,以读取来自环境因子感测模块10的环境因子的信息。空调设备控制与状态侦测单元42可通过无线网络或有线网络连接空调设备20,以侦测空调设备20的状态信息及设定空调设备20的各参数。排风扇系统控制与状态侦测单元43可通过无线网络或有线网络连接排风扇系统30的排风扇31,以设定排风扇系统30的排风扇31的各参数。

此外,环境因子感测模块10、空调设备控制与状态侦测单元42、排风扇系统控制与状态侦测单元43可分别侦测活动空间的当下环境因子、空调设备20的状态信息与排风扇系统30的状态信息。例如,环境因子包括环境温度、相对湿度或平均辐射温度等,空调设备20的状态信息包括空调设备20的开关状态、设定温度、当下功率、累计能耗、室内温度或室外温度等,而排风扇系统30的状态信息包括排风扇系统30的开关状态、当下功率或累计能耗等。

在利用深度强化学习控制环境舒适度的系统1的运行方式上,可由用户或人工记数活动空间的人员数量,并由环境因子感测模块10、空调设备控制与状态侦测单元42、排风扇系统控制与状态侦测单元43分别侦测活动空间中当下环境因子的信息、空调设备20的状态信息、排风扇系统30的状态信息,且将环境因子的信息、空调设备20的状态信息与排风扇系统30的状态信息通过无线网络或有线网络传送至第一电脑50(如单板电脑)中进行整合以产生整合信息,再将来自第一电脑50的整合信息通过无线网络或有线网络传送至第二电脑60(如终端运算电脑)。接着,由第二电脑60中的深度强化学习演算法61对整合信息进行权衡运算以产生优化调控结果,并将优化调控结果通过无线网络或有线网络回传至第一电脑50,且由第一电脑50依据优化调控结果产生相应的调控指令,再将调控指令通过无线网络或有线网络直接或经由控制与侦测模块40传送至空调设备20与排风扇系统30,以利用调控指令调控空调设备20与排风扇系统30,进而提供活动空间舒适的空调环境与通风环境。另外,用户亦可设定间隔时间,以重复上述利用深度强化学习控制环境舒适度的系统1的运行方式。

本发明的深度强化学习演算法61是强化学习演算法与深度学习演算法的结合,且深度强化学习演算法61的神经模型用于表示价值功能和政策。同时,深度强化学习演算法61可以是深度Q网络(Deep Q-Network;DQN)演算法,它能使用具有多层的神经网络(而不是传统的表格)来估计或计算多个Q值。当一组行动和状态非常广泛时,这些Q值非常有用,能依据以前或历史的经验推广未来的奖励。

图3为本发明中利用深度强化学习控制环境舒适度的方法的流程示意图。简言之,利用深度强化学习控制环境舒适度的方法至少包括:由图2所示至少一环境因子感测模块10侦测活动空间中的环境因子的信息,且活动空间中设置有至少一空调设备20与一排风扇系统30;由一空调设备控制与状态侦测单元42及一排风扇系统控制与状态侦测单元43分别侦测空调设备20的状态信息及排风扇系统30的状态信息;以及由一第一电脑50整合来自环境因子感测模块10的环境因子的信息、来自空调设备控制与状态侦测单元42的空调设备20的状态信息、及来自排风扇系统控制与状态侦测单元43的排风扇系统30的状态信息以产生整合信息,再通过一深度强化学习演算法51将具有环境因子的信息、空调设备20的状态信息及排风扇系统30的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由第一电脑50依据优化调控结果产生相应的调控指令,以依据调控指令优化调控空调设备20与排风扇系统30。

举例而言,如图3所示,利用深度强化学习控制环境舒适度的方法可包括下列步骤S1至步骤S4的技术内容,其余技术内容相同于上述图1与下述图4至图7的说明,于此不再重复叙述。

在图3的步骤S1中,由用户通过图2所示人机界面70的输入单元71输入场所/场域(即活动空间)的人员数量的信息。

在图3的步骤S2中,由图2所示环境因子感测模块10、空调设备控制与状态侦测单元42、排风扇系统控制与状态侦测单元43分别侦测当下环境因子的信息、空调设备20的状态信息、排风扇系统30的状态信息。

在图3的步骤S3中,由图2所示第二电脑60中的深度强化学习演算法61将具有环境因子的信息、空调设备20的状态信息与排风扇系统30的状态信息的整合信息进行权衡运算以产生优化调控结果,并由第一电脑50依据优化调控结果产生相应的调控指令,再利用调控指令优化调控空调设备20与排风扇系统30。

在图3的步骤S4中,由用户判断场所/场域(即活动空间)的人员数量是否改变?若是(场所/场域的人员数量有改变),则返回步骤S1,以由用户修改场所/场域(即活动空间)的人员数量的信息。反之,若否(场所/场域的人员数量未改变),则返回步骤S2。

在上述图2与图3中,利用深度强化学习控制环境舒适度的系统1及方法可应用于室内的空调设备20、排风扇系统30或智能家电等领域。另外,深度强化学习演算法61亦可与虚拟环境互动,通过不同行动的反馈推断何者为较佳行为,在深度强化学习演算法61训练完成后,可通过环境因子感测模块10得知当下环境因子的信息,以自动控制空调设备20、排风扇系统30、智能家电等,且深度强化学习演算法61辅以预测平均票选值(Predicted MeanVote;PMV)作为判断人体舒适程度的依据。因此,经过训练的深度强化学习演算法61能在维持活动空间(室内)的热舒适度及空气品质的状况下,最小化空调设备20与排风扇系统30的使用情形,以达到省电节能的效果。

在有关热舒适度的空调设备20的控制上,本发明可使用量化方法来计算或衡量热舒适度指标,此量化方法为量化人们对环境冷热感受程度的预测平均票选值(PMV)。例如,此热舒适度指标(即PMV)可使用四个环境因子与二个人为因子的数值予以计算,其中四个环境因子包括环境温度、平均辐射温度、相对湿度和平均风速,且二个人为因子包括新陈代谢率和衣着绝缘率。

热舒适度指标包括下表中的预测平均票选值(PMV)的数值与热感受描述。例如,本发明的热舒适度指标(预测平均票选值PMV)可以采用人体七级热感觉平衡量表作为依据,包括炎热(Hot)、温暖(Warm)、微温(Slightly warm)、适中(Neutral)、微凉(Slightlycold)、凉爽(Cool)、寒冷(Cold)等热感受描述,能在室内环境舒适度与能源消耗之间取得平衡,以达到节能减碳的效果。

在有关空气品质的排风扇系统30的控制上,本发明可采用二氧化碳的浓度作为基准以判断室内环境通风是否良好,因为二氧化碳为人体呼吸的主要代谢产物。例如,目前世界各国对于通风规范主要参考ASHRAE(Ventilation for Acceptable Indoor AirQuality;可接受的室内空气品质通风)Standard(标准)62.1,其中设定室内人在做办公工作时(Met=1.2)产生的二氧化碳为0.31L/min,每人需要的外气量是15cfm(7.5L/s),一般解释是室内二氧化碳的浓度不宜超过1000ppm,8小时内平均超过5000ppm或1小时内平均超过10000ppm会有生命危险是不可接受的。

本发明中利用深度强化学习控制环境舒适度的系统1及方法能为人员的活动空间提供舒适的空调环境与通风环境。同时,深度强化学习演算法61能依据热舒适度指标(即预测平均票选值PMV)、活动空间中二氧化碳的浓度、空调设备20的能耗与排风扇系统30的能耗进行权衡运算,再由第一电脑50依据优化调控结果产生相应的调控指令以优化调控空调设备20与排风扇系统30,进而提升空调设备20与排风扇系统30的效率。

在下列图4A至图7中,为了验证本发明中利用深度强化学习控制环境舒适度的系统1及其方法的效果,在某一大学的活动空间(如教室)建立实验场域,通过实验分析比较定温控制与演算法(深度强化学习演算法61)控制的能耗差异(冷气耗电)。

图4A与图4B分别为本发明在活动空间E中设置各种设备及其连接方式的实施例示意图。如图4A所示,此活动空间E的面积约为111平方公尺且高度约为4.2公尺,可容纳90人。又,如图4A至图4B所示,本实验在活动空间E的不同位置上设置多个不同的设备,包括一个黑球温度感测器11、六个温湿度/二氧化碳感测器12、三个变频的空调设备20、四个直流变频的排风扇31、一个第一电脑50(如具有处理器与控制器的单板电脑)、一个第二电脑60(如终端运算电脑)、以及一个路由器80(如Wi-Fi AP路由器或分享器)。

黑球温度感测器11可以测量活动空间E的辐射温度,温湿度/二氧化碳感测器12可以测量活动空间E的干球温度、相对湿度或二氧化碳的浓度,空调设备20可以调节活动空间E的室内温度,排风扇31可以引入外部气体以降低活动空间E中二氧化碳的浓度。而且,黑球温度感测器11、温湿度/二氧化碳感测器12、空调设备20与排风扇31皆能使用无线网络或有线网络连接至路由器80(如Wi-Fi AP路由器或分享器)与第一电脑50(如单板电脑),而第一电脑50可通过无线网络或有线网络将数据传送至第二电脑60(如终端运算电脑)。

实验参数可分为不可控参数与可控制参数两种,不可控制参数包括人数、人员分布情形、活动空间E的使用类型(如考试或上课)、室外温度等,而可控制参数包括控制方法(定温控制、人工手动控制、演算法自动控制)、活动空间E的门窗开关。实验持续期间为约五十天,实验开始前20分钟开始启动空调。实验的标准为:PMV数值在正负0.5以内为舒适,在正负0.5以外为不舒适;二氧化碳的浓度在800ppm以下为舒适,800-1000ppm为可接受,1000ppm以上为空气品质不佳也不可接受。以下将针对空气品质及舒适度对深度强化学习演算法61(Agent)自动控制的效果进行说明。

图5A与图5B分别为本发明中未开启图4A所示排风扇31与使用图4B所示深度强化学习演算法61(Agent)自动控制(开启)排风扇31时,图4A的活动空间E中二氧化碳的浓度的曲线图。同时,图5A与图5B的情形皆为62人在活动空间E(如教室)中上课,且上课时间为13:20至15:10。

由图5A可发现,在未开启图4A所示排风扇31的情形下,二氧化碳随着时间不断累积,使得二氧化碳的浓度升高,在上课大约20分钟后(时间13:40),二氧化碳的浓度就上升至1000ppm,脱离可接受范围,达到空气品质不佳及不舒适状态。

相对地,由图5B可发现,采取深度强化学习演算法61(Agent)能自动在时间点A1(时间14:14)开启图4A所示排风扇31,使原本迅速上升的二氧化碳的浓度有明显下降,在排风扇31的开启期间(时间14:14后),二氧化碳的浓度持续下降至1000ppm左右,而在课程结束后,人员离开教室,二氧化碳的浓度下降,采取深度强化学习演算法61(Agent)能自动在时间点A2(时间15:32)关闭排风扇31。

图6A与图6B分别为本发明在图4B所示深度强化学习演算法61(Agent)控制下,随单位时间变化的PMV(预测平均票选值)数值与温度设定值的曲线图,其中横轴为单位时间(监测点),且一个单位时间为30秒。借此,本发明可验证在采取深度强化学习演算法61(Agent)控制下,PMV(预测平均票选值)数值是否随着不同的温度设定值(如冷气温度设定值)而改变。

由图6A与图6B可发现,PMV(预测平均票选值)数值在时间区间351至421(见图6A的圆圈B1)时过低,因深度强化学习演算法61(Agent)在时间区间351至421将温度设定值(如冷气温度设定值)设定为摄式23度(见图6B的圆圈C1)。继之,深度强化学习演算法61(Agent)在时间区间351至421后,将温度设定值(如冷气温度设定值)调高至摄式26度(见图6B的圆圈C2),使得PMV(预测平均票选值)数值上升到约-0.1至-0.3区间(见图6A的圆圈B2),因此深度强化学习演算法61(Agent)确实有尝试不同的温度设定值(如冷气温度设定值),且PMV(预测平均票选值)数值也有随着不同的温度设定值而改变。

图7为本发明中不同的控制方法对热舒适度及能耗(冷气耗电)的影响的数据表D。如图所示,控制方法可分为三种,分别为[1]定温25度(定温控制)、[2]定温26度(定温控制)、[3]Agent(深度强化学习演算法)自动控制。

由图7可发现,使用Agent(深度强化学习演算法)自动控制及定温控制皆能将平均PMV数值维持在正负0.5的可接受范围内。又,比较编号29、30与编号18、19可发现,在人数接近的情况下,Agent(深度强化学习演算法)自动控制与定温26度相比平均节省了0.9%耗能(冷气耗电)。而且,比较编号25、26与编号5、6可发现,在人数接近的情形下,Agent(深度强化学习演算法)自动控制与定温25度相比平均节省了约30.3%的耗能(冷气耗电)。另外,在其余条件相同的情况下,定温26度会比定温25度节省约22.2%的耗能(冷气耗电)。

综上,本发明中利用深度强化学习控制环境舒适度的系统及方法可至少具有下列特色、优点或技术功效。

一、本发明的深度强化演算法能在维持活动空间的热舒适度及空气品质的状况下,最小化空调设备及排风扇系统的使用情形,以达到省电节能的效果。

二、本发明的深度强化学习演算法能依据热舒适度指标(即预测平均票选值PMV)、活动空间中二氧化碳的浓度、空调设备的能耗与排风扇系统的能耗进行权衡运算以产生优化调控结果,再由第一电脑依据优化调控结果产生相应的调控指令以优化调控空调设备与排风扇系统而提升效率。

三、本发明能为人员的活动空间提供舒适的空调环境与通风环境,亦能在室内环境舒适度与能源消耗之间取得平衡,以达到节能减碳的效果。

四、本发明能应用于室内的空调设备、排风扇系统或智能家电等领域。

上述实施形态仅例示性说明本发明的原理、特点及其功效,并非用以限制本发明的可实施范畴,任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施形态进行修饰与改变。任何运用本发明所揭示内容而完成的等效改变及修饰,均仍应为权利要求所涵盖。因此,本发明的权利保护范围,应如权利要求书所列。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号