首页> 中国专利> 基于聚类的城市基础设施突发事件的检测方法

基于聚类的城市基础设施突发事件的检测方法

摘要

本发明公开了一种基于聚类的城市基础设施突发事件的检测方法,首先,接收市民反映城市基础设施问题的电话,并记录到工单数据库中;对数据库筛选后,用中文分词技术对所筛选出的工单提取语义关键词,整理语义关键词间的因果关系,然后提取该工单的地址关键词;对工单做语义聚类;对语义层面上的每个聚类做空间聚类;对空间层面上的每个聚类做时间聚类,从而得到时间层面上的聚类,认定时间层面上的聚类是城市基础设施突发事件,用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分布,从而检测出城市基础设施突发事件,让用户做出更快更明智的决策来解决城市基础设施的问题。

著录项

  • 公开/公告号CN104299182A

    专利类型发明专利

  • 公开/公告日2015-01-21

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201410525969.0

  • 申请日2014-10-08

  • 分类号G06Q50/26;G06F17/30;

  • 代理机构天津市北洋有限责任专利代理事务所;

  • 代理人李丽萍

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-12-17 04:10:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-19

    授权

    授权

  • 2015-02-18

    实质审查的生效 IPC(主分类):G06Q50/26 申请日:20141008

    实质审查的生效

  • 2015-01-21

    公开

    公开

说明书

技术领域

本发明涉及一种考虑时间、空间和语义三个维度的聚类算法从城市基础设施诉求问题 中检测出突发事件,支持决策。

背景技术

现在,城市基础设施发展,不管对于一个国家或者是人们都是非常重要的。越来越多 的管理者开始关注城市基础设施发展。对此,人们关注最多的莫过于生活中的供水、电、 燃气、排水、出行交通等方面,北方的人们还会关注供热的问题。这些行业的发展和管理, 和人们的生活状态和城市的发展运营都息息相关。在不同的国家,不同的城市,开始产生 了各种城市的管理服务的系统或者机构,比如美国的311系统,英国的101系统,中国的 12319系统。像供水、燃气等等这样和市民生活相关的数据也开始变得越来越可用。在这样 的背景下,对城市基础设施发展和管理的研究也变得有意义和价值。像供水、燃气这样的 行业,如果有一些设施的故障或整修,这样的突发事件会对市民的生活有很大的影响。

本发明在技术上是和聚类相关的,在应用上是和城市基础设施相关的。一般的单个的 科研工作已经有很多国内外科研专家研究,也已经有了大量的研究成果,但是用考虑时间、 空间和语义三个维度的聚类方法来研究城市基础设施相关的数据的情况并不多。

如今有很多人研究城市基础设施数据,在这些基础设施数据逐渐变得可用的时候,对 城市基础设施的研究有很多。有研究人员针对公共服务对未来100年的风险和不确定性做 了估计;有的人建立了一种关于基础设施间相互依赖的模型,希望能够发现不同类型基础 设施之间的关系,验证可能一类基础设施的问题会导致另一类设施的问题。但大多数的研 究者只是从管网数据中研究问题,而本发明依据12319电话数据,它是市民针对基础设施 问题真实反映的诉求;而管网数据并不能完全地包含市民反映的问题,它只是突发事件发 生后的一个整体的情况,它所涉及到的粒度没有一个个的电话诉求那么细,所以当管网数 据没有显示基础设施有问题时,并不代表真的就没有问题。

聚类算法在各个领域上运用的很广泛,有专家发展了一种迭代的聚类算法,有人则基 于语义聚类发展了一种路径查询算法。聚类作为一种数据挖掘手段已经被广泛使用,但是 大部分聚类算法只是在时间或空间上处理,也有一些专门的文本聚类算法,少有同时时间、 空间和语义的聚类。而本发明由于数据和研究的需要,定义两个工单是否相近,就应该考 虑齐全它们的属性,即综合时间、空间、语义做聚类。

关于城市基础设施的聚类也很多,有人在空间扫描统计方法上扩展成一种可以检测水 分布网络爆管点的聚类事件的方法。但真正和本发明研究的方向和模型相似的方法并不多, 更何况,在很多国家和城市,不存在供热的问题。

地理资讯系统(Geographic Information System,简称GIS)相关的研究就更多了,GIS 在很多需要地图的项目(例如实时交通网络)和研究中都有被用到。城市是一个有面积的 实体,也就是说它是适合地图应用的。另外,在GIS的基础上加入其他技术和应用的例子 也不少,有人基于GIS提出了一个整合的基础设施管理系统。也有人结合GIS和城市基础 设施做了研究,而本发明则在GIS基础上加入要研究的应用。

发明内容

城市管理服务热线系统的数据是以市民诉求工单的形式存在,然而突发事件的信息对 城市管理者来说更有价值。本发明旨在对电话诉求数据进行清洗和处理后,在时间、空间 和语义内容三个尺度上对工单做综合的聚类,进而找出相似的反映同一个突发事件的工单。 当城市管理者知道有这样一些工单实际上是一个突发事件的反映,他们就能更快的根据总 结出来的在某个地区某个时间段发生的突发事件做出处理的决策,而不是根据一条条表面 上看不出联系的工单。本发明是从处理对象——工单出发,从图1也可以看出来这个基于 聚类的城市基础设施突发事件检测方法的最终目的是,检测出城市基础设施突发事件,从 而可以做出更快更明智的决策来解决城市基础设施的问题。在经过语义和地址关键词的处 理和语义、空间、时间聚类后,对得到的突发事件做可视分析设计,通过根节点的方案可 以更深入地看到突发事件在地图上的分布情况、更直观地在突发事件中发现严重的突发事 件,如图5;所以突发事件的可视分析设计让用户在突发事件发生后很快地得知突发事件的 具体原因、相应后果和发生的位置,帮助其决策。

为了解决上述技术问题,本发明一种基于聚类的城市基础设施突发事件的检测方法包括 以下步骤:

步骤一、利用城市管理服务热线系统接收市民反映城市基础设施问题的电话,然后, 将该电话内容记录到一工单数据库中,所述工单数据库至少包括以下内容:

工单编号、接收工单的时间、工单反映的问题所涉及到的城市基础设施的类别、描述 该电话所反映的城市基础设施问题的文本和该电话所反映的城市基础设施问题的地址;其 中,所述工单反映的问题所涉及到的城市基础设施的类别包括供热、自来水、燃气、排水 和供热,城市基础设施问题的地址是层级的;

步骤二、根据接收工单的时间和工单反映的问题所涉及到的城市基础设施的类别对工 单数据库进行筛选;

使用中文分词技术对所筛选出的工单提取工单描述的电话所反映的城市基础设施问题 的文本中的语义关键词,所述语义关键词是城市基础设施问题的原因或结果的词语;整理 对应的语义关键词间的因果关系,用于定义城市基础设施突发事件在语义内容这一维度上 的种类;

使用中文分词技术对所筛选出的工单提取工单所反映的城市基础设施问题的地址中的 地址关键词,从而提取出工单所反映的城市基础设施问题的地址的每个层级的地址单元;

步骤三、对步骤二处理后的工单进行语义聚类:

根据工单的语义关键词的提取统计信息和整理的语义关键词间的因果关系把工单归到 匹配的城市基础设施突发事件语义种类中,从而得到在语义层面上的聚类,包括:

如果工单反映的城市基础设施问题的文本中包括步骤二确定的某种反映城市基础设施 突发事件的原因的语义关键词,则将该工单归到这种城市基础设施突发事件中;

如果工单反映的城市基础设施问题的文本中同时出现了多个反映不同类别的城市基础 设施突发事件的原因的语义关键词,则将该工单归到这些城市基础设施突发事件中含有反 映城市基础设施突发事件的结果的语义关键词最多的城市基础设施突发事件中;

如果工单反映的城市基础设施问题的文本中只出现了反映城市基础设施突发事件的结 果的语义关键词X,则在该工单的接收时间的前后2天内找在语义上出现了和上述结果的 语义关键词有因果关系的原因的语义关键词的工单,

如果找到的符合条件的工单已经归到相应的城市基础设施突发事件中,则把该工单 也归到这种城市基础设施突发事件中;

如果没有找到符合条件的工单,则把该工单归到包含结果的语义关键词X的城市 基础设施突发事件,且该城市基础设施突发事件是所有包含结果的语义关键词X的城 市基础设施突发事件中优先级最高的城市基础设施突发事件;城市基础设施突发事件的 优先级是规定城市基础设施突发事件发生后需要做出反应并解决的紧急程度;

如果工单反映的城市基础设施问题的文本中没有任何反映城市基础设施突发事件的原 因或结果的语义关键词,则该条工单在语义上不属于任何城市基础设施突发事件;

步骤四、对步骤三中得到的语义层面上的每个聚类进行空间聚类,从而得到在空间层 面上的聚类:

遍历每个聚类中的工单,判断聚类中有相同的地址关键词的工单的个数是否大于等于3,

当聚类中有相同的地址关键词的工单的个数大于等于3时,则初步认定这些工单的 集合成为一个城市基础设施突发事件;

当聚类中有相同的地址关键词的工单的个数小于3时,定义一个最大经纬度距离D, 遍历该聚类中的所有工单,如果两条工单的经纬度距离d大于0而小于等于D,则把它 们归为一个空间层面上的聚类;

遍历后,要求空间层面上的聚类包含的工单的个数大于等于3;否则,舍弃这样的空间 层面上的聚类;

步骤五、对步骤四中得到的空间层面上的每个聚类进行时间聚类,从而得到在时间层 面上的聚类:

设定时间聚类中最大的时间尺度为5天,空间层面上的每个聚类中的工单可能在同一天 或者相邻的天数内被接收,统计空间层面上的每个聚类中的所有工单的被接收的时间,得 到所有的日期、每个日期对应的出现的次数和接收时间是该日期的所有工单的集合;按照 日期出现的次数从大到小对日期排序后得到日期的集合F,遍历日期的集合F的每个日期Y,

如果日期的集合F中,存在与日期Y相差前后2天内的日期Z,则将空间层面上的 聚类中接收时间在日期Y和Z的工单聚在一起,并从日期的集合F将日期Y和日期Z 删除;

如果日期的集合F中,不存在与日期Y相差前后2天内的日期,则遍历日期的集合 F中的下一个日期;

遍历后,得到在时间层面上的聚类,要求它们包含的工单的个数大于等于3;否则,舍 弃这样的时间层面上的聚类;

步骤六、认定步骤五中得到的时间层面上的聚类是城市基础设施突发事件,用城市基 础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事件的分 布,从而检测出城市基础设施突发事件;所述的城市基础设施突发事件的根节点,是指城 市基础设施突发事件中的第一个所反映的城市基础设施问题的文本包含反映城市基础设施 突发事件原因或结果的语义关键词的工单。

相比现有的技术,本发明不仅仅考虑时间和空间维度,还加入了语义维度来全面权衡 工单的相似性。根据城市基础设施的诉求数据的自身特性,语义内容作为描述工单的重要 属性,理应被考虑到检测突发事件的聚类算法中。相比一般的聚类算法,本发明的创新之 处是结合文本处理做了语义、空间和时间三个维度上的聚类。在事件发生之后用本发明能 迅速地找到问题的根本并快速地解决它,而且本发明充分地利用了市民反映的真实的信息, 既来源于12319城市管理服务热线系统,也可以被应用到12319城市管理服务热线系统中, 给人们带来更多的便利。

附图说明

图1是基于聚类的城市基础设施突发事件的检测方法的流程图;

图2(a)是对选定的工单做语义聚类的结果图;

图2(b)是图2(a)的单独一种语义聚类的效果图;

图2(c)是对图2(b)包含的工单做空间聚类的效果图;

图2(d)是对图2(c)包含的工单做时间聚类的效果图;

图3是城市基础设施——燃气的突发事件和灰度映射的示意图;

图4是城市基础设施——自来水的突发事件和灰度映射的示意图;

图5是使用突发事件的根节点显示突发事情分布情况的效果图;

图6是用本发明检测到2010年自来水基础设施的工单数据中的特大型突发事件;

图7是图6中严重突发事件的3个工单的详细内容的示意图。

具体实施方式

本发明提供一种基于聚类的城市基础设施突发事件的检测方法,主要考虑聚类对象的 语义内容、空间和时间3个维度的聚类算法来检测城市基础设施的突发事件。下面结合附 图和具体实施例(以天津12319城市管理服务热线系统为例)对本发明技术方案作进一步 详细描述。本发明方法包括以下步骤:

步骤一、利用天津12319城市管理服务热线系统接收市民反映城市基础设施问题的电 话,然后,将该电话内容记录到一工单数据库中,所述工单数据库至少包括以下内容:

工单编号、接收工单的时间、工单反映的问题所涉及到的城市基础设施的类别、描述 该电话所反映的城市基础设施问题的文本和该电话所反映的城市基础设施问题的地址;其 中,所述工单反映的问题所涉及到的城市基础设施的类别包括供热、自来水、燃气、排水 和供热,城市基础设施问题的地址是层级的。

根据12319系统数据的特征,尽管现有聚类方法大多只考虑时间和空间2个维度,但 本发明提供一种考虑聚类对象的语义内容、空间和时间3个维度的聚类算法来检测城市基 础设施的突发事件。

步骤二、如图1,根据接收工单的时间和工单反映的问题所涉及到的城市基础设施的类 别对工单数据库进行筛选;

使用中文分词技术对所筛选出的工单提取工单描述的电话所反映的城市基础设施问题 的文本中的语义关键词,所述语义关键词是城市基础设施问题的原因或结果的词语;对语 义关键词的要求是它们必须反映工单文本内容的本质问题,如“漏气”;所以工单的语义关 键词是工单的主题的主要贡献者,判断2个工单在语义内容上是否相近,等价于判断工单 的语义关键词是否相近。使用中文分词技术提取出工单语义内容的语义关键词,该分词技 术的技术是检查一个句子中是否有词库中的词并记录这些词。所述词库是在充分了解和熟 悉了工单数据库之后定义的,它包含反映城市基础设施问题的语义关键词,如“燃气设施”、 “燃气事故”和“漏气”。整理对应的语义关键词间的因果关系,用于定义城市基础设施突 发事件在语义内容这一维度上的种类;如图1所示,提取了语义关键词之后,还需要整理 关键词间的因果关系。上述总结的语义关键词分为表示突发事件语义原因的关键词和表示 突发事件结果的关键词,例如“燃气事故”导致“无气”;这两类语义关键词存在一定的因 果关系,这样的因果关系就构成了突发事件的语义内容,所以本发明规定用原因、结果关 键词的因果关系来定义突发事件在语义内容这一维度上的种类。

使用中文分词技术对所筛选出的工单提取工单所反映的城市基础设施问题的地址中的 地址关键词,从而提取出工单所反映的城市基础设施问题的地址的每个层级的地址单元; 工单的地址信息大多是层级的,如“河西区黑牛城道纯雅公寓1号楼4门202”;本步骤就 是为了提取出每个层级的地址单元,如“河西区”、“黑牛城道”、“纯雅公寓”。

步骤三、如图1,对步骤二处理后的工单进行语义聚类:

根据工单的语义关键词的提取统计信息和整理的语义关键词间的因果关系把工单归到 匹配的城市基础设施突发事件语义种类中,从而得到在语义层面上的聚类。给步骤二处理 后的每条工单设一个数组PREPAREMASK,其数据结构通过一个例子展示。假设现在总结 的共有3种因果关系,所以PREPAREMASK数组中有3个元素,表示特定的城市基础设施 的突发事件的语义种类的个数;因为每个突发事件在语义维度上用原因、结果关键词的因 果关系来定义,所以PREPAREMASK数组的每个元素是包含2个数值的数组,第一个数值 记录特定突发事件的原因关键词在工单语义内容中出现的次数,相应的第二个数值记录特 定突发事件的结果关键词在工单语义内容中出现的次数。所以PREPAREMASK的结构是如 [[1,0],[1,1],[0,2]]这样的形式,广义的说是n*2格式的,n是特定基础设施的突发事件的语义 种类的个数。当一条工单中出现了某种突发事件语义上的原因的关键词,就给 PREPAREMASK中表征这个原因的数值量加1;当出现了某种突发事件语义上的结果的关 键词,就给PREPAREMASK中表征这个结果的数值量加1。所以[[1,0],[1,1],[0,2]]就表示这 个工单的语义内容中出现了0号突发事件的一种语义的原因,1号突发事件的一种语义的原 因和一种语义的结果,2号突发事件的两种语义的结果。本发明在熟悉数据库之后规定每个 突发事件语义种类的原因关键词只有一种,但结果关键词有多种;即一种原因可以导致多 种结果。

对筛选的工单做语义聚类时,依据工单的PREPAREMASK数组做判断,把工单归到适 合的突发事件语义种类中(以燃气基础设施为例,定义筛选出的工单集合为B):

如果工单反映的城市基础设施问题的文本中包括步骤二确定的某种反映城市基础设施 突发事件的原因的语义关键词,则将该工单归到这种城市基础设施突发事件中;

如果工单反映的城市基础设施问题的文本中同时出现了多个反映不同类别的城市基础 设施突发事件的原因的语义关键词,则将该工单归到这些城市基础设施突发事件中含有反 映城市基础设施突发事件的结果的语义关键词最多的城市基础设施突发事件中;具体的说, 如果集合B中的工单C的PREPAREMASK[j][0]=1且PREPAREMASK[j][1]是语义原因值 为1的突发事件中的最大结果值,那么C的聚类编号则为j。其中j是PREPAREMASK的 index,PREPAREMASK中的元素是按突发事件优先级排序的,所以j代表的是燃气基础设 施下的突发事件的编号,可能是0,1,2,3(因为本发明规定燃气基础设施有4种语义突发事 件种类,这是整理语义关键词时整理得到的)。

如果工单反映的城市基础设施问题的文本中只出现了反映城市基础设施突发事件的结 果的语义关键词X,则在该工单的接收时间的前后2天内找在语义上出现了和上述结果的 语义关键词有因果关系的原因的语义关键词的工单,如果找到的符合条件的工单已经归到 相应的城市基础设施突发事件中,则把该工单也归到这种城市基础设施突发事件中;如果 没有找到符合条件的工单,则把该工单归到包含结果的语义关键词X的城市基础设施突发 事件,且该城市基础设施突发事件是所有包含结果的语义关键词X的城市基础设施突发事 件中优先级最高的城市基础设施突发事件;城市基础设施突发事件的优先级是规定城市基 础设施突发事件发生后需要做出反应并解决的紧急程度;如“燃气事故”这样的突发事件 的优先级就高于“燃气设施”这样的突发事件。

如果工单反映的城市基础设施问题的文本中没有任何反映城市基础设施突发事件的原 因或结果的语义关键词,则该条工单在语义上不属于任何城市基础设施突发事件。

图2(a)、图2(b)、图2(c)和图2(d)是选取了燃气基础设施下的同一个工单集合 来说明聚类的过程,图中的点是工单在地图上的映射(依据工单的地址信息);这些图中不 直的线构成了天津市区的边界图,市内六区包括和平区、南开区、红桥区、河北区、河东 区和河西区。燃气的突发事件和灰度映射关系如图3,可以看出燃气基础设施下共有4种语 义类型的突发事件“燃气事故”、“燃气设施”、“截门”和“燃气表”,由于各个类型 的突发事件有不同的原因关键词,所以使用原因关键词做突发事件的标志。对筛选出来的 燃气基础设施下的工单做语义聚类之后得到了4种突发事件,如图2(a)所示,有4种不 同灰度的点。因为很多工单有可能发生在相同的或者相邻的地理位置,所以图中有点覆盖 的现象。

步骤四、如图1,对步骤三中得到的语义层面上的每个聚类进行空间聚类,从而得到在 空间层面上的聚类:

遍历每个聚类中的工单,判断聚类中有相同的地址关键词(如道、路、街、大街、里、 小区、花园、公寓、庄)的工单的个数是否大于等于3,当聚类中有相同的地址关键词的工 单的个数大于等于3时,则初步认定这些工单的集合成为一个城市基础设施突发事件;当 聚类中有相同的地址关键词的工单的个数小于3时,定义一个最大经纬度距离D,遍历该 聚类中的所有工单,如果两条工单的经纬度距离d大于0而小于等于D,则把它们归为一 个空间层面上的聚类。遍历后,要求空间层面上的聚类包含的工单的个数大于等于3;否则, 舍弃这样的空间层面上的聚类;

为了能更好地用图说明空间聚类的过程,从图2(a)中抽取一种语义集合(效果如图2 (b))做空间聚类之后能够发现局部有一些空间聚类,如图2(c)。

步骤五、根据图1的流程图,时间聚类是检测城市基础设施突发事件的聚类算法的最 后一步聚类。对步骤四中得到的空间层面上的每个聚类进行时间聚类,从而得到在时间层 面上的聚类:

设定时间聚类中最大的时间尺度为5天(一个日期的前后2天),空间层面上的每个聚 类中的工单可能在同一天或者相邻的天数内被接收,统计空间层面上的每个聚类中的所有 工单的被接收的时间,得到所有的日期、每个日期对应的出现的次数和接收时间是该日期 的所有工单的集合;按照日期出现的次数从大到小对日期排序后得到日期的集合F,遍历日 期的集合F的每个日期Y,如果日期的集合F中,存在与日期Y相差前后2天内的日期Z, 则将空间层面上的聚类中接收时间在日期Y和Z的工单聚在一起,并从日期的集合F将日 期Y和日期Z删除;如果日期的集合F中,不存在与日期Y相差前后2天内的日期,则遍 历日期的集合F中的下一个日期。遍历后,得到在时间层面上的聚类,要求它们包含的工 单的个数大于等于3;否则,舍弃这样的时间层面上的聚类。

举例来说,次数和日期的分布是(4,G),(2,H),(1,I),(1,J),是按次数从大到小排序,G日期 出现了4次。找相邻的聚类就是找一个日期的前后2天的日期,假定H=G–1,且I=H–2, J=G+1,加法表示是一个日期的后一天,减法表示是一个日期的前一天。所以G和H相 邻,H和I相邻,G和J相邻但是G和I不相邻。所以,遍历G,H,I,J之后,H是和G聚在 一起,还是和I聚在一起就看谁的出现次数更大了。G的次数最大,所以优先考虑G,最后 得到的分类结果是(7,G,H,J),(0,H),(1,I),(0,J),H,J的次数被加到G的数组上;接着看H,由 于它的次数是0说明它已经被加到别的聚类了,所以跳过;再看I,它虽然和H相邻,但H 已经和G聚在一起;J的情况和H相似。所以时间的聚类结果是G,H,J为一类,I为一类; 最后要验证聚类的工单个数大于等于3的条件,一类的日期总出现次数其实就是这个时间 聚类中的工单个数,所以只有G,H,J的聚类满足条件,将空间层面上的聚类中接收时间在日 期G,H,和J的工单聚在一起。

对图2(c)中的所有聚类的工单接着做时间聚类,可以发现由于时间上相近的要求和一 个聚类的工单个数大于等于3的硬性指标去除了图2(c)中的大部分工单,如图2(d),经 过语义、空间和时间上的聚类得到了在语义、空间和时间维度上都相近的工单的集合。

步骤六、突发事件可视设计。可视设计是指用可视分析的方案来获取信息,而可视分 析是一种用交互式界面进行推理分析的科学,相比于文字信息,可视化的方法更为直接, 让人更深入地理解信息。认定步骤五中得到的时间层面上的聚类是城市基础设施突发事件, 用城市基础设施突发事件的根节点的可视设计方案在地图上展示这些城市基础设施突发事 件的分布,从而检测出城市基础设施突发事件;所述的城市基础设施突发事件的根节点, 是指城市基础设施突发事件中的第一个所反映的城市基础设施问题的文本包含反映城市基 础设施突发事件原因或结果的语义关键词的工单。

在整个聚类过程完成后,得到了在语义内容、空间和时间3个维度上都相近的工单的 聚类。如果仅仅使用将工单映射成地图上的点的方案来展示一个突发事件,那么在地图上 工单点的覆盖很严重影响到突发事件的识别。为了很好的展示选定的时间段和选定的城市 基础设施下的突发事件的分布情况,本发明用突发事件根节点的方案展示多突发事件的分 布。对一个突发事件,城市基础设施发生故障之后,总会有第一个打电话反映这个事件相 关问题的市民。随着时间的推移,会有越来越多的人反映这个事件。第一个真正反映突发 事件原因或结果的工单对这个突发事件是非常重要的,它就像是一个突发事件的源头,本 发明定义为突发事件的根节点。这个根节点也属于突发事件中的一个工单,所以它不会导 致整个突发事件的地理位置信息有特别大的损失,效果图如图5所示,图5的聚类结果的 工单来源于城市基础设施——自来水。突发事件的严重程度是突发事件的优先级和突发事 件包含的工单的个数共同决定的,即突发事件的优先级别越高、包含的工单个数越多,突 发事件的严重程度越高;反之。以突发事件根节点为圆心画一个圆,突发事件根节点的圆 圈的不透明度和突发事件中的工单的个数成正比,具体映射关系如下:

opacity=casesNumber/maxCasesNumber*0.7+0.2

其中opacity是当前突发事件根节点圆圈的不透明度值,opacity取值范围是0~1; casesNumber是当前突发事件包含的工单的个数;和当前突发事件在同一时间段和相同基础 设施条件下聚类得出的所有突发事件中,包含工单的个数的最大值是maxCasesNumber。各 个突发事件的工单个数各有不同,为了减小这种差异和满足opacity的取值范围,用 casesNumber/maxCasesNumber这种比值的方法使得opacity大于0.2(当casesNumber达到 最小值3),小于等于0.9(当casesNumber达到最大值maxCasesNumber)。

这样的方式使得突发事件根节点的圆圈不会完全透明而在地图上显现不出,也不会完 全不透明而覆盖相同的或者相邻的地理位置上的突发事件根节点的圆圈。也就是说,突发 事件根节点的圆圈越不透明,突发事件的工单数越多;反之。而且这种方法也适当缓解了 突发事件根节点的圆圈间的覆盖现象。

突发事件根节点的圆圈的灰度反映了突发事件的语义种类,燃气和自来水基础设施的 映射关系分别如图3和图4。更加明显地区别突发事件的语义种类,在图5中用引线做标识, 除了有引出的箭头的三个突发事件根节点的圆圈是“管道”类型的突发事件;图中的其他 事件都是“施工”类型的突发事件。在图5中之所以只出现了两种语义类型的突发事件是 因为系统只选择显示这2种突发事件。

突发事件根节点的圆圈的半径和突发事件的影响范围成正比,具体映射关系如下:

eventsRadius=casesDistance/maxCasesDistance*dMax+dBegin

其中eventsRadius是当前突发事件根节点圆圈的半径;casesDistance是当前突发事件中 最远的两点(对应于两个工单)间经纬度距离;和当前突发事件在同一时间段和相同基础 设施条件下聚类得出的所有突发事件中,最远的两点间经纬度距离最大的是 maxCasesDistance;dMax限制的是突发事件根节点的圆圈的最大半径;dBegin限制的是突 发事件根节点的圆圈的最小半径;dMax和dBegin都是经验值。eventsRadius的计算原理和 突发事件根节点的圆圈的不透明度的设定原理相似。虽然根节点的方案用突发事件根节点 的圆圈的不透明度和半径缓解了突发事件根节点的圆圈间的覆盖现象,但是图5还是有一 些圆圈覆盖的情况,这是不可完全避免的。

本发明规定,对于各种优先级的突发事件,当其根节点的圆圈的不透明度大于等于0.7 (经验值)时,这样的突发事件就是严重的。为了能够在地图上更加突显严重的突发事件, 给这样的突发事件根节点的圆圈在外部加一个有灰度的圆环,如图5中的A事件,A外部 被一个有灰度的圆环包围,使得它很容易被决策者观察到。

附图中的图5、图6和图7都是选取了自来水基础设施;自来水的突发事件和灰度的映 射关系如图4,可以看出自来水基础设施下共有6种语义类型的突发事件“管道”、“施工”、 “二次供水”、“口径”、“截门”和“水表”。

本发明是从处理对象——工单出发,从图1也可以看出来这个基于聚类的城市基础设 施突发事件的最终目的是,检测出城市基础设施突发事件,从而可以做出更快更明智的决 策来解决城市基础设施的问题。在经过语义和地址关键词的处理和语义、空间、时间聚类 后,对得到的突发事件做可视分析设计,通过根节点的方案可以更深入地看到突发事件在 地图上的分布情况、更直观地在突发事件中发现严重的突发事件,如图5;所以突发事件的 可视分析设计让用户在突发事件发生后很快地得知突发事件的具体原因、相应后果和发生 的位置,帮助其决策。

研究材料.2010年1月大雪

在熟悉工单数据库后,发现自来水基础设施在2010年1月份左右的工单数要比前后2 个月的工单数多很多,通过历史材料发现这个月发生了特大型的自来水管道冻裂事件。用 本发明提供的基于聚类的城市基础设施突发事件的检测方法,可以很好地验证2010年1月 的暴雪导致了天津市和平区和河西区的自来水管道冻裂事件。首先,筛选时间段为2010年 1月、基础设施为自来水的工单,定义为集合T。具体聚类步骤如下:

1.提取T中工单的语义关键词;

2.整理上述步骤2得到的语义关键词的因果关系;

3.提取T中工单的地址关键词;

4.针对T中所有工单进行语义聚类;

5.针对上述步骤4得到的所有语义维度上的集合进行空间聚类;

6.针对上述步骤5得到的所有空间维度上的集合进行时间聚类;

7.对上述步骤6得到的所有集合——突发事件做可视设计,如图6所示。从图6中可 以直观地发现相比其他突发事件根节点的圆圈而言,半径更大、不透明度更大的2 个严重的突发事件。它们的语义突发事件类型是“管道”,验证了2010年1月的 大雪的确导致了自来水管道冻裂;而且它们的确发生在天津市和平区和河西区。查 看图6中的2个严重突发事件的工单的文本内容,如图7,展示了3个工单的信息。 这3个工单的工单内容的确反映的是自来水管道冻裂问题。所以如果在2010年1 月的大雪发生之后使用本发明提供的聚类方法,就可以检测出是天津市和平区和河 西区的自来水管道冻裂事件。

本发明提供的基于聚类的城市基础设施突发事件的检测方法可以检测出特定时间段和 基础设施的工单内的突发事件;并提供好的可视设计让用户可以深入地看到突发事件在地 图上的分布情况、更直观地在突发事件中发现严重的突发事件;就2010年1月的暴雪这个 研究材料,本发明的检测方法让用户在暴雪发生后很快地得知是暴雪导致了自来水管道冻 裂事件、这些管道冻裂事件又导致了市区无水、管道跑水等问题、以及管道冻裂事件主要 发生在天津市和平区和河西区等有利的信息,帮助其决策。同时,2010年1月的暴雪也是 一个有力证明本发明的检测方法的有效性的研究材料。

尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式, 上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明 的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保 护之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号