首页> 中国专利> 气象灾情数据语义识别分析方法和系统

气象灾情数据语义识别分析方法和系统

摘要

本发明公开了一种气象灾情数据语义识别分析方法和系统,方法包括:灾种识别,建立由各灾种组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段;地址识别,建立小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段;程度识别,在灾种为暴雨的事件中,对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段;信息抽取,建立基于词向量的线性支持向量机分类模型,对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。本发明提出一种智能、稳定且数据处理能力强的气象灾情数据语义识别分析方法和系统。

著录项

  • 公开/公告号CN112818668A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利号CN202110163644.2

  • 发明设计人 王强;潘顺;杨辰;李海宏;顾宇丹;

    申请日2021-02-05

  • 分类号G06F40/242(20200101);G06F40/289(20200101);G06F40/30(20200101);G06F16/35(20190101);G06K9/62(20060101);

  • 代理机构31229 上海唯源专利代理有限公司;

  • 代理人曾耀先

  • 地址 201399 上海市浦东新区沪南公路2502号

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明涉及气象技术领域,尤其涉及一种气象灾情数据语义识别分析方法和系统。

背景技术

近年来,人工智能发展迅猛,成为世界各国研究和角逐的热点。一方面,人工智能应用的范围很广,尤其是在医疗、金融、安防、汽车等领域较为突出。气象应用也一直是高性能计算的重要领域,人工智能技术给观测、预报、服务等业务的发展带来不可多得的机遇,也带来极大的挑战。因此,人工智能技术的发展的特点对气象业务也产生了重大影响。另一方面,机器学习、自然语言处理以及计算机视觉等重大的人工智能技术都在不同的领域对气象产生了深刻影响,并不同程度的影响到受众的生活。

发明内容

本发明的目的在于克服现有技术的不足,提出一种智能、稳定且数据处理能力强的气象灾情数据语义识别分析方法和系统。

本发明提供如下技术方案:

第一方面,一种气象灾情数据语义识别分析方法,其包括:

灾种识别,建立由各灾种组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段;

地址识别,建立小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段;

程度识别,在灾种为暴雨的事件中,对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段;

信息抽取,建立基于词向量的线性支持向量机分类模型,对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。

作为本发明语义识别分析方法的一种优选技术方案,其还包括:依据得到的直接影响类型,构建关键词匹配规则,进一步识别直接承灾体、直接承灾体数量、间接承灾体、间接影响以及间接承灾体。

作为本发明语义识别分析方法的一种优选技术方案,所述灾种关键词字典根据重要性不同包含两级关键词字典,一级字典仅包含第一层关键词,二级字典包含第一层关键词和第二层关键词,其中:

第一层关键词代表对气象灾害本身的描述性词语;

第二层关键词代表对气象灾害所造成影响的描述性词语。

作为本发明语义识别分析方法的一种优选技术方案,在灾种识别中,先识别第一层关键词再识别第二层关键词,同层不同灾种关键词按照重要性由低到高顺序识别,且后识别的灾种替换先识别的灾种。

作为本发明语义识别分析方法的一种优选技术方案,在地址识别中,根据案件发生地址描述内容,识别案件所属区县,并调用地名地址服务,获取该地址的经纬度信息并输出,根据经纬度点位数据与街道图层进行地理空间匹配,提取每个点位数据对应的街道信息并输出。

作为本发明语义识别分析方法的一种优选技术方案,在灾情事件情况描述文字中,按照积水深度的描述规律,包括数字描述类和物体描述类,其中:

对于数字描述类,建立积水深度正则匹配表达式字典,采用正则匹配的方式识别数字和单位,并且通过单位转换得到以厘米为计量单位的积水深度数值;

对于物体描述类,通过收集整理常用的描述物体字典,包含和身体有关的表述和汽车有关的表述,并查阅普通成年人身高参数及普通轿车参数,给出积水深度的定量描述字典,得到以厘米为计量单位的积水深度数值。

作为本发明语义识别分析方法的一种优选技术方案,在识别出积水深度的案件中,还包括按照识别水深从高到低排序,得到水深超出正常范围的异常水深,对异常水深的案件进行数据校验。

作为本发明语义识别分析方法的一种优选技术方案,信息抽取的步骤包括:

在获得案件事件描述的数据集后,先对所有案件进行打标,制作模型的训练集;

将已经打标的案件按照一定比例分成训练集和验证集;

将内容分词后,用TF-IDF算法计算权重,制作词向量和标签一起作为线性支持向量机分类模型的输入;

针对不同灾种分别训练不同线性支持向量机算法模型,进行有监督的文本分类算法。

作为本发明语义识别分析方法的一种优选技术方案,其还包括利用测试集数据对灾种识别的准确率进行验证。

第二方面,一种气象灾情数据语义识别分析系统,该系统用于执行前述气象灾情数据语义识别分析方法。

本发明方法首先在获得案件事件描述的数据集以后先对所有案件进行人工打标,制作模型的训练集。案件描述文本还不能直接作为模型输入,需要进一步的预处理。采用常用的基础分词工具都可以对案件描述文本进行分词。分词的过程中还需要对事件常用词作为关键词,防止其被过多切分;另外还需制作停词表,筛除一些无意义的停词以提高最终模型的准确率。经过预处理以后的分词文本可以采用TF-IDF算法计算权重,制作词向量最终作为模型的输入。词向量作为模型输入,事件标签作为模型输出,针对不同灾种训练5个线性支持向量机算法模型,训练完成的模型可以对新的数据进行预测分类。对应灾种场景模型为大风,暴雨,雷电,冰雪以及其他。本发明使用了多种统计机器学习模型集成的方法,通过对气象灾情数据进行语义识别分析,得到灾种识别,地址识别,程度识别以及信息抽取的4大部分的结果输出。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例气象灾情数据语义识别分析方法的数据处理流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图1,本发明提供了一种气象灾情数据语义识别分析方法,其使用了多种统计机器学习模型集成的方法,通过对气象灾情数据进行语义识别分析,得到灾种识别、地址识别、程度识别以及信息抽取的四大部分的结果输出。

对于灾种识别,设计了由各灾种(暴雨、大风、雷电、冰雹、大雾、高温、雨雪冰冻、其他等8种灾种)组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段。灾种关键词字典根据重要性不同包含两级关键词字典,依次匹配。

对于地址识别,设计了小区名字典和道路名字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段。

对于程度识别,其主要功能为在灾种为暴雨的事件中,如有对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段。

对于信息抽取,其主要功能为抽取灾情事件描述中的直接承灾体、直接承灾体数量、直接影响、间接承灾体、间接影响等信息并输出。为此,设计了一个基于词向量的线性支持向量机分类模型(Linear Support Vector Classification),对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。并且以此为依据,构建一套关键词匹配规则,进一步识别直接承灾体、直接承灾体数量、间接承灾体、间接影响等信息并输出。

本实施例中,共部署有文本分类模型5个,对应灾种场景模型为大风、暴雨、雷电、冰雪以及其他。每种场景构建该场景的分类模型,目的是提高识别的准确率。5个模型中的其他模型,用于识别包含冰雹、高温、大雾等其他一些小数量灾种造成的直接影响类型。

下面以某市110气象灾情为例,对上述基于词向量的线性支持向量机分类模型做进一步详细说明,该模型的技术路线图参见图1所示。

(一)模型所用数据源

110气象灾情实时数据的时间从2007/08/11 00:00:00至2020/07/29 24:00:00。模型实际训练时使用2007/08/11 00:00:00至2020/01/01 00:00:00的数据作为训练集,共涉及数据37,955条,使用2020/01/01 00:00:00至2020/07/29 24:00:00的数据作为验证集,共涉及数据1,998条。

110气象灾情实时原始数据共有13个字段,根据分析需求,选取OBJECTID(案件id),DATETIME_DISASTER(报警时间),TELEPHONE(报警人电话),LONTITUDE(经度),LATITUDE(纬度),CASE_ADDR(报警案发地址),CASE_DESC(报警案件内容),DISTRICT(区县),这八个字段进行最终分析。

(二)语义识别方案

1、灾种识别

对于灾种识别,其主要功能为从一段灾情事件描述文字中识别灾种类型信息并输出。为此,设计了由各灾种(暴雨、大风、雷电、冰雹、大雾、高温、雨雪冰冻、其他等8种灾种)组成的灾种关键词字典,用于对案件发生情况描述进行识别匹配得到灾种字段。灾种关键词字典的部分内容,如下表1所示。

表1各类灾种关键词字典(部分)

灾种关键词字典根据重要性不同包含两级关键词字典,

需要使用二级字典匹配的灾种类型为:大风、暴雨、雷电。这些灾种的灾害类型数量较多,重要性较高,描述方式繁多需要二级字典匹配以提高识别准确率。一级字典匹配的灾种类型为冰雹、高温、大雾等其他一些小数量灾种,重要性较低。一级字典仅包含第一层关键词,而二级字典既包含该第一层关键词,还包含第二层关键词。

对于关键词二级字典层级分类的标准为:第一层代表对气象灾害本身的描述性词语,例如“大风”,“大雨”,“雷电”等;第二层代表气象灾害所造成影响的描述性词语,例如“吹倒”,“积水”,“被雷击”等。

除此以外,灾种关键词字典还支持“&”逻辑,例如大风关键词“树&倒”,可以匹配描述中既包含“树”也包含“倒”的事件为大风灾种。

识别层级按照表1中从左往右的顺序识别,即先识别第一层关键词再识别第二层关键词;同层不同灾种关键词也按照从左往右的顺序,即先识别大风再识别暴雨,雷电等。后识别的灾种会替换先识别的灾种,即气象灾害所造成影响的描述性词语优先于气象灾害本身的描述性词语。

2、地址识别

对于地址识别,其主要功能为从一段灾情事件地址描述文字中识别案件发生的道路名称和小区名称的信息并输出,为此,设计了某市道路名称字典和小区名称字典,用于对案件发生地址描述进行识别匹配得到小区名称和道路名称字段。

其中,对于道路名称字典,收集、整理、清洗得到了包含该市道路名称的字典,其中一共包含该市6,080个道路名称。对于该市小区名称字典,我们收集,整理,清洗得到了包含该市小区名称的字典,其中一共包含该市41,772个小区地址。该市小区名称字典中不止包含小区通俗名称,也包含小区名称解析的具体详细地址描述,例如××香苑(××路125号),都可以识别为小区。

根据案发地址描述内容,识别案件所属区县,并调用地名地址服务,获取该地址的经纬度信息并输出,根据经纬度点位数据与街道图层进行地理空间匹配,从而提取每个点位数据对应的街道信息并输出。

3、程度识别

对于程度识别,其主要功能为在灾种为暴雨的事件中,如有对积水深度的描述,采用提取关键词或者正则匹配方法将其转化为定量描述,构成积水深度字段。在实际操作过程中,将按照灾种识别的结果,对案件进行筛选,仅对“暴雨”灾种事件进行程度识别操作。

灾情事件情况描述文字中,对于积水深度的描述基本按照两种规律:

①数字描述类,一般描述为“积水深度xx厘米”;

②物体描述类,一般描述为“积水到脚踝”或“积水到轮胎”;

对于数字描述类,设计了一套正则匹配表达式字典,采用正则匹配的方式识别数字和单位,并且通过一些单位转换得到以厘米为计量单位的积水深度数值,可以匹配厘米、分米、米、公分、尺,寸等常用长度描述单位。对于物体描述类,通过收集整理常用的描述物体字典,主要包含和身体有关的表述和汽车有关的表述,例如:脚腕、脚踝、膝盖、小腿、轮胎、车门等。并查阅普通成年人身高参数及普通轿车参数,给出积水深度的定量描述字典,结果仍然以厘米为计量单位的积水深度数值。

另外,在识别出积水深度的案件中,也可能产生一些不可避免的错误。我们按照识别水深从高到低排序,发现很多异常水深的案件(63条记录水深等于大于5米)。这些记录大部分都是描述错误,我们暂定大于5米水深的案件都标注‘水深5米及以上’。这些特别容易混淆的描述难以用程序处理,因此,可以对出现大于5米水深的案件都介入人工手段进行数据校验。

4、信息抽取

对于信息抽取,其主要功能为抽取灾情事件描述中的直接承灾体、直接承灾体数量、直接影响、间接承灾体、间接影响等信息并输出。按照逻辑顺序我们将依次识别直接影响,直接承灾体,直接承灾体数量,间接影响以及间接承灾体。

1)直接影响

直接影响表示直接由气象灾害造成的影响事件,结合现有或新建立的‘气象灾害链’和‘影响事件分类’文件(如,直接间接影响承灾体对应表),以及实际训练集中灾情事件的数量分布,我们划定了一系列灾害事件,一共34类,如下表2所示。

表2各类灾种直接影响分类及数量

为此设计了一个基于词向量的线性支持向量机分类模型(Linear SupportVector Classification,下文简称LSVC),关于线性支持向量机分类模型原理在下文会进一步详细描述。对案件发生情况描述进行分词后再进行文本分类,得到直接影响类型。结合筛选的事件和实际的灾种类型,我们将37,955条案件进行人工打标,制作模型的训练集。将已经打标的37,955条案件按照8:2分成训练集和验证集,2020年的数据作为测试集。将内容分词后,用TF-IDF算法计算权重,制作词向量和标签一起作为模型的输入。针对不同灾种训练5个线性支持向量机算法模型(LSVC),进行有监督的文本分类算法。训练完成的模型可以对新的数据进行预测分类。

模型训练得到的事件分类结果仍有较多的错误,再根据一些错误分类的事件特点,单独写一些筛选关键词规则,为其进行进一步打标。分灾种针对性的写了一些规则,旨在将准确率进一步提高。

2)直接承灾体

直接承灾体表示由直接影响导致的灾害的第一承受物体,故特定的直接影响对应特定的一种或几种直接承灾体。在已经识别出直接影响以后进一步可以识别直接影响对应的直接承灾体类型。

根据最终识别的事件分类,采用两种策略识别承灾体:

①事件和承灾体一一对应,例如:树木树枝受损→树木;

②事件对应几种承灾体,例如:交通设施受损→信号灯,标志牌等。

因此,可以针对性的结合直接影响分类结果,并结合实际承灾体数量的多少,描述出每种直接影响对应所有可能的承灾体类型,并针对该直接影响依次匹配,最终得到直接承灾体。具体识别过程中参考的事件影响承灾体对应表可以预先制作完成。

3)直接承灾体数量

在已经识别出直接承灾体以后进一步可以识别直接承灾体对应的直接承灾体数量。直接承灾体数量默认为1,若案件描述中出现和承灾体数量相关的数量和量词,例如x个、x棵、x辆。采用关键词匹配或者正则匹配的方式识别出具体的数量即可。

4)间接影响

间接影响表示由直接影响导致的灾害的后续影响,例如,“风吹倒树木(直接影响),树砸到汽车(间接影响)”。在已经识别出直接影响以后进一步可以识别直接影响对应的间接影响。直接影响和间接影响的关系类似于直接影响和直接承灾体的关系,也可以采用关键词匹配的方式,描述出每种直接影响对应所有可能的间接影响类型,并针对该直接影响依次匹配,最终得到间接影响。具体识别过程中参考的事件影响对应表可以预先制作完成。

5)间接承灾体

间接承灾体表示由间接影响导致的灾害的承受物体,故特定的间接影响对应特定的间接承灾体。在已经识别出间接影响以后进一步可以识别间接影响对应的间接承灾体类型。间接影响和间接承灾体的数量均较少,且基本一一对应,故只需要进行默认匹配即可。

6)线性支持向量机分类模型原理

支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。其被广泛用于分类、回归和异常值检测算法之中。

当训练集线性可分,通过硬间隔最大化学习的线性分类器为线性支持向量机,又称硬间隔支持向量机。线性支持向量机和支持向量机模型采用类似的方法,但是接受的参数稍有不同,并且有不同的数学公式。LinearSVC是一种sklearn上更快的对线性核的支持向量分类的实现。LinearSVC不接受参数核函数,因为它被假设为线性的。

线性支持向量机分类模型拥有着许多的优点:是一种有坚实理论基础的新颖的适用小样本学习方法。它基本上不涉及概率测度及大数定律等,也简化了通常的分类和回归等问题。计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,对异常值不敏感,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒性”。学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。有优秀的泛化能力。

本发明方法首先在获得案件事件描述的数据集以后先对所有案件进行人工打标,制作模型的训练集。案件描述文本还不能直接作为模型输入,需要进一步的预处理。采用常用的基础分词工具都可以对案件描述文本进行分词。分词的过程中还需要对110案事件常用词作为关键词,防止其被过多切分;另外还需制作停词表,筛除一些无意义的停词以提高最终模型的准确率。经过预处理以后的分词文本可以采用TF-IDF算法计算权重,制作词向量最终作为模型的输入。词向量作为模型输入,事件标签作为模型输出,针对不同灾种训练5个线性支持向量机算法模型,训练完成的模型可以对新的数据进行预测分类。对应灾种场景模型为大风、暴雨、雷电、冰雪以及其他。

(三)模型验证机制

为了验证模型的准确率,可以将全部数据划分成训练集和部分验证集。具体为使用2007/08/11 00:00:00至2020/01/01 00:00:00的数据作为训练集,共涉及数据37955条,使用2020/01/01 00:00:00至2020/07/29 24:00:00的数据作为验证集,共涉及数据1998条。

由于数据本身除灾种外(地址识别,程度识别,直接承灾体,直接承灾体数量,间接承灾体,间接影响)并没有正确答案以供参考,因此主要考察指标为“识出率”。灾种识别可以和已有致灾因子代码对比计算准确率。其次,可以采用人工抽查的方式抽查实时数据识别准确率。

(四)模型更新优化

1、模型数据更新

模型在日常运行时需要的本地数据包括存放在data目录下的这些文件。

2、软件版本更新

若需要对模型所依赖的软件版本进行更新,则可以使用以下命令重新对模型的运行镜像进行重新打包。

(五)模型存贮

现在所有部署的模型都放置在data/model下:

值得一提的是,本发明还提供了一种气象灾情数据语义识别分析系统,以支持上述气象灾情数据语义识别分析方法的实现。该系统可存储于计算机中,当计算机运行该系统时,执行上述气象灾情数据语义识别分析方法的步骤。

需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号