法律状态公告日
法律状态信息
法律状态
2019-10-01
授权
授权
2017-01-04
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160729
实质审查的生效
2016-12-07
公开
公开
技术领域
本发明涉及计算机技术应用领域,尤其涉及基于文本大数据的数字化应急管理案例库构建方法及装置。
背景技术
突发事件的应对过程可以分为预防与应急准备、监测与预警、应急处置与救援和事后恢复与重建四个阶段。但是由于突发事件的爆发性强且复杂易变等特点,很难做到有效全面的预防与预警,所以只有在应急处置与救援过程中及时做出有效的应急响应决策,才能控制事件的发展局势。考虑到应急预案的针对性和操作性有限,可以对历史的突发事件进行整理形成典型的案例,进而应急人员可以借鉴典型案例进行决策的辅助支持。
然而,在案例的整理和应用过程中,也遇到的一些系列问题,例如数据的全面性和真实性以及分析的准确性和智能性有待于进一步提高;文本化的突发事件案例没有统一的编制标准,案例的检索与匹配准确度不高。为此迫切需要一种技术手段能够有效解决上述问题,通过结构化数字化的突发事件案例表示,能够实现案例的精确检索与匹配,能够为突发事件的应对过程提供决策支持。
发明内容
鉴于上述的分析,本发明旨在提供一种基于文本大数据处理的数字化应急管理案例库构建方法,用以解决现有文本化突发事件案例应用局限性的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种基于文本大数据处理的数字化应急管理案例库构建方法,包括:
定期采集数据,并对采集到的数据进行预处理,得到中文文本分词结果;
基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据并进行分类,得到突发事件分类结果;
基于所述突发事件分类结果,进行专题事件的识别与跟踪;
利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
进一步地,所述采集数据的步骤具体包括:
基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
进一步地,所述预处理的步骤具体包括:
利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;
利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
进一步地,所述数据清洗的步骤具体包括:
构建原始的突发事件领域关键词词表;
基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
进一步地,还包括:
针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;
如果所述海明距离小于预定值,则认为该数据为相似数据。
进一步的,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
进一步地,所述专题事件的识别与跟踪的步骤具体包括:
针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;
基于所述特征权值,计算待分析数据与已识别专题事件的相似度;
如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
进一步地,利用信息抽取方法,采用基于框架的知识表示方法,从基本信息、事件背景、事件属性、事件过程和反应评价五个方面对专题事件进行描述。
本发明还提供了一种基于文本大数据处理的数字化应急管理案例库构建装置,包括:
数据采集模块,用于定期采集数据并发送给数据预处理模块;
数据预处理模块,用于对采集到的数据进行预处理,得到中文文本分词结果;
数据清洗模块,用于基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据;
分类模块,用于对识别出的突发事件相关数据进行分类,得到突发事件分类结果;
识别跟踪模块,用于基于所述突发事件分类结果,进行专题事件的识别与跟踪;
案例表示模块,用于利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
进一步地,所述数据采集模块具体用于,基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
进一步地,所述预处理模块具体用于,利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;以及,利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
进一步地,所述数据清洗模块具体用于,构建原始的突发事件领域关键词词表;基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
进一步地,所述数据清洗模块还用于,针对得到的突发事件相关数据,首先通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;如果所述海明距离小于预定值,则认为该数据为相似数据。
进一步地,所述分类模块具体用于,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
进一步地,所述识别跟踪模块具体用于,针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;基于所述特征权值,计算待分析数据与已识别专题事件的相似度;如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
本发明有益效果如下:
本发明不仅能够对突发事件相关的数据进行自动采集,还能够自动实现突发事件的二级分类,便于数据的管理与分析研究。基于数据分类结果,本发明通过数据挖掘聚类方法能够自动进行专题事件识别与跟踪,便于突发事件的研究与统计分析。基于突发事件识别与跟踪结果,本发明通过案例表示对指定突发事件的相关数据进行分析与信息提取,形成数字化的突发事件案例表示,便于案例分析与辅助决策。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例所述方法的流程示意图;
图2为数据采集流程示意图;
图3为数据清洗流程示意图;
图4突发事件识别与跟踪流程示意图;
图5为本发明实施例所述装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
首先,结合附图1到4对本发明实施例所述方法进行详细说明。
步骤101:定期采集数据
数据的来源包括了互联网数据、业务系统数据和人工整理数据。对于业务系统数据和人工整理数据,则通过格式转换,进行统一的数据规范元数据处理,存储到数据库系统中。其中,业务系统数据主要指的是与突发事件有关的第三方系统收集存储的数据,人工整理数据主要指的是人工整理的电子文档或纸质资料。
数据采集流程如图2所示,通过数据抓取技术,系统自动采集互联网数据并保存,具体规则为:基于开源爬虫框架WebMagic,通过计算机连接互联网,从新闻网站、论坛、微博、微信公众号等来源采集数据并进行解析,并从中抽取网络数据的标题、正文、发布时间、来源网站名称、URL地址(统一资源定位符)等关键信息保存在数据库中。
步骤102:数据预处理
基于自然语言理解的中文文本分词技术,利用Word分词开源组件对步骤101采集到的数据标题和正文进行中文分词处理,同时进行各分词词项的词性标注,并识别出文本中出现的人名、地名和机构名等命名实体信息,具体规则为:
1)利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果,其中基于Word分词开源组件提供的功能,停用词词库和用户词库可根据需要进行自定义配置。
2)利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中人名、地名、机构名等命名实体的识别结果。
步骤103:数据清洗
利用步骤102数据预处理得到的中文文本分词结果,按照系统预先设定的突发事件领域关键词词表,对数据库中数据进行过滤筛选,识别出突发事件相关数据。其具体流程如图3所示。
首先,构建原始的突发事件领域关键词词表,具体规则为:按照国家规定的突发事件事件类型分类标准,每个类型都包含了三级子类,并对每个子类进行了详细的描述,根据该描述内容,可以提取出每个子类所对应的类型关键词,作为突发事件领域的关键词,同时,根据专家经验进行部分关键词的补充完善。此外,在实施过程中,根据系统的准确性以及突发事件数据的积累,可不断优化突发事件领域关键词词表。
然后,基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,具体规则为:针对突发事件领域的关键词词表,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。定期对相关数据和非相关数据的划分结果进行监督和错误数据修正,并利用错误数据的修正记录对突发事件关键词词表进行完善。
另外,在存储过程中为避免数据冗余对系统性能产生影响,针对数据筛选的结果,采用局部敏感哈希和汉明距离方法进行重复数据清洗,具体规则为:针对数据清洗得到的突发事件相关数据及其相应的预处理结果,首先通过局部敏感哈希算法得到数据的哈希签名,然后分析待研究数据与已存在数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离。如果海明距离小于系统预设值,则认为将数据为相似数据,系统只显示发布时间最早的数据。根据经验,该系统预设值通常设置为3。
步骤104:突发事件数据分类
针对步骤103数据清洗得到的突发事件相关数据,参照国家规定的突发事件事件类型的分类标准,对突发事件相关数据进行分类。
具体来说就是,基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
a)训练集的构建。按照国家规定的突发事件事件类型的分类标准,为充分利用数据并避免训练集的重复构建,优先构建二级分类器的训练集,针对每一个二级分类构建一个突发事件训练集;然后,按照二级分类与一级分类的对应关系,将二级分类训练集进行整理形成一级分类的训练集。
b)分类器的训练。在训练过程中,按照由下往上的顺序,优先实现二级分类器的训练,并对训练集进行优化;然后,对一级分类器进行训练及训练集的优化。
c)分类器的应用。在应用过程中,对于待分类的数据,则是按照由上往下的顺序,首先实现突发事件数据的一级分类,然后再进行二级分类。
为方便突发事件类别表示与后期研究,将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
为保证系统的稳定性和适应性,人工对机器学习的错误数据进行修订,并基于系统中已存在的历史数据,定期对训练集及分类器进行优化测试和完善。
步骤105:突发事件识别与跟踪
针对步骤104得到的突发事件数据分类结果,从突发事件专题事件的角度出发,对数据进行整理,实施流程如图4所示。其中,突发事件专题事件库的起始状态为空,为此,先将相应类型的数据分类结果中的第一条数据标记为突发事件,实现事件库的初始化,然后再利用数据挖掘聚类算法实现突发事件的识别与跟踪。
利用数据挖掘聚类算法实现突发事件识别与跟踪,具体规则为:
1)特征提取及权值。针对已分类数据Dj,结合该数据在步骤102数据预处理中得到的分词和词性标注结果,分别提取标题和正文中的名词和动词以及地名、人名、机构名等实体信息,作为数据的文本特征,并计算不同特征词Wk的TFIDF权值ωk(Dj)。同时,根据各特征词项的位置,为标题和正文设置不同的位置加权因子α1,根据词性标注,为地名、人名、机构名设置不同的词性加权因子α2,最终形成加权的TFIDF权值ω′k(Dj):
ω′k(Dj)=α1×α2×ωk(Dj)
>
其中,nj,k表示特征词Wk在数据Dj中出现的次数。∑knj,k是数据Dj中所有字词出现的次数之和。|D|为数据总量,|{i:Wk∈Di}|为包含特征词Wk的数据数量。
其中,根据经验,按照标题和正文,位置加权因子α1的取值分别为0.8和0.2,根据地名、人名、机构名以及其他词性,词性加权因子α2的取值分别为0.6、0.1、0.2和0.1。
2)相似度的计算。基于已分类数据Dj的特征词及对应权值,计算数据Dj与对应突发事件类型Cmn中的已识别专题事件Ei的余弦相似度Vde。
>
其中,ω′k(Dj)为数据Dj的第k个特征的权值,ω′k(Ei)为事件Ei中所有数据的第k个特征的平均权值,l表示聚类特征的个数。
3)相似度的判别。如果Vde的大小超过系统设置的阈值θde,则将该数据Dj添加到专题事件Ei中,否则,将该数据Dj定义为新的专题事件Ek。根据经验,阈值θde的大小设置为0.8。
步骤106:突发事件案例表示
通过步骤105将数据按照不同的专题事件进行了整理。每一件专题事件对应一个数据集合,信息离散分布在各数据中,进而导致这些数据难以直接应用于突发事件案例研究与决策支持,为此需要对这些数据进行再次整理与信息提取,参照表1所示的要素实现突发事件案例表示。
表1突发事件案例表示要素
通过上述过程得到了各突发事件案例表示,利用该案例集合,基于数据库索引技术,可以实现案例检索,得到满足检索需求的突发事件案例,有助于案例分析对比与辅助参考,便于制定有效的应急措施,进而可以减少突发事件带来的损失。其中,可设置的待检索信息包括了地点、事件类型、时间以及其他的检索关键字等。
接下来结合附图5对本发明实施例所述装置进行详细说明。
如图5所示,图5为本发明实施例所述装置的结构示意图,具体可以包括:数据采集模块、数据预处理模块、数据清洗模块、分类模块、识别跟踪模块以及案例表示模块,其中,
数据采集模块,用于定期采集数据并发送给数据预处理模块;
具体的说就是,数据采集模块基于开源爬虫框架WebMagic,通过互联网采集数据并进行解析,并从中抽取网络数据的关键信息进行保存,所述关键信息至少包括标题、正文、发布时间、来源网站名称、URL地址中的一个或多个。
数据预处理模块,用于对采集到的数据进行预处理,得到中文文本分词结果;
具体的说就是,数据预处理模块利用Word分词开源组件中的WordSegmenter方法对数据的标题和正文进行中文文本分词,并移除停用词,得到数据标题的中文分词结果和数据正文的中文分词结果;以及,利用Word分词开源组件中的PartOfSpeechTagging方法对数据标题的中文分词结果和数据正文的中文分词结果进行词性标注,得到数据标题和正文的词性标注结果,同时,根据词性标注的结果,得到数据标题和正文中命名实体的识别结果。
数据清洗模块,用于基于所述中文文本分词结果,根据预先设定的突发事件领域关键词词表,识别突发事件相关数据;
具体的说就是,数据清洗模块构建原始的突发事件领域关键词词表;基于已构建的突发事件领域关键词词表,按照是否与突发事件相关,对采集到的数据进行筛选,如果词表中的某一个或几个关键词在数据的标题或正文中出现,则将该数据标记为与突发事件相关的数据并保存,否则为突发事件非相关数据。
作为本发明的优选实施例,数据清洗模块还针对得到的突发事件相关数据,通过局部敏感哈希算法得到突发事件相关数据的哈希签名,然后分析所述突发事件相关数据与已存在突发事件相关数据的哈希签名中取值不同的数量,得到两个数据之间的海明距离;如果所述海明距离小于预定值,则认为该数据为相似数据。
分类模块,用于对识别出的突发事件相关数据进行分类,得到突发事件分类结果;
具体的说就是,分类模块基于Mallet机器学习软件包中的朴素贝叶斯文本分类算法,构建二级分类器,对突发事件数据进行分类,具体规则为:
将突发事件的类型进行编码,表示为Cmn的形式,其中m对应于突发事件类型的一级类别,n对应于突发事件的二级类别。
识别跟踪模块,用于基于所述突发事件分类结果,进行专题事件的识别与跟踪;
具体的说就是,所述识别跟踪模块针对待分析数据以及数据预处理得到的分词和词性标注结果,提取标题和正文中的名词和动词以及实体信息,作为数据的文本特征,计算得到每个特征词的TFIDF权值;同时,按照各词项的属性,为标题、正文、实体信息设置不同的加权因子,形成加权的特征权值;基于所述特征权值,计算待分析数据与已识别专题事件的相似度;如果相似度超过系统设置的突发事件识别阈值,则将该数据添加到对应的专题事件中,否则将该数据定义为新的专题事件。
案例表示模块,用于利用信息抽取方法,对突发事件识别与跟踪的专题数据进行结构化信息描述,得到针对各类突发事件的案例库。
对于本发明实施例所述装置的具体实现过程,由于上述方法中已有详细说明,故此处不再赘述。
综上所述,本发明实施例提供了一种基于文本大数据处理的数字化应急管理案例库构建方法,该方法通过信息自动采集,保证网络实时数据的获取,并通过数据清洗,确保突发事件相关数据识别的及时性和准确性,避免了非相关数据带来的信息干扰和处理压力。通过专题事件的数据整理及突发事件案例表示,形成了特定突发事件数据信息的结构化数字化存储,从而能够进行高效精准的应急管理案例的检索,方便进行决策支持应用的研究与开发。系统将信息采集与突发事件案例表示过程中的相关模块组合在一起,便于系统自动信息处理的管理。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
机译: 确定文档的数字化页面的方向以分析和改善图像的方法,涉及基于计算出的每行文本的符号函数,确定作为投票结果的文档的数字化页面的方向
机译: 用于数字化文本信息的处理方法,涉及将术语-术语矩阵处理为处理后的文本信息,从而基于文档语料库的术语-概念向量生成术语-术语矩阵。
机译: 基于实验优化的大数据数字化轨道自动驾驶系统及其方法