首页> 中国专利> 一种智能的舆情突发事件应急处理系统及方法

一种智能的舆情突发事件应急处理系统及方法

摘要

本发明公开了一种智能的舆情突发事件应急处理系统及方法。涉及将自然语言处理技术、本体理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控预案的自动生成。它基于计算机信息处理方法实现对应急防控预案的格式化转化,实现舆情突发事件情景与预案之间的语义匹配,实现对各种互联网舆情突发事件的准确识别和辅助决策。本发明可以对互联网舆情进行实时监控,辅助互联网舆情防控决策,提高处置舆情突发事件的防控响应速度。

著录项

  • 公开/公告号CN104820629A

    专利类型发明专利

  • 公开/公告日2015-08-05

    原文格式PDF

  • 申请/专利号CN201510243751.0

  • 发明设计人 陈勇;陈金勇;

    申请日2015-05-14

  • 分类号G06F11/30(20060101);G06F17/30(20060101);

  • 代理机构13124 河北东尚律师事务所;

  • 代理人王文庆

  • 地址 050081 河北省石家庄市中山西路589号第五十四所指控部

  • 入库时间 2023-12-18 10:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-30

    授权

    授权

  • 2015-09-02

    实质审查的生效 IPC(主分类):G06F11/30 申请日:20150514

    实质审查的生效

  • 2015-08-05

    公开

    公开

说明书

技术领域

本发明属于计算机应用领域,涉及将自然语言处理技术、本体 理论和语义关联技术应用于互联网舆情突发事件的智能识别和防控 方案的自动生成。它基于计算机信息处理方法实现对应急防控预案 的格式化转化,实现舆情突发事件情景与预案之间的语义匹配,实 现对各种互联网舆情突发事件的准确识别和辅助决策。

背景技术

随着互联网技术的不断发展,互联网已成为一种被广泛使用的 大众媒介,其触角几乎伸向社会的各个领域,并逐渐成为公众舆论 的一个新的重要媒介。网络舆情是公众在互联网上公开表达的对某 种社会现象或社会问题的具有一定影响力和倾向性的共同意见,网 络舆情对政治生活秩序和社会稳定的影响与日俱增,一些网络舆情 突发事件不能及时妥善处理,极有可能诱发民众的不良情绪及不良 行为的发生,进而对社会稳定形成严重威胁。迫切需要一种技术手 段能够实现对网络舆情信息的自动监控,能够对舆情突发事件的处 置提供决策支持。

发明内容

本发明就是针对上述需求,提出了一种计算机应用系统―舆情 突发事件应急处理系统,它能够对互联网舆情进行实时监控,能够 辅助决策者根据舆情突发事件的实际情况有针对性地形成相适合的 防控方案,加快对网络舆情突发事件的处置响应速度。

本发明所要解决的技术问题由以下技术方案实现:

一种智能的舆情突发事件应急处理系统,其特征在于:该系统 包括互联网信息采集与解析模块、互联网信息分析模块、网络文本 类别判断与聚类分析模块、应急处理方案生成模块和应急处理效果 评估模块;所述互联网信息采集与解析模块用于从互联网上采集信 息,抽取出网页中自然语言文字以及网页的元数据信息,并保存到 数据库中;所述互联网信息分析模块用于对采集来的信息中的自然 语言文字进行特征抽取,形成文本特征;所述网络文本类别判断与 聚类分析模块用于对网络文本的类别进行判断,对累积网络文本进 行聚类分析;所述应急处理方案生成模块用于根据舆情事件的具体 情况自动生成相应的处理预案,决策人员可以基于处理预案制定执 行方案;所述应急处理效果评估模块用于对执行方案的执行效果进 行评估。

一种智能的舆情突发事件应急处理系统及方法,其特征在于该 方法包括以下步骤:

①互联网信息采集与解析:由连接互联网的计算机从互联网论 坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等 网络数据,然后,利用计算机采用基于规则的信息抽取技术自动地 对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和 网页的元数据信息;自然语言文字信息包括新闻标题、新闻正文、 论坛帖子标题、帖子内容等信息;网页的元数据信息包括发表时 间、作者、发帖者、帖子回复量、帖子阅读量、出现的网站名称、 网站URL等信息,解析出来的信息保存到数据库中,信息采集与解 析是一个持续的过程,形成对互联网站的自动连续监控;

②互联网信息分析:首先利用自然语言处理技术的中文分词方 法对网络文本的标题和正文内容分别进行分词,并对分词结果中每 个词项的词性进行标注,之后舍弃掉除名词、动词、形容词之外的 词项,然后利用文本多精度表示方法抽取网络文本的单个词项特征 和词项关联特征,再根据分词结果中的词性标注情况识别出网络文 本中的地理位置特征和人物特征,地理位置特征是网络文本中出现 的地理位置名称、人物特征是网络文本中出现的人物名称;

③将步骤②处理后的网络文本中的词项与计算机数据库中设定 的舆情类别的词项特征进行比对匹配,并根据匹配结果将网络文本 按照计算机数据库中设定的舆情类别进行归类处理;将不能归类的 网络文本进行聚类分析,把内容相近的网络文本聚成簇,若簇内网 络文本数量超出设定阈值,则对簇内网络文本进行舆情类别的词项 特征抽处理,并将抽取的舆情类别的词项特征补充到计算机数据库 中;对于完成归类的网络文本转入步骤④;其中,匹配内容包括单 个词项特征、词项关联特征、地理位置特征和人物特征;

④如果在指定时间段内,属于某一类别的网络文本的数量或者 出现该类别网络文本的网站数量超过指定的阈值,则启动应急预 案;

完成智能舆情突发事件的应急处理。

其中,在步骤④之后还包括应急处理效果评估步骤:首先按照 评估指标采集指标数据,然后将指标数据输入评估公式得出量化评 估结果。

其中,在步骤③中根据匹配结果将网络文本按照计算机数据库 中设定的舆情类别进行归类处理具体为:网络文本类别判断的方法 是将网络文本的词项与每个舆情类别的词项特征进行比对匹配,分 别在单个词特征、词关联特征、地理位置特征和人物特征四个方面 进行匹配运算,根据匹配情况得到网络文本与各个舆情类别的相似 度值,将文本归属为相似度值最高的舆情类别。

其中,步骤③中对簇内网络文本进行舆情类别的词项特征抽处 理,具体为:假设簇T包含的网络文本有T={t1,t2,…tn},利用文本 多精度表示方法抽取出每个文本ti的单个词项特征和词项关联特 征,再采用统计方法计算出T中所有文本的所有单个词项特征和词 项关联特征的统计分布规律,选择在T中一半以上网络文本中出现 过的词汇作为舆情类别词项特征,并计算出其在T内的平均发生频 率作为舆情类别特征词项的频率;其中,1≤i≤n。

其中,步骤④中应急预案的生成方法为:基于互联网舆情事件 情景本体知识库模型和网络舆情防控措施预案本体知识库,利用语 义匹配技术根据舆情事件情景的具体情况,从防控措施预案库中自 动匹配出最适合的应急处理预案。

与现有的技术相比,本发明具有以下的优点和有益效果:

1、本发明不仅能够对网络舆情进行自动监控,还能够针对突发 舆情事件给出防控措施方案。

2、本发明的舆情类型识别计算机数据库具有可扩展性,通过文 本聚类分析不断补充新型舆情类型特征到数据库中,使系统能够识 别新增类型的舆情事件。

附图说明

图1系统模块组成图

图2舆情分类体系模型图

图3舆情分类体系概念属性模型图

图4舆情分类体系示意图

图5类别特征产生过程工作原理图

图6语义匹配原理图

图7基于网络文本聚类的知识扩展图

图8舆情事件情景本体知识库图

图9舆情防控措施预案本体知识库图

图10网络舆情防控知识语义模型图

图11基于语义的匹配方法图

图12应急处理效果评估指标体系图

具体实施方式

下面将结合附图和具体实施例对本发明做进一步说明。但本发 明的实施方式不限于此。

本实施例提供一种智能的舆情突发事件应急处理系统,该系统 包括互联网信息采集与解析模块,互联网信息分析模块,网络文本 类别判断与聚类分析模块,应急处理方案生成模块,应急处理效果 评估模块,如附图1所示;所述互联网信息采集与解析模块用于从 互联网上采集信息,抽取出网页中自然语言文字以及网页的元数据 信息,并保存到数据库中;所述互联网信息分析模块用于对采集来 的信息中的自然语言文字进行特征抽取,形成文本特征;所述网络 文本类别判断与聚类分析模块用于对网络文本的类别进行判断,对 累积网络文本进行聚类分析;所述应急处理方案生成模块用于根据 舆情事件的具体情况自动生成相应的处理预案,决策人员可以基于 处理预案制定执行方案;所述应急处理效果评估模块用于对执行方 案的执行效果进行评估。

本实施例还提供一种智能的舆情突发事件应急处理系统的工作 方法,该方法包括以下步骤:

①互联网信息采集与解析:由连接互联网的计算机从互联网论 坛、博客、新闻网站上采集论坛帖子、博客内容和网站新闻网页等 网络数据,然后,利用计算机采用基于规则的信息抽取技术自动地 对网络数据进行解析,从其中抽取两类信息:自然语言文字信息和 网页的元数据信息。自然语言文字信息包括新闻标题、新闻正文、 论坛帖子标题、帖子内容、作者、发帖者等信息;网页的元数据信 息包括发表时间、帖子回复量、帖子阅读量、出现的网站名称、网 站URL等,解析出来的关键信息保存到数据库中,信息采集与解析 是一个持续的过程,形成对互联网站的自动连续监控。

②互联网信息分析:首先利用自然语言处理技术的中文分词方 法对网络文本的标题和正文内容进行分词和词性标注处理,标注出 每个词项的词性,舍弃掉文本中除名词、动词、形容词之外的词 汇。然后利用已获得国家发明专利授权的“一种用于文本检索系统 的文本多精度表示方法”所述方法抽取网络文本的单个词特征和词 关联特征。另外,根据分词结果中的词性标注情况识别出文本中的 地理位置特征和人物特征,地理位置特征是网络文本中出现的地理 位置名称、人物特征是网络文本中出现的人物名称,如附图5中的 网络文本语义特征抽取功能单元所示。总的来说网络文本的特征是 一组词汇,配有其发生频率。

③网络文本类别判断与聚类分析:其目的是基于网络文本的内 容采用文本分类技术判断网络文本的所属类别。所属类别是基于本 体论事先建立起来的一个舆情分类体系模型中的一种,舆情分类体 系模型如附图2所示,它是一个层次化模型,第一层是大类,第二 层是小类,每个小类都由概念属性来定义,如附图3所示,有两个 概念属性:类别语义特征和防控策略。类别语义特征包括:

单个词特征:类别语义特征抽取模块抽取出的网络文本的单个 词特征;

词关联特征:类别语义特征抽取模块抽取出的网络文本的多词 关联特征;

地理位置特征:类别语义特征抽取模块抽取出的网络文本中的 地理位置名称;

人物特征:类别语义特征抽取模块抽取出的网络文本中的人物 名称;

实例:该类型网络舆情的一个实例文本;

类别判断准则。判断一批某类舆情相关的文本累积是否真的是 一次舆情事件。例如,IF出现舆情文本的网站数量大于n THEN是 一次舆情事件;IF舆情文本的回帖数量大于n THEN是一次舆情事 件。

防控策略包括防控原则和防控方法,防控原则是针对某类舆情 事件开展防御和控制的基本原则;防控方法是针对某类舆情采取的 具体防控措施。

图4是一个实际舆情分类体系的示意图。

每一个类别都有其类别特征,为每个类别产生类别特征的方法 如附图5所示:首先采集各个类别的若干网络文本作为训练样本, 利用自然语言处理技术的中文分词方法对所有训练样本进行分词和 词性标注处理,标注出每个词项的词性,舍弃掉文本中除名词、动 词、形容词之外的词汇;由网络文本语义特征抽取功能单元抽取每 个文本的单个词特征、词关联特征、地理位置特征和人物特征,再 由类别语义特征抽取功能单元抽取类别语义特征;具体方法是:利 用计算机采用统计算法计算出每个文本的各个特征在每个类别内以 及训练样本全集的统计分布规律,选择在一半以上类别样本文档中 出现过且不是训练样本全集内所有样本所共有的词汇作为类别特征 词,并计算出其类别内平均发生频率作为类别特征词的频率。总的 来说类别特征是一组代表类别特征的词汇,配有其平均发生频率。

网络文本类别判断的方法是将网络文本的特征词项与每一个类 别特征词项进行比对匹配,如附图6所示,分别在单个词特征、词 关联特征、地理位置特征和人物特征四个方面进行匹配运算,并按 照下面的公式计算相似度值,将文本归属为相似度值最高的类别。

            

其中,

d表示待分类文档;

C表示类别;

coord(d,C)表示待识别文本d中包含类别C的类别特征词项的 数量;

      frequency表示特征词项t在类别特征中的词 频;

weight(t):表示特征词项t的权重;

frequency和weight值可以从建模过程中创建的类别特征词项表 中获得,类别特征词项表如表1所示。

表1 类别特征词项表

      

类别 特征词 词频 权重 varchar varchar float float

      idf(t)=1+log(numofClassesClassFreq(t)+1)      

numofClasses:表示共有几个类别;

ClassFreq(t):表示特征项项t同时是几个类别的特征词项。

如附图7所示,网络文本经过预处理功能单元处理后,获得文 本分词结果并去除停用词,再通过语义特征抽取模块得到其语义特 征,利用网络文本类别判断功能单元判读其是否为已知的n种网络 舆情的一种,若是则将其归类,否则,将其转给网络文本聚类分析 功能单元进行分析,看其中是否有热点话题,对采集来到每一个网 络文本都进行类别判断,符合分类条件的网络文本被赋以相应的类 别标签。如果在指定时间段内,属于某一类别的网络文本的数量、 出现该类别网络文本的网站数量超过指定的阈值,则向系统操作人 员发出告警,进而由应急处理方案生成模块给出应急处理方案。

在上述网络文本类别判断过程中,会出现一些不属于现有舆情 分类体系模型中的任何一类的文本,随着时间的推移,未知类型文 本会不断累积,对累积的未知类型文本进行聚类分析,把内容相近 的网络文本聚成簇,若簇内网络文本数量超出一定阈值,则将其作 为热点话题提交人工判读,如果确定其为新的舆情类别,则对其进 行舆情类别语义特征抽处理,并将抽取的类别语义特征补充到知识 库中,具体过程如附图7所示;上述过程保证了本系统的知识库的 可扩展性,使得系统在补充知识后能够识别互联网上的新型舆情。

④应急处理方案生成:是在舆情类型识别的基础上,针对识别 出的舆情类型提供应急处置预案,其特征是,利用本体论技术构建 层次化的互联网舆情事件情景本体知识库模型和网络舆情防控措施 预案本体知识库模型。前者对舆情事件进行定性和定量的描述,如 附图8所示;后者将自然语言文字方式存在的舆情应急防控规章制 度、处理规范、应对措施进行数字化,如附图9所示。这样做的目 的是将非格式化的信息转变为计算机可理解的格式化信息。有了上 述两个知识库模型的支撑,就可以基于计算机利用语义匹配技术自 动地实现舆情事件的自动识别,相应防范措施、处理方案的快速自 动推理,处理预案的实时辅助生成。情景本体知识库包括舆情、时 间、网站、参与者、受众、潜在危害等知识概念。

在互联网信息分析和网络文本类别判断步骤中识别出来的舆情事 件的信息会被抽取出来存储到舆情事件情景本体知识库中;舆情类 别信息由网络文本类别判断步骤给出,具体采用的是文本分类技 术;舆情内容、时间发生时间、时间持续时间、网站名称、网站数 量、参与者用户名由互联网信息分析步骤给出的,采用的是基于规 则的信息抽取技术;其它信息如舆情等级、参与者IP地址等信息则 根据先验知识进行填写。

舆情防控措施预案本体知识库包括编制依据、适用范围、资 源、防控措施四个方面,其内容根据具体的法律法规内容进行填 写。

基于互联网舆情事件情景本体知识库和网络舆情防控措施预案 本体知识库共同构成了网络舆情防控知识语义模型,基于此模型, 利用语义匹配技术生成应急预案,如附图10所示。应急预案是指导 处置各种舆情突发事件的方案和方法,而每个舆情事件的具体条 件、状况和参数各不相同,决策者需要根据具体情况从防控预案中 选定适当的防控处置措施、方法和实施步骤作为应急预案,并调配 相应的组织机构和部门执行应急预案。为此,将事件情景的“舆情 类别”、“舆情内容”、“舆情等级”分别与预案本体的“适用事 件类型”、“适用事件内容”、“适用事件等级”相匹配,如附图 11所示,从而发现与舆情事件相适合的应对预案,如表2和表3 所示。

表2 基于语义匹配生成的预案示例

            

表3 预案示例说明

                   

                   

应对预案只是一个指导性的方案,需要再根据舆情的具体情 况,例如,时间、网站、参与者、受众、潜在危害等情况生成一个 具体的执行方案。

⑤应急处理效果评估:应急处理效果评估是基于评估指标体系 和评估计算公式完成的,评估指标体系包含了需要评估的事项,评 估计算公式计算出量化评估结果;评估指标体系如附图12所示,每 个指标的详细描述如表4所示。

表4 应急处理效果评估指标体系

                   

            

舆情强度指标旨在衡量舆情在范围和形式上的情况。①舆情范 围指的是舆情的广度,由网站覆盖度、地区覆盖度、网站数量三个 指标来衡量。网站覆盖度指的是包含舆情文本的网站占样本网站的 比重;样本网站是经过精心选取的,能在一定程度上代表整个网络 状态和水平的网站集合;由于各网站的规模级别不同,要对其进行 加权处理,出现舆情文本的样本网站越多,说明舆情的范围越广, 当实施防控措施后,如果包含舆情文本的网站数量出现减少的趋势 说明防控措施发挥了作用。地区覆盖度指的是包含舆情文本的网站 的地理分布情况,出现舆情文本的网站分布越广,说明舆情的影响 范围越广。网站数量指的是包含舆情文本的网站的总数量,数量越 多,说明舆情的影响范围越广。②舆情形式指的是舆情传播的媒介 渠道种类、所用网络文本的长短、网络文本的媒体种类。媒介渠道 种类可以是BBS、微博、博客、交友平台、电子邮件等,所用的渠 道越多,则传播能力越强。所用网络文本的长度越长,则传播能力 越强。媒体种类可以是文本、音频、视频,所用媒体种类越多则舆 情影响越强。

受众关注度指标旨在反映网络舆情对受众的影响力,通过受众 情况、受众响应、受众态度等指标来衡量。①受众情况指的是受舆 情影响的受众数量和受众范围,受众数量通过网络文本浏览者IP数 量来测量,受众范围通过网络文本浏览者IP的分布地域广度来测 量。②受众响应指的是浏览者对网络文本的关注程度,通过阅读 量、转发量、回帖量、活跃度来衡量。阅读量通过网络文本的点击 数量来测量,转发量通过网络文本在全互联网范围内不同网站的出 现次数来测量,回帖量通过网络文本回复数量来测量,活跃度通过 单位时间内对网络文本的回复数量来测量③受众态度指的是浏览者 对网络文本所表达的观点的认同度,通过正面态度回帖数量、中性 态度回帖数量、负面态度回帖数量来衡量。

该指标体系的各级指标的权重通过层次分析法计算得出,每一 项指标均可量化计算得出,指标的量化计算方法分为三种:指数计 算、频率/密度计算和权重系数确定。

(1)指数计算

指标体系中有定量指标和定性指标。定量指标包括阅读量、转 发量、回帖量等指标;定性指标包括视听化程度。为具有可比性, 将定性指标与定量指标按归一化处理,这里采用指数计算方法,具 体采用Sigmoid函数进行计算,其中x表示阅读量、转 发量、回帖量等。以受众响应为例,设对于网络文本i,网络文本的 点击数量为x1i,网络文本在全互联网范围内不同网站的出现次数为 x2i,网络文本回复数量为x3i,单位时间内对网络文本的回复数量为 x4i。设阅读量、转发量、回帖量、活跃度的权重是g1、g2、g3、 g4,则网络文本对受众响应的影响力P1为:

P1=f(x1i)×g1+f(x2i)×g2+f(x3i)×g3+f(x4i)×g4

(2)频率计算

活跃度是根据网民对网络文本的回复频率来衡量,以天、星 期、月为统计时间单位。

(3)权重系数确定

根据专家经验利用层次分析法确定各种属性因素的权重系数。 其主要特征是把复杂的问题分解为若干个组成因素,将这些因素按 从属关系分为层次结构;专家评比时只需对各因素进行两两比较, 确定同一层次中诸因素的相对重要性,然后综合专家的判断决定各 因素相对重要的顺序。用这种方法来决定各因素的加权系数比在很 多因素中凭经验同时定出加权系数更科学一些,因为人们只作两两 比较时容易得出比较准确的判断。但在使用这些方法时,为了保证 效果,每一层次所包含的因素一般超过10个。进行两两对比时按9 分制进行,1代表相当,3是稍好,5是明显地好,7是十分好,9是 极好。如介于上述二者之间则用2、4、6或8分表示。根据两两对 比打分结果构成评分矩阵,通过求矩阵的最大特征根和特征向量即 可计算出各因素相对于上一层目标的重要性或评价权重。如果要求 计算各参数对再上一层目标的重要性顺序或影响程度大小,可以将 底层的各参数的权重逐一乘上与其有关的上一层因素的权重,然后 相加,这样各参数对再上一层的优劣顺序或加权系数就计算出来 了。

量化评估结果的计算公式为,

      E=Σi=1nωi×Ai      

其中,Ai代表一级指标,舆情强度和受众关注度的分值,ωi代 表各自的权重。

每一个一级指标则是由其下属的二级指标决定的,计算公式为 其中,是第i个一级指标的第j项,其权重为ωj。 类似地,每一个二级指标由其下属的三级指标决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号