首页> 中国专利> 一种公众对腐败、反腐败关注度指数测量的方法及系统

一种公众对腐败、反腐败关注度指数测量的方法及系统

摘要

本发明涉及一种公众对腐败、反腐败关注度指数测量的方法及系统,其包括:在源数据中提取关键词,并计算其权重;根据提取的关键词,获取关键词相关的百度指数数据;根据关键词的权重及其百度指数数据构建关注度指数模型;实时获取网络数据,根据关注度指数模型计算获得腐败、反腐败事件关注度指数,通过关注度指数体现出公众对腐败、反腐败事件的关注程度。本发明能有效的测算不同地区腐败、反腐败事件发生后社会关注程度。

著录项

  • 公开/公告号CN112364224A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 中国人民大学;

    申请/专利号CN202010847267.X

  • 申请日2020-08-21

  • 分类号G06F16/951(20190101);G06F16/9535(20190101);G06F16/9538(20190101);G06F40/289(20200101);G06F40/30(20200101);G06F40/44(20200101);G06Q50/26(20120101);

  • 代理机构11245 北京纪凯知识产权代理有限公司;

  • 代理人孙楠

  • 地址 100872 北京市海淀区中关村大街59号中国人民大学信息学院

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本发明涉及一种数据处理技术领域,特别是关于一种根据网络社交大数据测 量公众对腐败、反腐败关注度指数测量的方法及系统。

背景技术

对腐败或反腐败事件的关注程度进行测量,是研究判断腐败情势与反腐败举 措效能的重要手段。这一领域要由简单的经验观察走向客观的指数测量。无论是 在一起重大腐败事件发生后,还是在一项重大的反腐败法律政策出台后,对于各 区域、不同行业民众究竟是否密切关注及有何相关影响因素、作用规律,均需要 开展指数测量。这样的测量结果可以形成对国家或主管部门有效调适腐败治理方 针策略的基础,也成为社会相关行业、企业开发反腐败专门产品服务的支撑。

发明内容

针对上述问题,本发明的目的是提供一种公众对腐败、反腐败关注度指数测 量的方法及系统,其能有效的测算不同地区腐败、反腐败事件发生后社会关注程 度。

为实现上述目的,本发明采取以下技术方案:一种公众对腐败、反腐败关注 度指数测量的方法,其包括:在源数据中提取关键词,并计算其权重;根据提取 的关键词,获取关键词相关的百度指数数据;根据关键词的权重及其百度指数数 据构建关注度指数模型;实时获取网络数据,根据关注度指数模型计算获得腐败、 反腐败事件关注度指数,通过关注度指数体现出公众对腐败、反腐败事件的关注 程度。

进一步,所述源数据包括网络社交大数据及相关政策文件数据内容。

进一步,所述关键词提取及其权重计算具体方法包括以下步骤:

1.1)对源数据进行提取与清洗;

1.2)进行分词操作,并计算获取分词后词语的权重;

1.3)对所有权重进行排序,取前100个词语为公众关注的腐败、反腐败事件 的关键词。

进一步,所述百度指数数据包括搜索指数和地域分布指数。

进一步,采用Python技术开发的网络爬虫来获取相关关键词的全网搜索指数。

进一步,所述关注度指数模型的构建方法包括以下步骤:

3.1)通过互联网络发展状况统计报告,得到各省信息化指数,获得各省市每 年的网络普及率,进而得到各省市几年内的平均网络普及率P;

3.2)合并某个区域的关键词的百度搜索指数,并考虑权重影响,得到初始的 腐败、反腐败事件区域关注度指数模型;

3.3)考虑区域网络普及率的影响,根据初始腐败、反腐败事件区域关注度指 数模型进行建模计算,得到最终的腐败、反腐败事件区域的关注度指数模型。

进一步,所述最终的腐败、反腐败事件区域的关注度指数模型为:

其中,y′为考虑了网络普及率的区域腐败、反腐败事件关注度指数,y为腐败、 反腐败事件区域关注度指数。

进一步,根据关注度指数模型得到最终腐败、反腐败事件关注度指数数据, 构成指数图;根据关注度指数模型计算得到区域腐败、反腐败事件关注指数图, 即为区域图。

进一步,利用web技术提供一个可视化、可交互的在线展示,体现出公众对 腐败、反腐败事件的关注程度;所述在线展示包括指数图和区域图。

一种公众对腐败、反腐败关注度指数测量的系统,其包括第一获取模块、第 二获取模块、关注度指数模型构建模块和展示模块;

所述第一获取模块在源数据中提取关键词,并计算其权重;

所述第二获取模块根据提取的关键词,获取关键词相关的百度指数数据;

所述关注度指数模型构建模块根据关键词的权重及其百度指数数据构建关注 度指数模型;

所述展示模块实时获取网络数据,根据关注度指数模型计算获得腐败、反腐 败事件关注度指数,通过关注度指数体现出公众对腐败、反腐败事件的关注程度。

本发明由于采取以上技术方案,其具有以下优点:1、本发明可以高效测量重 大腐败事件发生后的社会反响。2、本发明可以高效测量反腐败法律政策出台的社 会反响。3、本发明可以高效测算不同地区腐败、反腐败事件发生后社会关注程度 的主要影响因素及影响程度、作用规律。4、本发明可以用于优化一个国家或不同 区域的反腐败具体举措。

附图说明

图1是本发明的关注度指数折线图示意图。

图2是本发明的关注度指数区域图示意图。

图3是本发明使用时的腐败、反腐败事件关注指数图。

图4是本发明使用时的腐败、反腐败事件关注指数区域图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施 例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的 实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的 实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范 围。

本发明提供一种公众对腐败、反腐败关注度指数测量的方法及系统,其根据 网络社交大数据及相关政策文件数据内容进行分析,计算得到其中特定的与“腐 败”相关词的词频,获取与腐败、反腐败事件最相关的关键词,并得到其权重; 计算腐败、反腐败事件关注指数。

在本发明的第一实施方式中,提供一种公众对腐败、反腐败关注度指数测量 的方法,其中,指数测量是一种评估腐败情势与反腐败效果的有效方法,通过科 学评估民众对腐败、反腐败事件的关注程度具有重要的理论与实践价值。本发明 的方法包括以下步骤:

1)在源数据中提取关键词,并计算其权重;

2)根据提取的关键词,获取关键词相关的百度指数数据;

3)根据关键词的权重及其百度指数数据构建关注度指数模型;

4)实时获取网络数据,根据关注度指数模型计算获得腐败、反腐败事件关注 度指数,通过关注度指数体现出公众对腐败、反腐败事件的关注程度。

上述步骤1)中,源数据包括网络社交大数据及相关政策文件数据内容。

优选的,关键词提取及其权重计算具体方法包括以下步骤:

1.1)采用Python语言与正则表达式对源数据进行提取与清洗;

1.2)对源数据的提取与清洗完成后,进行分词操作,并计算获取分词后词语 的权重;

1.3)对所有权重进行排序,取前100个词语为公众关注的腐败、反腐败事件 的关键词;如:廉政、反腐败、反腐倡廉、廉洁自律等。

上述实施例中,选择基于Python语言,使用开源的jieba中文分词组件进 行分词与权重的计算;并采用TF-IDF算法抽取关键词。

其中,TF-IDF算法是用以评估一个字词对一个文件集或者一个语料库中其中 一份文件的重要程度的方法。字词的重要性随着它在文件中出现的次数成正比增 加,但同时会随着它在语料库中出现的频率成反比下降。其中TF(Term Frequency) 为词频,指的是某一个给定的词语在该文件中出现的频率。IDF(Inverse Document Frequency)为逆向文件频率,是一个词语普遍重要性的度量。

上述步骤2)中,百度指数数据包括搜索指数和地域分布指数。在本实施例中, 采用Python技术开发的网络爬虫来获取相关关键词的全网搜索指数。

上述步骤3)中,关注度指数模型的构建方法包括以下步骤:

3.1)获取区域网络普及率;

通过互联网络发展状况统计报告,得到各省信息化指数,获得各省市每年的 网络普及率,进而得到各省市几年内的平均网络普及率P。

其中,P为某省市的几年内的平均网络普及率,p

3.2)合并某个区域的关键词的百度搜索指数,并考虑权重影响,得到初始的 腐败、反腐败事件区域关注度指数模型。

其中,u

3.3)考虑区域网络普及率的影响,根据初始腐败、反腐败事件区域关注度指 数模型进行建模计算,得到最终的腐败、反腐败事件区域的关注度指数模型。

其中,y

上述步骤3)中,根据关注度指数模型得到最终腐败、反腐败事件关注度指数 数据,构成指数图。

上述步骤4)中,根据关注度指数模型计算得到区域腐败、反腐败事件关注指 数图,即为区域图;并利用web技术提供一个可视化、可交互的在线展示,进而 体现出公众对腐败、反腐败事件的关注程度。其中,在线展示包括指数图和区域 图。

上述实施例中,指数图提供了关键词的腐败、反腐败事件关注指数,以折线 图形式展示,横坐标代表时间,纵坐标代表关注指数数据,数据越大关注度越高。

使用及功能:

1、选择数据的设备类型;

2、选择数据的时间区间;

3、选择图表展示的关键词,关键词可选择一个、多个或全部,当选择关键词 后图表即可实时更新展示;

4、用户根据自己的需求可对数据进行是否加权、合并和堆叠操作;

5、所有选项的设置中,当更新选项后都可实时更新图表;

6、对显示指数图可以在右上角的按钮直接进行区域缩放、缩放还原、还原及 保存;

7、折线图下方提供了一个时间区间快捷选择控件,可以方便的选择出想要的 时间;

8、页面下方列表,显示所选关键词的权重值;

9、鼠标指针放置在指数图折线上,可以显示定位的时间和相关关键词的关注 指数数值;

10、当设置选项都设置完成后,即可展示相关关注度指数折线图,如图1所 示。

上述实施例中,区域图以地图形式提供腐败、反腐败事件关注指数,可查看 不同省份对关键词的关注指数,右侧提供有省份网络普及率、指数排名及数据。

同样进入页面后首先可以设置一些选项,选项有:

时间区间:可选择不同的时间区间来查看关注指数。

关键词:根据前期的数据搜集及权重分析,在这提供了45个与反腐相关的 关键词,可选择一个、多个或全部选取进行对比查看。

是否加权:前期分析中有对各个关键词权重进行分析,选中该项则可以将关 注指数与权重进行结合查看。

结合互联网普及率:该选项会结合各省市平均互联网普及率计算搜索指数。

使用及功能:

1、选择数据的时间区间。

2、选择图表展示的关键词,关键词可选择一个或者多个,当选择关键词后图 表即可实时更新展示。

3、选中“加权”复选框后,会更新计算权重后的数据。结合互联网普及率: 该选项会结合各省市平均互联网普及率计算搜索指数。

4、选中“结合互联网普及率”后,会结合互联网普及率更新计算数据。

5、所有选项的设置中,当更新选项后都可实时更新图表。

6、右侧提供有省份网络普及率及指数排名。

7、鼠标指针放置在指数区域图上,可以显示定义的地区和其区域关注度指数 数值,该地区黄色显示。

8、设置完选项后,即可展示相关关注度指数区域图,如图2所示。

在本发明的第二实施方式中,提供一种公众对腐败、反腐败关注度指数测量 的系统,其包括第一获取模块、第二获取模块、关注度指数模型构建模块和展示 模块;

第一获取模块在源数据中提取关键词,并计算其权重;

第二获取模块根据提取的关键词,获取关键词相关的百度指数数据;

关注度指数模型构建模块根据关键词的权重及其百度指数数据构建关注度指 数模型;

展示模块实时获取网络数据,根据关注度指数模型计算获得腐败、反腐败事 件关注度指数,通过关注度指数体现出公众对腐败、反腐败事件的关注程度。

综上,本发明使用时,利用社交网络平台(如新浪微博数据)、政策文件等相 关大数据信息进行处理分析,使用机器学习等相关技术获取与群众关注的腐败、 反腐败事件相关关键词。然后结合关键词权重与百度指数,并考虑各地区的网络 普及率,通过数学模型构建及实现,生成全国各省市地区各时间点的腐败、反腐 败事件关注指数,最后使用指数图和区域图展示出公众对腐败、反腐败事件的关 注程度。腐败、反腐败事件关注度结果展示如图3、图4所示。

上述各实施例仅用于说明本发明,各个步骤都是可以有所变化的,在本发明 技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不 应排除在本发明的保护范围之外。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号