首页> 中国专利> 一种微博舆情与城市路况相映射的交通平行方法

一种微博舆情与城市路况相映射的交通平行方法

摘要

本发明提供一种微博舆情与城市路况相映射的交通平行方法,该方法包括:实时采集获取针对特定城市的交通信息主题的微博消息数据;对获取的每条微博信息:a.对微博的原始属性与映射属性分别进行形式化表达;b.根据交通主题分类数据集对其设定类别属性;c.根据城市道路数据集,抽取其地理位置信息;对于交通反馈类信息,抽取微博中反馈的特定主题;d.根据抽取的基础属性信息计算每条微博的相关指数,包括可信度、情感度和重要度。通过本发明可以实现对微博中的交通信息进行快速分类与定位,实现基于互联网信息交通事故、拥堵、反馈类信息进行预警可视化展示,为城市交通管理、规划、应急预案、问题解决等提供辅助决策。

著录项

  • 公开/公告号CN105512166A

    专利类型发明专利

  • 公开/公告日2016-04-20

    原文格式PDF

  • 申请/专利权人 青岛智能产业技术研究院;

    申请/专利号CN201510728633.9

  • 申请日2015-10-30

  • 分类号G06F17/30(20060101);

  • 代理机构37222 山东清泰律师事务所;

  • 代理人柳彦君

  • 地址 266109 山东省青岛市高新区创业大厦B座26楼

  • 入库时间 2023-12-18 15:29:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-02

    授权

    授权

  • 2016-05-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151030

    实质审查的生效

  • 2016-04-20

    公开

    公开

说明书

技术领域

本发明涉及本发明属于互联网数据处理技术领域,具体地,涉及一种微博舆情与城市路况相映射的交通平行方法。

背景技术

目前主要的交通数据采集技术包括固定式传感器采集、浮动车采集以及移动感知采集。固定式传感器技术利用安装在道路上或铺设再道路中的传感器节点组成传感器网络对交通数据进行定点采集,但一般存在对安装场所和环境的依赖,面临初期投资巨大、生命周期短、维护成本高等问题。浮动车技术主要利用再路网中行驶的浮动车(出租车、自行车等)采集自身行驶时的GPS估计数据并上传到服务器。但也存在投入大,缺乏其他种类车辆的数据以及出租车等的行驶数据并不一定能反映真是路况等问题。随着移动互联网和移动智能手持设备的普及,基于众包的移动感知技术被随之提出。目前,国内外对基础移动感知技术对路况数据提取的研究,主要集中再基于手机网络定位技术以及基于终端传感器定位技术的实时交通信息提取研究。两种技术也分别存在网络定位精度低、采集频率不固定以及人为触发和监控导致用户感知负担增加等问题。

随着互联网的不断发展,使得以在线社区、博客、微博、社交网站、视频共享网站等为代表的社会媒体迅速普及,网民的互动参与,使网络空间变得与物理“真实世界”逐渐趋于一致。由于社会媒体发布信息的易用性和时效性极高,使得人们发布共享各类信息变得无比便捷。如在2012年伦敦奥运会时,伦敦交通局就发布了一款叫做TubeStar的应用,它通过监测乘客在Twitter所发布的消息,及时获取到了大量用户乘坐公共交通旅行时的感受和情况,例如哪里交通拥挤,哪里发生交通事故等。当前网络已经成为大众反应问题,反应诉求的一个重要窗口,通过浏览互联网不难发现,其中充斥着大量对交通管理工作中出现的问题的投诉和建议。其中微博平台由于其参与人数多、更新速度快、用户分布广等特点,存在大量用户实时发布的交通信息,包括对交通事故的现场描述、交通拥堵的评价、交通设施的问题反馈等各类信息。如何及时获取这些信息,正确处理后进行交通主题分类,并从中分析抽取相关地理位置信息并计算相关指数,通过有效的可视化方法进行展示,实现从微博舆情到交通问题映射,进而辅助相关交通管理部门在传统数据采集方法之外对相关路况等数据的补充验证等,也是当前交通数据采集急需解决的一个问题。

发明内容

为了解决上述问题,本发明提供一种微博舆情与城市路况相映射的交通平行方法,其具体的技术方案如下:

一种微博舆情与城市路况相映射的交通平行方法,该方法包括以下步骤:

步骤一、根据设定城市中各路段名称、路段级别、交叉路集、两侧建筑物集、路段起点经纬度坐标、路段终点经纬度坐标建立城立路段数据集JRD;

步骤二、实时采集设定的城市交通信息主题相关的微博,根据主题相关和时间窗口范围判断其有效性,对于一条有效的微博记作JMB;

步骤三、对于每一条JMB,建立其原始数据集,抽取其原始属性,记作JMB_original;

步骤四、对原始数据集进行处理抽取,建立与原始数据集形成映射的属性集,记作:JMB_processed;

步骤五、自定义时间窗口,建立自定义时间窗口内的交通主题数据集JCD;其中事故类数据集记为Set_accident,拥堵类数据集记为Set_jam,反馈类数据集记为Set_feedback;对于每条微博信息JMB,根据其所属路段与交通主题类别加入对应的自定义时间窗口内的数据集中;对于Set_accident与Set_feedback,实时信息动态更新;对于Set_jam,更新所属路段的拥堵指数;

步骤六、对JMB_processed中的部分属性信息,以及更新后的三类交通主题数据集Set_accident,Set_jam以及Set_feedback,根据城市道路数据集JRD中相关路段的起始点经纬度坐标值和地点信息分别以不同的方式在地图中进行实时可视化显示。

进一步,步骤三中,JMB采用向量形式表达,具体如下:

JMB_original=(Publisher,PTime,Content,Ptemi,Cnt_forward,Cnt_comment,Cnt_like,Cnt_pic,Plocation,Emoticon),其中

Publisher为该条微博的发布者,同时会采集相关属性,包括账号类型Publisher_type、博主名称Publisher_name、博主所在地Publisher_city、博主粉丝数Publisher_fanscnt;

T_publish为本条微博发布时间;

Content为本条微博文本内容;

Ptemi为本条微博发布客户端;

Cnt_forward为本条微博转发数,且Cnt_forward≥0;

Cnt_comment为本条微博评论数,且Cnt_comment≥0;

Cnt_like为本条微博点赞数,且Cnt_like≥0;

Cnt_pic为本条微博包含的图片数,且Cnt_pic≥0;

Plocation为本条微博包含的发布地点;

Emoticon为本条微博包含的表情符号;

进一步,步骤四中,JMB_processed的具体表达形式如下:

JMB_processed=(Category,Road_name,Road_type,Location_name,Location_type,Index_emotion,Target,Index_reliability,Index_influence),其中

Category为本条微博JMB的所属交通主题类别,其取值为交通分类数据集中包含的类别,取值范围为[交通事故、交通拥堵与交通反馈];

Road_name为本条微博包含的城市路段名称,取值范围为对应城市交通道路数据集中的道路;

Road_type为本条微博包含的城市路段名称,取值范围为对应城市交通道路数据集中的道路级别;

Location_name为本条微博包含的具体地理位置名称;

Location_type为本条微博包含的具体地理位置类别,取值范围为1代表道路交叉口,2代表道路旁的建筑物;

Target为交通反馈类微博反馈的交通主题,取值范围为[信号灯、交通标线、交通标志、交通护栏、监控设备];

Index_emotion为本条微博的情感度得分,取值范围为整数集Z;

Index_reliability为本条微博的可信度得分,且Index_reliability≥0;

Index_importance为本条微博的重要度得分,且Index_importance≥0。

进一步,步骤四中,JMB_processed的属性信息按如下方式取得:

S1,判定分类:对于实时采集的一条有效微博JMB,根据对其文本内容进行自然语言分词后的词组以及构建的城市交通主题分类数据集JCD判定其所属的交通主题类别,设定JMB_processed中的Category。

S2,地理信息抽取:对于每条微博信息JMB,根据其基础属性集合JMB_original中的相关字段以及构建的城市道路数据集JRD,抽取其地理位置信息,包括所属路段、交叉口等,设定JMB_processed中的Road_name,Road_type,Location_name,Location_type;同时对反馈类微博抽取其反馈主题Target;

S3,指数计算:对于每条微博信息JMB,根据其基础属性集合JMB_original中的相关字段以及相关数据集计算其影响指数,设定JMB_processed中的Index_emotion,Index_reliability与Index_importance,即情感度、可信度与重要度。

进一步,步骤S1中,具体按如下步骤进行:

1)采集城市交通主题微博信息,人工筛选分类交通事故、交通拥堵、交通反馈各500条,构建交通分类语料库TCM;

2)使用ZSCORE算法抽取语料库TCM三个分类下的类别特征词并对计算每个词所属类别得分;

3)根据JMB_originalWordList中的每个词在所属三个类别下的得分计算整个词组在三个分类下的得分,取得分最高的作为其所属分类;如果得分为0,标记为与交通信息无关的垃圾微博,不再进一步处理。

进一步,步骤S2中,具体按如下步骤进行:

1)如果JMB_original标记的发布位置Plocation不为空,且其包含JRD中的路段名称,则标记JMB_processed中的Road_name与Road_type,转到步骤c,否则下一步;

2)对JMB_original中的WordList进行扫描,设定如果包含JRD中的路段信息,则标记JMB_processed中的Road_name与Road_type;如果包含多条路段信息,则分号隔开设定所属路段;如果包含的所属路段不大于2,则转到步骤c;

3)根据JMB_original中的文本内容Content判断其是否包含所属路交叉路信息或建筑物信息,如有则标记JMB_processed中的Location_name与Location_type。

进一步,所述S3步骤中,计算JMB的JMB_processed中的Index_emotion,Index_reliability与Index_importance方法分别如下所述:

1)读取情感词表及表情符号情感得分表,对JMB_original中的WordList以及Emoticon分别进行扫描,对包含的情感词及表情符号得分进行累加,计算情绪度得分,设定JMB_processed中的Index_emotion;Index_emotion大于0,则表示其为正面情感,Index_emotion等于0,则不包含明显情感,Index_emotion小于0,包含负面情感;

2)根据JMB_original中的发布人信息Publisher相关信息,包知账号类型、博主名称、博主所在地、博主粉丝数,判断发布人是否在历史发布者数据集中,如在则读取其可信度得分,如无则根据相关信息计算其初始可信度得分。其得分还可在系统使用过程中由实际用户人工标注后动态调整。然后再根据本条图片张数、发布源、发布位置等因素动态加权计算本条微博的可信度得分,设定JMB_processed中的Index_reliability;

3)根据JMB_original中的发布人信息Publisher相关信息以及转发数、评论数、点赞数、图片数,同时根据近十天采集的历史微博信息,使用相似度算法计算同主题得分,采用加权的方式综合计算其重要度得分,设定JMB_processed中的Index_importance。

进一步,步骤六中,具体按如下步骤进行:

1)结合城市地图,对更新后的三类交通主题数据集Set_accident,Set_jam以及Set_feedback,根据城市道路数据集JRD中相关路段的起始点经纬度坐标值和地点信息,对于拥堵类信息根据其更新后的拥堵指数对所属路段进行颜色渲染,以表示不同的交通畅通度/拥堵程度;

2)对交通状事故与反馈类信息,分别采用不同的图标动态可视化显示;

3)同时在弹出的具体信息中,再以不同的图标分别标记JMB的情感度、可信度与重要度,以达到交通舆情到城市路况映射的目的。

本发明所提供的一种微博舆情与城市路况相映射的交通平行方法,具有以下优点:

本发明通过对微博信息处理,根据其所属交通信息类别和所属路段,加入相应的数据集对每个路段根据时间窗口内的微博信息计算更新其路况指数;对于不同交通类别信息,在开放地图工具中通过路段颜色渲染及不同图标进行可视化显示,实现微博舆情与城市路况的映射。通过本发明可以实现对微博中的交通信息进行快速分类与定位,实现基于互联网信息交通事故、拥堵、反馈类信息进行预警可视化展示,为城市交通管理、规划、应急预案、问题解决等提供辅助决策。

附图说明

图1是本发明具体实施过程流程图;

图2中本发明实施例1中的获取的某原始微博信息;

图3是本发明实施例1生成的地图实例展示。

具体实施方式

下面结合附图及本发明的实施例对本发明的一种微博舆情与城市路况相映射的交通平行方法作进一步详细的说明。

实施例1:

为使本本技术领域的人员更好地理解本发明实施过程,下面以青岛市区道路网举例对实施方式作进一步的详细说明。

图1是本发明具体实施过程流程图,我们的实施过程按图1的流程进行。

步骤101,以“青岛交通”、“青岛山东路”等预定义的交通相关关键词通过微博数据采集程序在新浪微博平台实时抓取青岛市区交通信息主题相关的微博及其相关属性值,包括发布人的相关信息以及微博正文、点赞数、评论数、转发数等,对于新采集的一条微博。

抓取到的微博原始信息如图2所示,

由于其内容包含交通主题关键词,同时其发布时间是否在设定的时间窗口内(以2015年10月7日18点作为当前系统采集到本条微博的时间,以距离当前时间60小时为有效时间窗口,则判断出其为有效微博,记作JMB;

步骤102,形式化表达JMB,抽取其基础属性,采用向量形式化表达其原始属性集,记作:

JMB_original=(Publisher,PTime,Content,WordList,Ptemi,Cnt_forward,Cnt_comment,Cnt_like,Cnt_pic,Plocation,Emoticon)其中

Publisher的账号类型Publisher_type=“普通账户”、名称Publisher_name=“许诺_ruby”、所在地Publisher_city=“山东青岛”、粉丝数Publisher_fanscnt=83;

T_publish=“2015年8月12日09:46”;

Content=“万万没想到这个点山东路全线堵车这么厉害,真是醉了~山东路北向南各个路口都很堵,要走山东路的请三思青岛交通广播FM897青岛交警”;

Ptemi=“iPhone6”;

Cnt_forward=1;

Cnt_comment=1;

Cnt_like=0;

Cnt_pic=1;

Plocation=null;

Emoticon=[[衰][衰][衰]];

步骤103,判定分类:对于JMB,对其JMB_original中的Content使用自然语言处理工具结合自定义交通字典进行分词,形成有效词组WordList=(万万;没想到;山东路;全线;堵车;这么;厉害;真是;醉了;山东路;北向南;各个;路口;很堵;山东路;三思;青岛交通广播FM897;青岛交警),词组在交通事故、交通拥堵、交通反馈三个分类下的词组得分分别采用以下方式计算,CategoryScore为整个词组的得分,WordScore为单个词的得分:

max(CategoryScore)=maxΣk=1nWordScore(k)

其中n为WordList中的词数。由于CategoryScore在三个分类下的得分分别为[8,27,2],因此设定JMB_processed中的Category=“交通拥堵”。

步骤104,地理信息抽取:对于JMB,由于其Plocation为空,即发布者没有标定当时的位置,则使用对内容分词后的词组WordList中包含的青岛道路数据集JRD中的路段名称,设定JMB_processed中的Road_name=“山东路”,Road_type=1,由于没有包含具体位置,Location_name与Location_type均为空。由于其为拥堵类信息,反馈主题Target也为空;

步骤105,指数计算:对于JMB,用EmotionWords表示其包含的情感词集,扫描WordList,EmotionWords中的情感词得分Score_words=-5。其表情符号情感得分为Score_emoticon=-3,则

Index_emotion=Score_words+Score_emoticon

设定JMB_processed中的Index_emotion=-8,即JMB的情感为负面情感。

由于JMB的发布人“许诺_ruby”在历史发布者数据集中,且已经根据其发布的交通主题的微博信息等计算出了其可信度得分,这里直接读取其发布者可信度得分Score_publisher=4.4分(取值范围0-5)。发布人的初始可信度得分可根据以下方法计算:

Scorepublisher=Σi=1kαiXi

其中,α_i表示第i个因素的权值因子,X_i为第i个影响因素,k为影响因素的个数。这里考虑的因素包括:发布人的所在地是否与设定城市一致、发布人的账号类型、发布人的粉丝数、发布人平均每月历史交通微博条数、被系统用户标记为发布不实消失的次数。然后再根据每一张图片得1分,最多3分,则其图片张数得分Score_cntpic=1;根据使用手机客户端发布得1分,否则0分,则发布源得分Score_ptemi=1;根据标识了发布位置得2分,否则0分,则发布位置得分Score_plocation=0。那么JMB得可信度得分为:

Index_reliability=Score_publisher+Score_cntpic+Score_ptemi+Score_plocation

设定JMB_processed中的Index_reliability=6.4。

根据JMB_original中的发布人信息Publisher相关信息以及转发数、评论数、点赞数、图片数,同时根据近十天采集的历史微博信息,使用相似度算法计算同主题得分,采用加权的方式综合计算其重要度得分,设定JMB_processed中的Index_importance。

Index_importance=Score_forward+Score_comment+Score_like+Score_same

步骤106,路段更新:由于JMB属于交通拥堵类信息,则加入到自定义时间窗口内的拥堵类Set_jam下“山东路”数据集中。数据集中,其中事故类数据集记为Set_accident,拥堵类数据集记为Set_jam,反馈类数据集记为Set_feedback。对于Set_accident与Set_feedback,实时信息动态更新;对于Set_jam,更新所属路段的拥堵指数;

步骤107,地图可视化:微博舆情地图可视化显示采用使用百度地图API,对更新后的Set_jam,根据城市道路数据集JRD中山东路的起始点经纬度坐标值,其更新后的拥堵指数(时间窗口内的微博舆情条数)根据自定义得阈值区间对所属路段进行红黄绿颜色渲染,以表示不同的交通畅通度/拥堵程度。同时在弹出的具体信息中,再以不同的图标分别标记JMB的相关指数(情感度、可信度与重要度),实现交通舆情到城市路况的平行映射。

图3显示的是青岛市区主要道路2015年10月7日18点时微博舆情与城市路况相映射的交通平行方法构建的百度地图,自定义时间窗口为60小时,拥堵状况采用了颜色渲染,本图未做展示,图中的微博舆情JMB_processed信息展示为随机选取,交通事故、交通反馈情况直接在地图中显示。从图3中可以看出,本发明的方法可以实现微博舆情与城市路况的映射,通过本发明可以实现对微博中的交通信息进行快速分类与定位,实现基于互联网信息交通事故、拥堵、反馈类信息进行预警可视化展示,为城市交通管理、规划、应急预案、问题解决等提供辅助决策。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号