首页> 中文期刊>交通信息与安全 >基于社交网络数据的交通突发事件识别方法

基于社交网络数据的交通突发事件识别方法

     

摘要

为了从社交网络数据中挖掘出交通突发事件,研究了基于机器学习的文本识别方法.通过关键词和地点定位,利用网页爬虫"Beautiful Soup"爬取到原始文本.采用正则匹配、重复度计算以及"0-1"标记预处理原始文本.基于预处理后文本特征,研究了基于特征权重的特征词选取方法;其中,特征权重的计算综合了词语的出现频率和含有该词语的文本所占比例,通过将二者归一化并加权合并,获得训练集突发事件文本中各个无重复词语的特征权重;依据此值选择确定特征词,并用于后续分类器的输入.测试对比了不同的分类器以及特征词选择方法,结果表明,所提特征词选取方法与XGBoost分类器结合,在交通突发事件识别上具有最好的综合表现,精确率为0.6796,召回率为0.6481,F1值为0.6635,AUC值为0.7594.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号