首页> 中国专利> 基于spark大数据平台的日志信息类型提取方法、挖掘方法

基于spark大数据平台的日志信息类型提取方法、挖掘方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及计算机信息系统技术领域，公开了基于spark大数据平台的日志信息类型提取方法，包括：预处理离线日志数据，过滤掉不能识别的日志条目，存入HDFS中；将常规变量替换为通配符，同时对日志条目进行规整处理，完成简单的通配化处理，并将通配化处理后的数据临时存入HDFS中；将通配化处理后的数据进行时间根据时间窗进行过滤，将日志数据过滤拆分成有效日志集合和无效日志集合，去重后临时存入HDFS中；用迭代分组挖掘方法，分别计算出有效日志和无效日志的日志信息类型，将结果存入HDFS中。上述方案进行日志的自动化分析处理，有利于数据的恢复和使用，并能够高效准确地识别不同的日志信息类型。同时本发明也公开了时间窗过滤方法和迭代分组挖掘方法。

著录项

公开/公告号CN112632020A

专利类型发明专利
公开/公告日2021-04-09

原文格式PDF
申请/专利权人中国电子科技集团公司第三十研究所;中国信息安全测评中心;
展开▼

申请/专利号CN202011560919.8
发明设计人王红伟;文占婷;刘恕涛;薛彬彬;岳桂华;陈锦;王禹;成林;
展开▼

申请日2020-12-25
分类号G06F16/18(20190101);G06F16/182(20190101);G06F16/172(20190101);
代理机构51214 成都九鼎天元知识产权代理有限公司;
代理人吕玲
地址 610000 四川省成都市高新区创业路6号
入库时间 2023-06-19 10:32:14

法律信息

法律状态公告日

法律状态信息

法律状态
2022-03-18

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 基于spark大数据平台的日志信息类型提取方法、挖掘方法 [P] . 中国专利： CN112632020A . 2021-04-09
2. 基于RBM的电力信息系统日志信息综合特征提取方法和装置 [P] . 中国专利： CN107730040B . 2021.03.16
3. USER DEVICE FOR ACQUIERING LIFE LOG INFORMATION OF USER BASED ON TOUCH EDGE DEVICE FOR GENERATING SERVICE INFORMATION BASED ON LIFE LOG INFORMATION ACQUIERED THEREBY AND HUMAN BODY COMMUNICATION SYSTEM COMPRISING USER DEVICE AND EDGE DEVICE [P] . KR102296445B1 . 2021-09-03

机译：用于基于触摸边缘设备获取用户寿命日志信息的用户设备，用于基于寿命日志信息获取的服务信息和包括用户设备和边缘设备的人体通信系统
4. LOG DATA MINING METHOD AND SYSTEM BASED ON HADOOP [P] . 世界知识产权组织专利： WO2017092444A1 . 2017-06-08

机译：基于HADOOP的日志数据挖掘方法及系统
5. UPDATE LOG MANAGEMENT DEVICE AND AN UPDATE LOG MANAGEMENT METHOD DECREASING THE DATA AMOUNT OF TRANSMITTING AND THE UPDATE LOG AMOUNT OF HOLDING BASED ON THE RESULT OF COMPARING THE AMOUNT OF THE UPDATE LOG WITH THE AMOUNT OF THE UPDATED DATA PLUS THE LOG APPLIED INFORMATION [P] . 美国专利： US6466950B1 . 2002-10-15

机译：基于将更新日志量与更新数据量加上日志应用信息量相比较的结果，更新日志管理装置和更新日志管理方法减少发送的数据量和保持的更新日志量