技术领域
本发明属于知识图谱技术领域,具体涉及一种基于知识图谱的特定群体分析方法与系统。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转换为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
现有的对特定群体进行分析方法主要包括采集特定群体数据,然后通过人工对数据进行分析,得到特定线上群体和特定线下群体的详细信息,例如对非正常行为嫌疑人进行分析,得到嫌疑人线上群体和嫌疑人线下群体的详细信息。
现有的对特定群体进行分析的方法存在的问题是:由于采集的特定群体数据量巨大,现有的技术中没有将这些群体数据进行结构化的处理,通过人工对数据进行分析,难以实现对特定群体的精准分析。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于知识图谱的特定群体分析方法与系统,其目的为:通过对特定群体数据进行技术手段的采集,使用大数据分析和数据挖掘等技术,对特定群体数据进行精准分析,并对应作出适合当前任务的方法和系统。
为实现上述目的本发明所采用的技术方案是:一种基于知识图谱的特定群体分析方法,包括:
步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
步骤2:对初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,进一步构建直观表现群体情况的结构化群体数据;
步骤4:对步骤3中所述结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
步骤5:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
较优的,本发明所述步骤1具体为:
对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存;对每个字段数据进行检查,对无效字段进行统一处理;然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射进图数据库中。
较优的,本发明所述步骤2中特定成员关系包括关系数据和节点数据,具体为:
当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点数据下;
当特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系数据表示该特定成员访问过该非法网站。
较优的,本发明步骤3具体包括:对步骤1中的图数据库的特定群体数据和步骤2生成的特定成员关系进行分析,具体包括:
同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一群体的服务器;
同一非法网站属于不同服务器时,将这些服务器归为同一群体的服务器。
较优的,本发明步骤4具体包括:
采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
本发明还提出了一种基于知识图谱的特定群体分析系统,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
特定成员关系生成模块:对所述初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
特定群体分析模块:通过所述初始结构化群体数据和特定成员关系生成模块生成的特定成员关系,构建最终直观表现群体情况的结构化群体数据;
特定群体模块:对结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
较优的,本发明所述数据映射模块具体为:
基于数据统计和知识图谱设计,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式;然后根据设计好的知识图谱结构, 通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
较优的,本发明所述特定成员关系生成模块具体为:
通过映射模块导入的初始结构化群体数据进行特定成员的关系分析,生成特定成员关系;包括:
特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。
较优的,本发明所述特定群体分析模块具体为:
通过映射模块导入的结构化数据和特定成员关系生成模块生成的特定成员关系进行分析;具体包括:
通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;
当多台服务器判定为同一特定线上群体时,生成一个特定线上群体节点,再通过特定成员关系生成模块将这些服务器链接到该特定线上群体节点;
通过对初始结构化群体数据分析,若不同特定成员访问同一非法网站时,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问不同的非法网站时但属于同一服务器,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问特定线上群体节点下的非法网站或者服务器时,将这些特定成员判定为同一特定线上群体成员。
较优的,本发明特定群体模块具体为:
通过特定群体分析模块形成的结构化群体数据,实现特定线上群体分析和特定线下群体分析,包括:支持查找指定非法网站下的所有特定线上群体成员;查找指定服务器下的所有非法网站下的所有特定线上群体成员;查找指定特定线上群体下的所有服务器,以及所有服务器下的所有非法网站和所有非法网站下的所有特定线上群体成员的功能;
对每个特定线上群体成员访问非法网站的时间生成热力图,用于评估当前特定线上群体的活跃程度;
对每个特定线上群体成员访问非法网站时的所在地理位置经纬度进行记录,用于分析特定线下群体成员的分布;
通过对特定线下群体成员的分布进行聚类计算,得出特定线下群体成员和特定线下群体的数量;
对特定线上群体和特定线下群体根据地名进行分类,用于查看指定国家或省份或城市的特定线上群体和特定线下群体的数量。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.将特定成员登录网站的离散数据经过映射导入知识图谱库后形成结构化数据,解决了离散数据没有可分析和可使用的问题。
2.将离散数据转换结构化数据后的进一步深度数据挖掘和分析数据中潜在的关系, 找到了数据中隐藏的有价值的数据与数据之间的关系,生成可辅助特定群体分析的节点数据和关系数据。
3.通过结构化数据和生成的关系数据再进一步深度数据挖掘和特定群体分析并生成最终的结构化群体数据用以特定群体分析并成功的分析出群体特定成员。
4.通过最终的结构化群体数据,对特定群体信息进行线上和线下群体分析。
5.可以增量更新特定群体数据,并动态的生成和更新特定群体分析结果。
6.在更新特定群体数据时可提前计算特定群体的分析结果然后再进行更新,后续使用更高效并且无需计算。
7.由离散数据存储为结构化数据,节省了大量的存储空间。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例的流程示意图。
图2是本发明实施例中知识图谱结构示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
如图所示,本发明提出一种基于知识图谱的特定群体分析方法,包括:
步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;目的是消除因为各种数据采集过程和由于各种数据本身不完整所带来的数据来源、数据准确、数据可靠、消除数据结构不一致等等因素,并结合业务需要和业务原则设计出知识图谱结构,尽可能保证后续采集的数据通过一些数据清洗规则和一些填充规则保证数据的完整性,提高数据的质量,能够完整正确的录入知识图谱相应的数据库中。
所述步骤1具体为:
对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存;对每个字段数据进行检查,对无效字段进行统一处理;然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射仅图数据库中,以达到将数据映射为有关系链接的结构化数据;
如图2中左部分所示,所述唯一节点和唯一关系的方式为:特定成员ID节点、非法网站ID节点和服务器ID节点,特定成员ID节点与该特定成员登录的非法网站对应,并记录登录IP和登录地址,该非法网站ID与其属于的服务器ID对应。
步骤2:对映射到图数据库的特定群体数据进行深度分析,生成特定群体中的特定成员关系;目的是用于辅助后续特定群体的分析和使用,如图2中右部分所示,所述步骤2具体为:
根据步骤1中采集的特定群体数据,生成用于辅助特定群体分析的关系数据或节点数据,包括:
当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点下;例如指纹,指纹完全相同时,则将指纹相同的特定成员标记为同一特定成员。
当特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系表示该特定成员访问过该非法网站。
步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,构建结构化群体数据;
步骤3具体包括:对步骤1中的图数据库的特定群体数据和步骤2生成的特定成员关系进行分析,具体包括:
同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一特定线上群体的服务器;
同一非法网站属于不同服务器时,将这些服务器归为同一特定线上群体的服务器。
步骤4:对步骤3生成的结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;步骤4具体包括:
采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
对同一特定线上群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
步骤5:定期增量更新特定群体数据,并动态地对更新后特定群体的分析结果进行更新,在更新特定群体数据时先提前计算特定群体的分析结果。
本发明还提出了一种基于知识图谱的特定群体分析系统,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;本发明所述数据映射模块具体为:
通过数据统计和知识图谱设计的相关知识,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式,如图2中左部分所示,为特定成员ID、登录IP、登录城市、非法网站ID、服务器ID一一对应的方式;然后根据设计好的知识图谱结构,通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
特定成员关系生成模块:对映射到图数据库的特定群体数据进行深度分析,生成特定群体中的特定成员关系,如图2中右部分所示;本发明所述特定成员关系生成模块具体为:
通过映射模块导入的结构化数据进行特定成员的关系分析,生成特定成员关系;包括:
特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。由于特定成员可以通过更换浏览器,清除缓存等手法可以更换自己的ID所以需要此步骤来确定唯一特定成员的身份。
特定群体分析模块:通过步骤1中所述图数据库的数据和步骤2生成的特定成员关系,构建结构化群体数据;所述特定群体分析模块具体为:
通过映射模块导入的初始结构化群体数据和特定成员关系生成模块生成的特定成员关系进行分析;具体包括:
通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;
当多台服务器判定为同一特定线上群体时,生成一个特定线上群体节点,再通过特定成员关系生成模块将这些服务器链接到该特定线上群体节点;
通过对初始结构化群体数据分析,若不同特定成员访问同一非法网站时,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问不同的非法网站时但属于同一服务器,将这些特定成员判定为同一特定线上群体成员;
通过对初始结构化群体数据分析,若不同特定成员访问特定线上群体节点下的非法网站或者服务器时,将这些特定成员判定为同一特定线上群体成员。
特定群体模块:对特定群体分析模块生成结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息。
特定群体模块具体为:
通过特定群体分析模块形成的结构化群体数据,实现特定线上群体分析和特定线下群体分析,包括:支持查找指定非法网站下的所有特定线上群体成员;查找指定服务器下的所有非法网站下的所有特定线上群体成员;查找指定特定线上群体下的所有服务器,以及所有服务器下的所有非法网站和所有非法网站下的所有特定线上群体成员的功能;
对每个特定线上群体成员访问非法网站的时间生成热力图,用于评估当前特定线上群体的活跃程度;
对每个特定线上群体成员访问非法网站时的所在地理位置经纬度进行记录,用于分析特定线下群体成员的分布;
通过对特定线下群体成员的分布进行聚类计算,得出特定线下群体成员和特定线下群体的数量;
对特定线上群体和特定线下群体根据地名进行分类,用于查看指定国家或省份或城市的特定线上群体和特定线下群体的数量。
更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体结果进行更新。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 一种基于知识图谱的多用户游戏服务提供方法及其装置
机译: 基于交通安全风险的群体划分和差异分析方法及系统
机译: 通过使用特定群体的假肢作为指标进行粘接的分析方法