首页> 中国专利> 一种用于购物网站的大数据分析系统

一种用于购物网站的大数据分析系统

摘要

本发明提出了一种用于购物网站的大数据分析系统,包括:数据采集模块用于采集购物网站的原始数据并存储至原始数据库中;数据分析模块用于接收原始数据库的原始数据形成的数据分析输入流,并对数据分析输入流进行分析以建立索引统计,对数据分析输入流与数据采集模块中的对应数据进行同步,形成数据分析输出流,并输出至分析后数据库;数据展现模块用于接收分析后数据库中的数据分析输出流的展现数据,并将展现数据根据类型的不同以界面形式展现给用户查看。本发明集采集、分析、展示于一体,通过实时的数据采集,完整的数据分析,将数据分析结果展示给客户。

著录项

  • 公开/公告号CN104778273A

    专利类型发明专利

  • 公开/公告日2015-07-15

    原文格式PDF

  • 申请/专利权人 淘金信息科技江苏有限公司;

    申请/专利号CN201510203342.8

  • 发明设计人 邵明前;徐胜飞;

    申请日2015-04-24

  • 分类号G06F17/30(20060101);G06Q30/02(20120101);

  • 代理机构北京中企鸿阳知识产权代理事务所(普通合伙);

  • 代理人刘葛;郭鸿雁

  • 地址 226000 江苏省南通市崇川区世纪大道375号7楼

  • 入库时间 2023-12-18 09:52:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2015102033428 申请日:20150424 授权公告日:20181009

    专利权的终止

  • 2018-10-09

    授权

    授权

  • 2015-09-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150424

    实质审查的生效

  • 2015-07-15

    公开

    公开

说明书

技术领域

本发明涉及大数据处理技术领域,特别涉及一种用于购物网站的大数据分析系统。

背景技术

数据存贮方面目前同领域基本采用Mysql数据库的存贮方式,这种存贮结构对于 数据量千万级以下是非常适合的。但是,如果超过此数量级则会产生严重的数据堵塞 后果,从而影响系统性能。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此,本发明的目的在于提出一种用于购物网站的大数据分析系统,可是实现集 采集、分析、展示于一体,通过实时的数据采集,完整的数据分析,将数据分析结果 展示给客户。

为了实现上述目的,本发明的实施例提供一种用于购物网站的大数据分析系统,用 于对购物网站的数据进行采集和分析,所述用于购物网站的大数据分析系统包括:数 据采集模块、数据分析模块和数据展现模块,其中,所述数据采集模块用于采集所述 购物网站的原始数据并存储至原始数据库中,其中,所述购物网站的原始数据包括: 全类目数据、前后台类目关联数据、最小类目下的商品信息和店铺信息;所述数据分 析模块用于接收所述原始数据库中的原始数据形成的数据分析输入流,并对所述数据 分析输入流进行分析以建立索引和统计,以及对所述数据分析输入流与所述数据采集 模块中的对应数据进行同步,形成数据分析输出流,并输出至分析后数据库;所述数 据展现模块用于接收所述分析后数据库中的数据分析输出流的展现数据,并将所述展 现数据根据类型的不同以界面形式展现给用户查看,以及接收用户输入的关注指令, 其中所述关注指令包括关注商品的名称和关注店铺的名称,所述数据展现模块还用于 根据所述关注指令生成展现系统交互数据,并将所述展现系统交互数据发送至所述分 析后数据库;所述数据分析模块还用于接收所述分析后数据库中的展现系统交互数据 形成的展现数据反馈输入流,对所述展现数据反馈输入流进行分析以获得关注商品的 名称和关注店铺的名称,对关注商品建立索引,以及对所述关注商品信息和关注店铺 信息与所述数据展现模块中的对应数据进行同步,形成展现数据反馈输出流,将所述 成展现数据反馈输出流输出至所述原始数据库;所述数据采集模块还用于接收所述原 始数据库中的展现数据反馈输出流,并根据所述展现数据反馈输出流优先采集关注商 品和关注店铺的信息,并通过所述数据分析模块和数据展现模块展现给所述用户查看。

在本发明的一个实施例中,所述数据采集模块采用Mysql数据库服务器,所述数据 分析模块和所述数据展现模块采用Mysql数据库服务器和Solr数据库服务器。

在本发明的又一个实施例中,所述数据采集模块获取所述购物网站的全类目数据包 括:所述数据采集模块根据配置信息进行首次运行检测,如果存在类目表,则查询类 目标下的一级类目,否则进行全类目查询;所述数据采集模块调用所述购物网站后台 类目Api,根据返回值更新类目表。

在本发明的一个实施例中,所述数据采集模块获取所述购物网站的前后台类目关联 数据包括:所述数据采集模块根据更新后的类目表添加一条或多条前台一级类目,根 据所述前台一级类目的前台类目ID拼接搜索页面;所述数据采集模块根据页面代码判 断所述前台一级类目是否有下级目录,如果有则判断为父目录,根据页面获取下级目 录信息;如果没有下级目录,则判断为子目录,通过该目录下商品获取对应后台类目 ID,通过所述后台类目ID获取相应的其他后台类属性。

在本发明的又一个实施例中,所述数据采集模块获取所述购物网站的最小类目下的 商品信息包括:所述数据采集模块根据需要采集的类目,通过URL下载页面判断是否 存在属性标签,如果不存在则收集URL地址和属性信息,如果存在则判断是否存在子 属性,如果存在子属性则收集URL地址和子属性信息,根据获得URL地址搜索页面, 根据页面源码匹配商品信息。

在本发明的再一个实施例中,所述数据采集模块获取所述购物网站的最小类目下的 店铺信息和关注店铺的信包括:优先获取关注店铺的店铺数据,然后获取类目表中的 店铺数据,判断是否存在下载店铺ID拼接的URL页面,如果存在,则匹配页面并获取 店铺信息,否则删除类目表中的相应数据;所述数据采集模块判断新的店铺信息是否 为空,如果是则添加新店铺信息,获取需要新增店铺的店铺名,拼接URL地址并判断 是否存在下载页面,如果存在,则匹配页面获取店铺信息。

在本发明的一个实施例中,所述数据采集模块采集关注商品信息包括:所述数据采 集模块获取关注商品ID和关注店铺ID,拼接商品详情页URL地址和店铺搜索页URL 地址,下载店铺搜索页URL地址,匹配获取该店铺下所有商品URL地址,并进一步结 合商品详情页URL地址,判断是否存在商品下载详情页源码,如果存在则解析出商品 信息。

在本发明的一个实施例中,所述数据分析模块对所述数据分析输入流和展现数据反 馈输入流进行分析以建立索引包括:所述数据分析模块首先初始化索引服务,然后初 始化所述数据分析输入流和展现数据反馈输入流中商品的所有类目,添加需增加索引 的项目,分别为原始商品数据和关注商品添加索引。

在本发明的又一个实施例中,所述数据分析模块对数据进行同步包括:所述数据 分析模块加载商品的类目,获取原始商品数据、商品关注数据和店铺关注数据;所述 数据分析模块将商品关注数据和店铺关注数据更新至所述原始数据库;所述数据分析 模块对所述商品数据设置线程,并进行数据同步和属性统计。

在本发明的一个实施例中,所述数据展现模块展示以下内容:登入界面、首页界 面、行业分析界面、店铺分析界面、商品分析界面、账户界面和系统管理界面。

本发明实施例的用于购物网站的大数据分析系统是集采集、分析、展示于一体的 综合性数据系统,通过实时的数据采集,完整的数据分析,将数据分析结果展示给客 户。采用全网采集的方式,体现的数据量大,被采集对象更加全面,对使用对象分析 市场行情、产品研发有全面的指导作用。本发明采用Mysql与solr数据库结合的方式, 以solr非关系型数据库做大数据量存储,以Mysql做分析统计,两者结合可以避免数 据堵塞,提高系统性能。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显 和容易理解,其中:

图1为根据本发明实施例的用于购物网站的大数据分析系统的结构图;

图2为根据本发明实施例的用于购物网站的大数据分析系统的数据交互示意图;

图3为根据本发明实施例的数据采集模块的工作流程图;

图4为根据本发明实施例的数据采集模块获取全类目的流程图;

图5为根据本发明实施例的数据采集模块获取前后台类目关联的流程图;

图6为根据本发明实施例的数据采集模块获取最小类目下的商品信息的流程图;

图7为根据本发明实施例的数据采集模块获取最小类目下的店铺信息的流程图;

图8为根据本发明实施例的数据采集模块增加店铺信息的流程图;

图9为根据本发明实施例的数据采集模块获取关注店铺下商品及关注商品的流程 图;

图10为根据本发明实施例的数据分析模块的工作流程图;

图11为根据本发明实施例的数据分析模块进行数据索引与分析的流程图;

图12为根据本发明实施例的数据分析模块进行数据同步的流程图;

图13为根据本发明实施例的数据分析模块进行数据统计的流程图;

图14为根据本发明实施例的数据展现模块展示内容的拓扑图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,本发明实施例的用于购物网站的大数据分析系统,用于对购物网站的 数据进行采集和分析,例如:淘宝网。该用于购物网站的大数据分析系统包括:数据 采集模块1、数据分析模块2和数据展现模块3。

图2为根据本发明实施例的用于购物网站的大数据分析系统的数据交互示意图。

如图2所示,数据采集模块1采集购物网站的原始数据并存储至原始数据库中。 其中,购物网站的原始数据包括:全类目数据、前后台类目关联数据、最小类目下的 商品信息和店铺信息。

数据分析模块2接收原始数据库中的原始数据形成的数据分析输入流,并对数据 分析输入流进行分析以建立索引和统计,以及对数据分析输入流与数据采集模块1中 的对应数据进行同步,形成数据分析输出流,并输出至分析后数据库。

数据展现模块3接收分析后数据库中的数据分析输出流的展现数据,并将展现数 据根据类型的不同以界面形式展现给用户查看,以及接收用户输入的关注指令。其中, 关注指令包括关注商品的名称和关注店铺的名称。例如,用户可以通过与数据展现模 块相连的键盘或触摸屏输入上述关注指令。

数据展现模块3还根据关注指令生成展现系统交互数据,并将展现系统交互数据 发送至分析后数据库。

数据分析模块2还接收分析后数据库中的展现系统交互数据形成的展现数据反馈 输入流,对展现数据反馈输入流进行分析以获得关注商品的名称和关注店铺的名称, 对关注商品建立索引,以及对关注商品信息和关注店铺信息与数据展现模块3中的对 应数据进行同步,形成展现数据反馈输出流,将成展现数据反馈输出流输出至原始数 据库。

数据采集模块1还接收原始数据库中的展现数据反馈输出流,并根据展现数据反 馈输出流优先采集关注商品和关注店铺的信息,并通过数据分析模块2和数据展现模 块3展现给用户查看。

即,本发明实施例的用于购物网站的大数据分析系统可以首先将购物网站的原始数 据展现给用户查看,用户查看后可以根据自己的兴趣,输入关注的商品名称和店铺名 称,反馈给用于购物网站的大数据分析系统,由其根据用户的关注重新进行采集和分 析一系列动作,并展现给用户查看。

在本发明的一个实施例中,数据采集模块1采用Mysql数据库服务器。具体地, 数据采集模块1的硬件设备包括服务器,服务器上使用的软件为Mysql、jdk等。

数据分析模块2采用Mysql数据库服务器和Solr数据库服务器。具体地,数据分 析模块2的硬件设备包括服务器,服务器上使用软件为Mysql、solr、jdk等。

数据展现模块3采用Mysql数据库服务器和Solr数据库服务器。具体地,数据展 现模块3的硬件设备包括服务器,服务器上使用的软件为mysql、solr、jdk、tomcat 等。

本发明的用于购物网站的大数据分析系统采用mysql与solr数据库结合的方式, 以solr非关系型数据库做大数据量存储,以Mysql做分析统计,两者结合可以避免数 据堵塞,提高系统性能。

图3为根据本发明实施例的数据采集模块的工作流程图。以购物网站为淘宝网为 例进行说明。

步骤S301,获取全类目Api。

步骤S302,淘宝类目前后台关联,获取最小类目下商品。

步骤S303,获取商品采集搜素页。

步骤S304,获取关注商品的商品详情页和关注店铺下商品的商品详情页。

步骤S305,获取关注店铺信息下店铺采集信息页。

具体地,本发明采用类目细化的采集方式,在细化过程中穿插多线程技术,一方 面保持了全网全类目的特点,另一方面也优化了采集速度与质量。

图4为根据本发明实施例的数据采集模块获取全类目的流程图。

步骤S401,获取配置信息。

步骤S402,首次运行检测,判断是否存在类目表,如果存在则执行步骤S403,否 则执行步骤S404。

步骤S403,查询类目表一级类目。

步骤S404,查询全类目。

步骤S405,根据步骤S403中的一级类目调用淘宝后台类目Api,以及根据步骤S404 中的全类目调用淘宝后台类目Api。

步骤S406,根据返回值更新类目表(category)。

图5为根据本发明实施例的数据采集模块获取前后台类目关联的流程图。

步骤S501,添加一条或多条前台一级类目。

步骤S502,根据前台类目ID拼接搜索页面。

步骤S503,根据页面代码判断是否是有下级目录,如果有,则执行步骤S504,否 则执行步骤S506。

步骤S504,判断该前台类目为父目录,根据页面获取下级目录信息。

步骤S505,将下级目录信息写入数据库(category_front)。

步骤S506,判断该前台类目为子目录,通过该目录下商品获取对应后台类目ID。

步骤S507,通过后台类目ID获取相应的其他后台类目属性,例如:行业和父类目 等,然后执行步骤S505。

步骤S508,判断需处理前台类目是否为空(null),如果是则结束,否则返回步 骤S502。

图6为根据本发明实施例的数据采集模块获取最小类目下的商品信息的流程图。

步骤S601,通过数据库(category_front)获取需采集的类目。

步骤S602,通过URL下载页面判断是否存在属性标签,如果存在,则执行步骤S603, 否则执行步骤S605。

步骤S603,判断属性有无子属性,如果存在则执行步骤S604,否则执行步骤S605。

步骤S604,获取子属性,然后执行步骤S605。

步骤S605,收集URL地址和属性信息。

步骤S606,写入数据库(auction_list_url)。

步骤S607,通过获取到的URL信息搜索页面。

步骤S608,根据页面源码匹配商品信息。

步骤S609,写入数据库(auction)。

图7为根据本发明实施例的数据采集模块获取最小类目下的店铺信息的流程图。

步骤S701,对已有店铺信息进行维护。

步骤S702,优先获取关注店铺的店铺数据(cust_shop)。

步骤S703,获取原始店铺数据。

步骤S704,判断是否存在下载店铺ID拼接的URL页面,如果存在则执行步骤S705, 否则执行步骤S706。

步骤S707,将店铺信息写入数据库(shop)。

步骤S708,判断需更新的店铺是否为空,如果是,则执行步骤S709,否则返回步 骤S704。

步骤S709,添加新店铺信息。

图8为根据本发明实施例的数据采集模块增加店铺信息的流程图。

步骤S801,开始添加新店铺信息。

步骤S802,获取需新增店铺的店铺名(nick_new)。

步骤S803,判断是否存在拼接URL形成的下载页面,如果存在,则执行步骤S804, 否则执行步骤S806。

步骤S804,匹配页面获取店铺信息。

步骤S805,将店铺信息写入数据库(shop)。

步骤S806,判断需添加的店铺是否为空,如果是则结束,否则返回步骤S803。

图9为根据本发明实施例的数据采集模块获取关注店铺下商品及关注商品的流程 图。

步骤S901,获取关注商品ID(cust_auction)。

步骤S902,拼接商品详情页URL地址。

步骤S903,获取关注店铺ID(cust_shop)。

步骤S904,拼接店铺详情页URL地址。

步骤S905,下载页面,匹配获取该店铺下所有商品的URL地址。

步骤S906,判断是否存在通过商品URL下载详情页源码,如果存在,则执行S907, 否则执行步骤S908。

步骤S907,解析商品信息,并写入数据库(auciton_concern)。

步骤S908,判断获取商品URL是否为空,如果是,则结束,否则返回步骤S906。

图10为根据本发明实施例的数据分析模块的工作流程图。

步骤S1001,数据索引与分析,建立索引库。

步骤S1002,数据分析模块将数据相应的与数据分析模块和数据展现模块进行同 步。

步骤S1003,数据统计,以为数据展现服务。

图11为根据本发明实施例的数据分析模块进行数据索引与分析的流程图。

步骤S1101,初始化索引服务。

步骤S1102,初始化商品所有类目,加载前台与后台类目。

步骤S1103,添加需增加索引的项目。

步骤S1104,添加原始商品数据索引。

步骤S1105,添加关注商品索引。

步骤S1106,判断需添加索引项目是否为空,如果是则结束,否则返回步骤S1104 和S1105。

图12为根据本发明实施例的数据分析模块进行数据同步的流程图。

步骤S1201,加载商品的类目。

步骤S1202,对原始商品数据进行处理并同步。

步骤S1203,对用户关注商品进行同步。

步骤S1204,对用户关注店铺进行同步。

步骤S1205,获取商品数据(auction)。

步骤S1206,获取关注商品数据(cust_auction)。

步骤S1207,获取关注店铺数据(cust_shop)。

步骤S1208,设置线程,根据此处数据量需设置多线程。

步骤S1209,将关注商品数据更新至原始数据库(cust_auction)。

步骤S1210,将关注店铺数据更新至原始数据库(cust_shop)。

步骤S1211,同步数据,存储至数据库(statistics_cache_auction)。

步骤S1212,属性统计,存储至数据库(statistics_property)。

步骤S1213,判断需统计的商品是否结束,如果是则结束,否则返回步骤S1208。

图13为根据本发明实施例的数据分析模块进行数据统计的流程图。

步骤S1301,加载前后台类目。

步骤S1302,商品统计。

步骤S1303,店铺统计。

步骤S1304,行业统计。

步骤S1305,获取关注商品,统计商品数据(statistics_cache_auction与 cust_auction)关联。

步骤S1306,获取关注店铺,统计该关注店铺下的所有商品数据 (statistics_cache_auction与cust_shop)关联。

步骤S1307,重置数据库(statistics_auction)。

步骤S1308,将商品统计值写入数据库(statistics_auction)。

步骤S1309,获取关注店铺,统计店铺数据(statistics_cache_auction与 cust_shop)关联。

步骤S1310,统计原始店铺数据。

步骤S1311,按商品统计月销量。

步骤S1312,按类目统计月销量。

步骤S1313,重置数据库(statistics_shop)。

步骤S1314,将店铺统计值写入数据库(statistics_shop)。

步骤S1315,统计行业近30天的数据。

步骤S1316,统计行业月数据。

步骤S1317,重置数据库(statistics_industry)。

步骤S1318,将行业统计值写入(statistics_industry)。

图14为根据本发明实施例的数据展现模块展示内容的拓扑图。以购物网站为淘宝 网为例进行说明。

如图14所示,数据展现模块3展示内容包括:登入界面、首页界面、行业分析界 面、店铺分析界面、商品分析界面、账户界面、聚划算界面和系统管理界面。

首页界面:月商品销量排名和月店铺销量排名。

行业分析界面:行业分析和行业趣事。

店铺分析界面:店铺搜索、单店分析和店铺对比,其中,单店分析下设有店铺统 计。

商品分析界面:热销查询和关注商品。

账户界面:安全修改。

聚划算界面:聚划算查询和聚划算关注。

双十一界面:店铺排名和商品排名。

系统管理界面:用户管理。

本发明实施例的用于购物网站的大数据分析系统是集采集、分析、展示于一体的 综合性数据系统,通过实时的数据采集,完整的数据分析,将数据分析结果展示给客 户。采用全网采集的方式,体现的数据量大,被采集对象更加全面,对使用对象分析 市场行情、产品研发有全面的指导作用。本发明采用Mysql与solr数据库结合的方式, 以solr非关系型数据库做大数据量存储,以Mysql做分析统计,两者结合可以避免数 据堵塞,提高系统性能。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、 结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上 述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结 构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和 宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本 发明的范围由所附权利要求极其等同限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号