首页> 中国专利> 网络数据挖掘方法、网络数据推送方法及设备

网络数据挖掘方法、网络数据推送方法及设备

摘要

本发明实施例公开了一种网络数据挖掘方法、推送方法及设备,所述网络数据挖掘方法包括:根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;判别所述用户访问的URL所属的类别;根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。由于本发明预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。

著录项

  • 公开/公告号CN101655868A

    专利类型发明专利

  • 公开/公告日2010-02-24

    原文格式PDF

  • 申请/专利权人 中国人民解放军信息工程大学;

    申请/专利号CN200910172044.1

  • 发明设计人 陈庶樵;扈红超;伊鹏;张果;

    申请日2009-09-03

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人逯长明;王宝筠

  • 地址 450002 河南省郑州市金水区俭学街7号

  • 入库时间 2023-12-17 23:27:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-20

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20120822 终止日期:20180903 申请日:20090903

    专利权的终止

  • 2012-08-22

    授权

    授权

  • 2010-04-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20090903

    实质审查的生效

  • 2010-02-24

    公开

    公开

说明书

技术领域

本发明涉及计算机网络领域,尤其涉及一种网络数据挖掘方法、网络数据推送方法及设备。

背景技术

随着网络技术的发展,传统的网络运营商主要采用带宽营销方式进行信息推广。以广告信息为例,众多的搜索引擎提供商、浏览器提供商、下载工具提供商、或者一般的WEB网站都构建了网络广告平台,广告平台通常采用“广而告之”的方式向所有网络用户提供广告服务。

在对现有技术的研究和实践过程中,发明人发现采用广而告之的方式向网络用户提供网络信息时,如果用户访问了某个网站,则均向用户展示广告信息,而不管该用户是否对该广告信息感兴趣,因此当大量用户访问该网站时,将占用大量网络带宽资源,并且向用户推送不感兴趣的广告信息,将极大降低用户的访问体验。

发明内容

本发明实施例的目的是提供一种网络数据挖掘方法、网络数据推送方法及设备,以解决现有网络信息的推送方式由于针对性不强,占用网络带宽资源且降低用户访问体验的问题。

为解决上述技术问题,本发明实施例提供如下技术方案:

一种网络数据挖掘方法,包括:

根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;

判别所述用户访问的URL所属的类别;

根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。

所述数据采集规则包括:规则特征和规则动作;

所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。

所述采集网络中与所述数据采集规则匹配的用户数据包括:

采集网络中符合所述规则特征的用户数据;

判断与所述规则特征对应的规则动作类型,如果为统计,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,如果为复制,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。

所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:保存所述统计数据和复制数据到数据库。

所述判别所述用户访问的URL所属的类别包括:

读取所述数据库中的复制数据;

根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;

根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。

所述采集网络中与所述数据采集规则匹配的用户数据之后,还包括:

过滤所述用户数据中的不规则数据;

所述不规则数据包括:空数据、用户访问的URL为非法URL。

一种网络数据推送方法,所述方法应用所述网络数据挖掘方法获取的每个用户标识所对应的感兴趣类别,包括:

确定待推送网络数据需要推送的目标类别;

采集用户数据,所述用户数据中包括用户标识和用户访问的URL;

根据所述用户标识获取与所述用户标识对应的感兴趣类别;

当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。

还包括:预先设置推送网络数据的推送策略和推送形式;

所述将所述待推送网络数据推送到所述用户访问的URL对应的网页内具体为:按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。

所述将所述待推送网络数据推送给所述用户包括:

劫持所述用户访问的URL;

将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。

一种网络数据挖掘设备,包括:

采集单元,用于根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;

判别单元,用于判别所述用户访问的URL所属的类别;

挖掘单元,用于根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘;

获取单元,用于根据所述挖掘单元的挖掘结果获取每个用户标识所对应的感兴趣类别。

所述数据采集规则包括:规则特征和规则动作;

所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。

所述采集单元包括:

采集数据单元,用于采集网络中符合所述规则特征的用户数据;

判断类型单元,用于判断与所述规则特征对应的规则动作类型;

获取数据单元,用于当判断类型单元判断规则动作为统计时,则根据所述用户数据获取统计数据,包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息,当判断类型单元判断规则动作为复制时,则根据所述用户数据获取复制数据,包括用户标识、用户访问的URL、用户访问URL时长。

还包括:

保存单元,用于保存所述统计数据和复制数据到数据库;

所述判别单元包括:

读取数据单元,用于读取所述数据库中的复制数据;

提取网页单元,用于根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;

获取类别单元,用于根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。

还包括:

过滤单元,用于过滤所述用户数据中的不规则数据,所述不规则数据包括空数据或用户访问的URL为非法URL。

一种网络数据推送设备,所述设备应用如所述网络数据挖掘设备获取的每个用户标识所对应的感兴趣类别,包括:

确定单元,用于确定待推送网络数据需要推送的目标类别;

采集单元,用于采集用户数据,所述用户数据中包括用户标识和用户访问的URL;

获取单元,用于根据所述用户标识获取与所述用户标识对应的感兴趣类别;

推送单元,用于当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。

还包括:

预设单元,用于预先设置推送网络数据的推送策略和推送形式;

所述推送单元,具体用于按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。

所述推送单元包括:

URL劫持单元,用于劫持所述用户访问的URL;

返回URL单元,用于将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。

可见,在本发明实施例中,根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的包括用户标识和用户访问的URL的用户数据,判别所述用户访问的URL所属的类别,根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别;当对网络数据进行推送时,就可以根据前述挖掘结果,在确定待推送网络数据需要推送的目标类别后,采集包括用户标识和用户访问的URL的用户数据,根据所述用户标识获取与所述用户标识对应的感兴趣类别,当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。由于本发明实施例预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与所述感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明网络数据挖掘方法的第一实施例流程图;

图2为本发明网络数据挖掘方法的第二实施例流程图;

图3为本发明网络数据推送方法的第一实施例流程图;

图4为本发明网络数据推送方法的第二实施例流程图;

图5为本发明网络数据挖掘设备的实施例框图;

图6为本发明网络数据推送设备的实施例框图。

具体实施方式

本发明实施例提供了一种网络数据挖掘方法、网络数据推送方法及设备。

为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。

参见图1,为本发明网络数据挖掘方法的第一实施例流程图:

步骤101:根据预先设置的数据采集规则,采集网络中与数据采集规则匹配的用户数据,用户数据包括用户标识和用户访问的URL。

其中,用户数据可以具体为用户行为数据;数据采集规则包括:规则特征和规则动作,规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。

其中,用户网络数据中的统计数据包括用户业务使用时长、用户带宽使用情况、用户流量按时间/类别统计等;用户网络数据中的复制数据包括用户访问网络资源的身份信息、URL、访问时间、接入方式等。

具体的,采集网络中符合所述规则特征的用户数据,判断与所述规则特征对应的规则动作类型,如果为统计,则根据所述用户数据获取统计数据,如果为复制,则根据所述用户数据获取复制数据。

步骤102:判别用户访问的URL所属的类别。

具体的,读取所述数据库中的复制数据,根据所述复制数据中用户访问的URL,提取与所述URL对应的网页,根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。

步骤103:根据选择的数据挖掘算法对URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。

参见图2,为本发明网络数据挖掘方法的第二实施例流程图:

步骤201:预先设置数据采集规则,包括规则特征和规则动作。

其中,规则特征描述了采集用户数据应满足的条件,如IP地址特征、端口特征、内容特征等;规则动作描述了对匹配规则特征后的用户数据所实施的操作,如统计、复制等。

步骤202:采集网络中符合规则特征的用户数据。

用户数据采集可以实现于DPI(深度报文检测)设备、网络接入设备或者骨干网络设备。在用户数据采集时可以通过深度内容检测技术对用户身份和用户业务进行识别,以实现对高速链路用户业务数据实施采集。其中,深度内容检测技术可以提供到1至7层的报文内容的深度解析,报文内容包括报文头部和报文的载荷区;高速链路是指1000Mbps、2.5Gbps、10Gbps或更高速率的链路。采集用户数据的设备可采用“串入”或者“并入”方式接入链路,并可以具有自动保护切换的功能。

具体的,采集规则可以用r={Key,Action}来表示,规则特征Key可以是五元组<源IP地址(sip),目的IP地址(dip),源端口(sport),目的端口(dport),协议类型(protocol)>,也可以是报文载荷部分特征;规则动作Action中的统计和复制可以分别用Actions和Actionc表示。例如,对于用户行为网络数据挖掘我们需要提取所有用户访问网络资源的URL,则可以生成规则特征为目的端口为80,载荷域起始为“get”字符串,Actionc为复制的,r={dport=80,payload={0,3,“get”}}。

步骤203:判断与规则特征对应的规则动作类型,若为统计,则执行步骤204;否则执行步骤205。

步骤204:根据用户数据获取包括用户使用网络的时长、用户带宽使用情况、用户流量使用信息等统计数据,执行步骤207。

步骤205:根据所述用户数据获取包括用户标识、用户访问的URL、用户访问URL时长等的复制数据。

对于用户标识,由于用户分为使用固定IP地址的大客户和使用动态IP地址的用户,因此对于大客户可以使用IP地址来唯一标识该用户;对于使用动态IP地址的用户,可以采用用户帐号来唯一标识该用户。

步骤206:过滤复制数据中的不规则数据。

不规则数据包括空数据、异常数据等,比如,用户访问的URL格式是非法的URL(http://sohu.www.com/)。

步骤207:保存根据用户数据获取的统计数据和过滤后的复制数据。

步骤208:读取数据库中的复制数据。

对于数据的保存和读取可以基于现有的任何数据库系统,比如微软的SQLServer 2008 Enterprise系统,或者Integrated Service体系。

步骤209:根据复制数据中用户访问的URL,提取与该URL对应的网页。

对于页面提取,其功能是将URL所对应的网页从远程服务器上抓取下来,可以采用网页爬虫程序实现。

步骤210:根据提取的网页的内容对该网页进行分类,获取用户访问的URL所属的类别。

URL的分类可以采用基于语义的分类算法和基于关键词的分类算法,对于基于关键词的分类算法主要包括训练和分类两个过程,训练过程是针对分类模型进行参数选取等方面的配置,分类是根据训练结果进行分类,与现有技术一致,在此不再赘述。

步骤211:根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别。

其中,挖掘算法包括现有常用的分类/预测、关联、聚类等数据挖掘算法。

在实施数据挖掘之前,可以选取数据挖掘算法、设置用户访问URL的分类粒度、用户数据的时间区间选取、用户行为挖掘的具体内容等。

其中,用户访问URL分类粒度是指URL类别划分的数目,URL的划分力度支持大类分类,如财经、体育、娱乐等;同时支持大类下小类分类,如体育又可进一步划分为足球、篮球、排球等若干小类;用户数据的时间区间选取是指用户网络行为数据的时间粒度属性,比如是按日,按月,按季度,还是按年进行挖掘;用户行为挖掘具体内容包括用户业务使用偏好、用户上网习惯、用户喜好、用户流量使用、用户资费类型分析等。

通过对用户数据的挖掘最终获得的挖掘结果可以是用户标识与感兴趣类别的对应关系,即通过挖掘获取了每个用户感兴趣的网络数据的类别,比如用户A对财经类内容和体育类内容感兴趣,由此对后续网络数据的推送提供基础。

与本发明网络数据挖掘方法的实施例相对应,本发明还提供了应用网络数据挖掘方法获取的每个用户标识所对应的感兴趣类别进行网络数据推送的方法的实施例。

参见图3,为本发明网络数据推送方法的第一实施例流程图:

步骤301:确定待推送网络数据需要推送的目标类别。

步骤302:采集用户数据,该用户数据中包括用户标识和用户访问的URL。

步骤303:根据用户标识获取与用户标识对应的感兴趣类别。

步骤304:当感兴趣类别中包含该目标类别,且用户访问的URL属于该目标类别时,将待推送网络数据推送给用户。

具体的,劫持所述用户访问的URL,将用户访问的URL和包含待推送网络数据的URL返回至用户浏览器,用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。

参见图4,为本发明网络数据推送方法的第二实施例流程图:

步骤401:预先设置推送网络数据的推送策略和推送形式。

网络数据推送支持多种推送策略和推送形式。推送策略包括定向推送、定时推送和定组推送等;推送形式是指在HTTP页面中嵌入网络数据、在邮件中嵌入网络数据等。

推送策略也可以根据是用户提出的推送申请进行推送,推送申请可以包括上述推送时段、区域、时长等信息。

以网络数据为广告为例,推送策略可以包括定时推送一次广告、定期多次推送广告,推送形式包括以静态图像文件推送广告、动态图像文件推送广告、Flash文件推送广告、视频文件推送广告等。比如,用户需要在18:00至22:00点时段内,当用户浏览网页时弹出汽车广告,推送策略就可以设置定期多次推送该汽车广告,采用动态图像形式文件推送该汽车广告。

步骤402:确定待推送网络数据需要推送的目标类别。

步骤403:采集用户数据,该用户数据中包括用户标识和用户访问的URL。

步骤404:根据用户标识获取与用户标识对应的感兴趣类别。

步骤405:判断该感兴趣类别中是否包含目标类别,若是,则执行步骤406;否则,结束当前流程。

步骤406:判断用户访问的URL是否属于该目标类别,若是,则执行步骤407;否则,结束当前流程。

步骤407:劫持用户访问的URL,将用户访问的URL和包含待推送网络数据的URL返回至用户浏览器。

步骤408:用户浏览器通过对用户访问的URL和包含待推送网络数据的URL进行重新解析,得到包含待推送网络数据的网页,结束当前流程。

上述数据挖掘方法实施例和数据推送方法实施例可以部署于高速接入网或骨干网中,应用上述方法可以通过对用户行为数据的挖掘,根据用户的感兴趣类别,以实现向特定用户推送诸如广告等网络数据,由此提高网络带宽的精细化运营。

与本发明网络数据挖掘方法和网络数据推送方法的实施例相对应,本发明还提供了网络数据挖掘设备和网络数据推送设备的实施例。

参见图5,为本发明网络数据挖掘设备的实施例框图。

该网络数据挖掘设备包括:采集单元510、判别单元520、挖掘单元530和获取单元540。

其中,采集单元510用于根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的用户数据,所述用户数据包括用户标识和用户访问的URL;

判别单元520用于判别所述用户访问的URL所属的类别;

挖掘单元530用于根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘;

获取单元540用于根据所述挖掘单元的挖掘结果获取每个用户标识所对应的感兴趣类别。

其中,数据采集规则可以包括:规则特征和规则动作,所述规则动作用于指示符合所述规则特征的用户数据应执行的操作,包括:统计或复制。

进一步,该网络数据挖掘设备还可以包括(图5中未示出):保存单元,用于保存所述统计数据和复制数据到数据库。判别单元520可以包括(图5中未示出):读取数据单元,用于读取所述数据库中的复制数据;提取网页单元,用于根据所述复制数据中用户访问的URL,提取与所述URL对应的网页;获取类别单元,用于根据所述提取的网页的内容对所述网页进行分类,获取用户访问的URL所属的类别。

进一步,该网络数据挖掘设备还可以包括(图5中未示出):过滤单元,用于过滤所述用户数据中的不规则数据,所述不规则数据包括空数据或用户访问的URL为非法URL。

参见图6,为本发明网络数据推送设备的实施例框图。

该网络数据推送设备包括:确定单元610、采集单元620、获取单元630和推送单元640。

其中,确定单元610用于确定待推送网络数据需要推送的目标类别;

采集单元620用于采集用户数据,所述用户数据中包括用户标识和用户访问的URL;

获取单元630用于根据所述用户标识获取与所述用户标识对应的感兴趣类别;

推送单元640用于当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。

进一步,该网络数据推送设备还可以包括(图6中未示出):预设单元,用于预先设置推送网络数据的推送策略和推送形式;所述推送单元640具体用于按照所述推送策略和推送形式将所述待推送网络数据推送到所述用户访问的URL对应的网页内。

具体的,推送单元640可以包括(图6中未示出):URL劫持单元,用于劫持所述用户访问的URL;返回URL单元,用于将所述用户访问的URL和包含所述待推送网络数据的URL返回至用户浏览器,所述用户浏览器通过对所述用户访问的URL和所述包含待推送网络数据的URL进行重新解析,得到包含所述待推送网络数据的网页。

通过以上的实施方式的描述可知,本发明实施例中根据预先设置的数据采集规则,采集网络中与所述数据采集规则匹配的包括用户标识和用户访问的URL的用户数据,判别所述用户访问的URL所属的类别,根据选择的数据挖掘算法对所述URL所属的类别进行数据挖掘,获取每个用户标识所对应的感兴趣类别;当对网络数据进行推送时,就可以根据前述挖掘结果,在确定待推送网络数据需要推送的目标类别后,采集包括用户标识和用户访问的URL的用户数据,根据所述用户标识获取与所述用户标识对应的感兴趣类别,当所述感兴趣类别中包含所述目标类别,且所述用户访问的URL属于所述目标类别时,将所述待推送网络数据推送给所述用户。由于本发明实施例预先通过对用户数据的挖掘获取了用户感兴趣的类别,因此当用户访问网页属于其感兴趣类别时,可以有针对性地将与所述感兴趣的类别一致的网络数据推送给用户页面,由于不再采用广而告之的方式推送网络数据,因此提高了推送的针对性,降低了对网络带宽的占用,同时提高了用户的访问体验。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号