首页> 中国专利> 识别杂货铺的方法、装置及搜索店铺的方法、系统

识别杂货铺的方法、装置及搜索店铺的方法、系统

摘要

本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。其中一种识别杂货铺的方法包括:获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

著录项

  • 公开/公告号CN103942693A

    专利类型发明专利

  • 公开/公告日2014-07-23

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201310019559.4

  • 发明设计人 宋超;冯景华;张一楠;陈超;

    申请日2013-01-18

  • 分类号G06Q30/00;

  • 代理机构北京润泽恒知识产权代理有限公司;

  • 代理人苏培华

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-12-17 01:00:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-14

    授权

    授权

  • 2014-08-20

    实质审查的生效 IPC(主分类):G06Q30/00 申请日:20130118

    实质审查的生效

  • 2014-07-23

    公开

    公开

说明书

技术领域

本申请涉及搜索技术,特别是涉及一种识别杂货铺的方法、装置及搜索 店铺的方法、系统。

背景技术

目前电子商务网站(简称电商网站)提供了便利的产品信息以及供应商 获取途径,但是这些电商网站提供的供应商实力良莠不齐,用户无法快速从 海量的信息中找到有实力、专业性强的供应商。而这类专业性强的供应商往 往经营领域比较集中,专注于做某个特定领域的产品,而不是从事多个领域、 每个领域做的都不够专业的杂货铺。因此,需要将这些从事多个领域、不够 专业的杂货铺从大量的店铺信息中识别出来,以提高搜索准确率。

电子商务网站发布的产品信息中包含产品所属的类目,现有的杂货铺识 别方法是直接统计电子商务网站发布的类目信息,以类目代表行业,根据每 个行业的占比识别出杂货铺。

但是,如果发布的产品信息没有填写准确的类目,或者进行类目作弊, 例如:在发布的时候将店铺中涉及多个行业的产品类目全部设置为某个行 业,上述识别方法将不能准确识别出杂货铺店铺。

发明内容

本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的 目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。

相应的,本申请还提供了一种搜索店铺的方法及系统,在搜索的时候降 低杂货铺的排序,从而提高搜索准确率。

为了解决上述问题,本申请公开了一种识别杂货铺的方法,包括:

获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的 核心产品词;

统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的 频率,作为核心产品词对应的产品词频率;

识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核 心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率, 作为行业频率;

根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依 据各个行业的产品占比判定所述指定店铺是否为杂货铺。

可选地,所述从所述产品信息中提取出所述指定店铺的核心产品词,包 括:

从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;

将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所 述指定店铺的核心产品词。

可选地,所述识别所述指定店铺的核心产品词所属的行业包括:

统计核心产品词的行业点击率;

将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所 述核心产品词的行业点击率是否达到行业阈值;

若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属 于该行业。

可选地,所述根据属于同一行业的核心产品词对应的产品词频率,计算 所述行业在所述指定店铺中出现的频率,包括:

将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该 行业在所述指定店铺中出现的频率。

可选地,所述根据所述行业频率计算所述指定店铺所属的各个行业的产 品占比包括:

将所述行业的行业频率相加作为行业总频率;

将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的 产品占比。

可选地,所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺 包括:

当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货 铺。

本申请还公开了一种搜索店铺的方法,包括:

接收搜索关键词;

查找与所述搜索关键词相匹配的店铺,得到候选店铺;

将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候 选店铺之后并输出;

所述杂货铺通过以下步骤识别:

将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产 品信息中提取出所述指定店铺的核心产品词;

统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的 频率,作为核心产品词对应的产品词频率;

识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核 心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率, 作为行业频率;

根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依 据各个行业的产品占比判定所述指定店铺是否为杂货铺。

本申请还公开了一种识别杂货铺的装置,包括:

提取模块,用于获取指定店铺的产品信息,并从所述产品信息中提取出 所述指定店铺的核心产品词;

产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定 店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;

行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业, 并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述 指定店铺中出现的频率,作为行业频率;

判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的 产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

可选地,所述提取模块包括:

提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切 词,得到切词结果;

匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的 核心产品词作为所述指定店铺的核心产品词。

可选地,所述行业频率计算模块包括:

行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产 品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行 业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈 值,则判定该核心产品词属于该行业;

计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率 进行加和,作为该行业在所述指定店铺中出现的频率。

可选地,所述判定模块包括:

产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频 率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业 的产品占比;

判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判 定该店铺为杂货铺。

本申请还公开了一种搜索店铺的系统,包括:

接收模块,用于接收搜索关键词;

查找模块,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;

排序模块,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别 为杂货铺的候选店铺之后并输出;

所述杂货铺通过以下模块识别:

提取模块,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信 息,并从所述产品信息中提取出所述指定店铺的核心产品词;

产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定 店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;

行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业, 并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述 指定店铺中出现的频率,作为行业频率;

判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的 产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

与现有技术相比,本申请包括以下优点:

本申请实施例提供的识别杂货铺的方法,首先从指定店铺的产品信息中 提取出核心产品词,其次,统计核心产品词在指定店铺中的产品词频率,并 基于用户的搜索点击行为挖掘出核心产品词对应的行业;最后,根据行业频 率计算指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判 定所述指定店铺是否为杂货铺。由于本申请实施例是根据从产品信息中提取 到的核心产品词识别出产品分布,再根据产品分布识别出所属的行业,而不 是直接使用用户填写的行业信息,因此可以避免卖家行业分布信息填写不准 确或类目作弊导致的杂货铺识别不准确的问题,提高了识别杂货铺的准确 率。

本申请实施例提供的搜索店铺的方法,可以在搜索的时候将这些从事多 个领域,不够专业的杂货铺从大量的店铺中识别出来,并降低其排序,从而 提高搜索的准确率。

当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优 点。

附图说明

图1是本申请实施例所述一种识别杂货铺的方法的流程图;

图2是本申请实施例所述指定店铺的产品信息示意图;

图3是本申请实施例所述指定店铺的一条产品信息示意图;

图4是本申请实施例所述一种识别杂货铺的装置的结构框图;

图5是本申请实施例所述一种搜索店铺的方法的流程图;

图6是本申请实施例所述一种搜索店铺的系统的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。

杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本申请就 是将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来。

本申请是从卖家发布的产品信息的标题或其他商品描述信息中挖掘出 核心产品词,并且基于用户的搜索点击行为挖掘出核心产品词对应的行业, 最后统计行业的分布,根据行业分布识别出杂货铺。下面通过实施例进行详 细说明。

参照图1,其示出了本申请实施例所述一种识别杂货铺的方法的流程图, 本实施例具体可以包括以下步骤:

步骤100,获取指定店铺的产品信息,并从所述产品信息中提取出所述 指定店铺的核心产品词;

指定店铺是指本次要识别的某个店铺,没有特别指定,可以理解为是泛 指某个待识别的店铺。

如图2所示是一家指定店铺的产品信息示意图,店铺的每条产品信息通 常包含标题、属性、类目、价格、图片、详情页面的描述信息等几个部分, 产品信息是由店铺的卖家自行填写的。

下面以图3所示的该指定店铺的一条产品信息为例进行说明。在图3所 示的产品信息中,“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”是标题, ¥25是价格。行业信息没有展现出来,是用户从类目体系中选择的,例如图 3的产品信息用户会指定到“毛衣”类目,属于“女装”行业。类目是一整 个体系:例如“服装”下面有“女装”、“男装”、“童装”等类目,而“女装” 类目下面又有“连衣裙”、“毛衣”、“牛仔裤”、“T恤”、“羽绒服”、“皮衣” 等类目。

本实施例中可以采用以下方式从所述产品信息中提取出所述指定店铺 的核心产品词:

首先,从所述产品信息中提取出标题,并对所述标题进行切词,得到切 词结果;

所谓切词,是指将一个汉字序列切分成一个一个单独的词。例如,从图 3所示的产品信息中提取出标题“新中长款 大码 毛衣 女装 宽松 休闲 蝙 蝠..”,然后对标题进行切词,结果为“新中长款、大码、毛衣、女装、宽松、 休闲、蝙蝠”。

其次,将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词 作为所述指定店铺的核心产品词。

核心产品词表记录了能够标识产品的词,可以通过训练模型获得,也可 以通过经验人工标注。例如,“连衣裙”、“起重机”、“玩具”等能够标识产 品的词都位于核心产品词表中,而“女式连衣裙”中的“女式”为产品修饰 词,并不在核心产品词表中。

将上述切词结果中的词与核心产品词表进行匹配,在核心产品词表中出 现的词作为核心产品词。例如,上述切词结果中出现在核心产品词表中的词 为“毛衣”,即图3所示的产品信息中,核心产品词为“毛衣”。

同理,可以从图2所示的指定店铺的产品信息中,取到核心产品词“毛 衣”、“针织衫”、“蝙蝠衫”、“收纳盒”、“挂袋”。

需要说明的是,本申请也可以采用其他的核心产品词提取方式,本申请 的保护范围不应限定于上述实施例。

步骤102,统计所述指定店铺的核心产品词在所述指定店铺的产品信息 中出现的频率,作为核心产品词对应的产品词频率;

例如,在图2所示的指定店铺中,核心产品词“毛衣”出现了4次,所 以该核心产品词“毛衣”对应的产品词频率为4。同理,核心产品词“针织 衫”对应的产品词频率为3,核心产品词“蝙蝠衫”对应的产品词频率为1, 核心产品词“收纳盒”对应的产品词频率为3,核心产品词“挂袋”对应的 产品词频率为1。如表1所示:

核心产品词 频率 毛衣 4 针织衫 3 蝙蝠衫 1 收纳盒 3 挂袋 1

表1,指定店铺中各核心产品词对应的产品词频率

步骤104,识别所述指定店铺的核心产品词所属的行业,并根据属于同 一行业的核心产品词对应的产品词频率,计算各行业在所述指定店铺中出现 的频率,作为行业频率;

每个核心产品词都有其对应的行业,例如,核心产品词“连衣裙”对应 的行业是“女装”,核心产品词“橘子”对应的行业是“水果”。

在本实施例中识别所述指定店铺的核心产品词所属的行业具体可以通 过以下方式实现,当然,本申请的保护范围不限定于此识别方式:

首先,统计核心产品词的行业点击率;

所述行业点击率是通过统计用户搜索该核心产品词时点击的行业来识 别的。例如,用户在搜索“毛衣”时,搜索引擎根据用户的搜索词,返回到 产品的搜索列表,用户在搜索列表中选择相关的产品,点击进入详情页面。 在这个过程中大部分用户点击的产品都属于“服装”行业,因此可以通过统 计大规模的用户点击行为,来得到行业点击率。

其次,将所述核心产品词的行业点击率与各行业的行业阈值进行匹配, 判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的 行业点击率达到行业阈值,则判定该核心产品词属于该行业。

每个行业都有其对应的行业阈值,当核心产品词的行业点击率达到行业 阈值的时候,判定该核心产品词属于该行业,当所述核心产品词的行业点击 率未达到行业阈值,则判定该核心产品词不属于该行业,作为噪音进行去除。 例如,“服装”行业的行业阈值为0.2,用户在搜索“服装”的时的点击记录 如下:连衣裙100词,毛衣80次,羽绒服50次、童裙3次,则核心产品词 “连衣裙”的行业点击率为0.4292(100/(100+80+50+3)=0.4292),核心产 品词“毛衣”的行业点击率为0.3433(80/(100+80+50+3)=0.4292),核心 产品词“羽绒服”的行业点击率为0.2146(50/(100+80+50+3)=0.4292), 核心产品词“挂袋”的行业点击率为0.0129(3/(100+80+50+3)=0.4292)。 核心产品词“连衣裙”、“毛衣”和“羽绒服”的行业点击率都大于或等于“服 装”行业的行业阈值为0.2,因此“连衣裙”、“毛衣”和“羽绒服”都属于 “服装”行业,而“挂袋”的行业点击率小于“服装”行业的行业阈值为0.2, 因此“挂袋”并不属于“服装”行业,应作为点击噪音去除掉。

同理,采用上述识别方法,可以得知图2所示的指定店铺中,核心产品 词“毛衣”、“针织衫”和“蝙蝠衫”都属于“服装”行业,核心产品词“收 纳盒”和“挂袋”属于“家居用品”行业。

在本实施例中可以将所述属于同一行业的核心产品词对应的产品词频 率进行加和,作为该行业在所述指定店铺中出现的频率。

具体地,可以将属于同一行业的核心产品词对应的产品词频率相加,结 果作为该行业在所示指定店铺中出现的频率,例如图2所示的指定店铺中, 将属于同一行业“服装”的核心产品词“毛衣”对应的产品词频率4、核心 产品词“针织衫”对应的产品词频率3和核心产品词“蝙蝠衫”对应的产品 词频率1相加,结果8作为“服装”行业在指定店铺中出现的频率,即在指 定店铺中“服装”行业的行业频率为8。同理,可以计算得到指定店铺中“家 居用品”的行业频率为4(3+1=4),如表2所示:

行业 频率 服装 8 家居用品 4

表2,指定店铺中各行业的行业频率

需要说明的是,本实施例是以简单的相加求和为例进行说明的,实际应 用时也可以采用其他方式如加权求和的方式来实现,将属于同一行业的核心 产品词对应的产品词频率进行加权以后求和,作为该行业的行业频率。

步骤106,根据所述行业频率计算所述指定店铺所属的各个行业的产品 占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

本实施例中可以采用以下公式计算各个行业的产品占比:

Ratioi=tfiΣi=1ntfi

其中,Ratioi表示产品占比;fi表示某一行业在指定店铺中出现的频率, 即行业频率;表示指定店铺所属的所有行业的行业频率之和,即下文所 说的行业总频率。

本实施例中根据所述行业频率计算所述指定店铺所属的各个行业的产 品占比具体可以通过以下方式实现:

首先,将所述行业的行业频率相加作为行业总频率;

例如,将表2所示的服装行业的行业频率8和家居用品的行业频率4相 加,结果12作为行业总频率。

其次,将所述行业的行业频率与所述行业总频率相除,相除的商作为该 行业的产品占比。

例如,将服装行业的行业频率8与行业总频率12相除,相除的商0.67 (8/12=0.67)作为服装行业的产品占比;将家居用品行业的行业频率4与行 业总频率12相除,相除的商4(4/12=0.33)作为服装行业的产品占比。

本实施例中所述依据各个行业的产品占比判定所述指定店铺是否为杂 货铺包括:当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为 杂货铺。

例如,在本实施例中,阈值设为20%,在图2所示的指定店铺中,服装 行业的产品占比为0.67,即67%,已经超过上述设定的阈值20%;家居用品 行业的产品占比为0.33,即33%,同样超过上述设定的阈值20%,显然图2 所示的指定店铺中,有两个行业的产品占比都超过了预设的阈值,因此判定 图2所示指定店铺为杂货铺。

综上所述,本申请实施例首先从指定店铺的产品信息中提取出核心产品 词,其次,统计核心产品词在指定店铺中的产品词频率,并基于用户的搜索 点击行为挖掘出核心产品词对应的行业;最后,根据行业频率计算指定店铺 所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺 是否为杂货铺。由于本申请实施例是根据从产品信息中提取到的核心产品词 识别出产品分布,再根据产品分布识别出所属的行业,而不是直接使用用户 填写的行业信息,可以避免卖家行业分布信息填写不准确或类目作弊导致的 杂货铺识别不准确的问题,提高了识别杂货铺的准确率。

基于上述识别杂货铺的方法的实施例的描述,本申请提供了相应的识别 杂货铺的装置实施例,具体如下:

参照图4,其示出了本申请实施例所述一种识别杂货铺的装置的结构框 图,本实施例具体可以包括以下模块:提取模块10、产品词频率计算模块 12、行业频率计算模块14和判定模块16,其中:

提取模块10,用于获取指定店铺的产品信息,并从所述产品信息中提取 出所述指定店铺的核心产品词;

本实施例中提取模块10具体可以包括以下子模块:

提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切 词,得到切词结果;

以图3所示的该指定店铺的一条产品信息为例进行说明,在图3所示的 产品信息中,“新中长款 大码 毛衣 女装 宽松 休闲 蝙蝠..”是标题。

所谓切词,是指将一个汉字序列切分成一个一个单独的词。例如,从图 3所示的产品信息中提取出标题“新中长款 大码 毛衣 女装 宽松 休闲 蝙 蝠..”,然后对标题进行切词,结果为“新中长款、大码、毛衣、女装、宽松、 休闲、蝙蝠”。

匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的 核心产品词作为所述指定店铺的核心产品词。

核心产品词表记录了能够标识产品的词,可以通过经验人工标注。例如, “连衣裙”、“起重机”、“玩具”等能够标识产品的词都位于核心产品词表中, 而“女式连衣裙”中的“女式”为产品修饰词,并不在核心产品词表中。

将上述切词结果中的词与核心产品词表进行匹配,在核心产品词表中出 现的词作为核心产品词,上述切词结果中出现在和核心产品词表中的词为 “毛衣”,即图3所示的产品信息中,核心产品词为“毛衣”。

同理,匹配子模块可以从图2所示的指定店铺的产品信息中,取到核心 产品词“毛衣”、“针织衫”、“蝙蝠衫”、“收纳盒”、“挂袋”。

产品词频率计算模块12,用于统计所述指定店铺的核心产品词在所述指 定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;

例如,在图2所示的指定店铺中,核心产品词“毛衣”出现了4次,所 以产品词频率计算模块12计算得到该核心产品词“毛衣”对应的产品词频 率为4。同理,产品词频率计算模块12计算得到核心产品词“针织衫”对应 的产品词频率为3,核心产品词“蝙蝠衫”对应的产品词频率为1,核心产 品词“收纳盒”对应的产品词频率为3,核心产品词“挂袋”对应的产品词 频率为1。

行业频率计算模块14,用于识别所述指定店铺的核心产品词所属的行 业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在 所述指定店铺中出现的频率,作为行业频率;

每个核心产品词都有其对应的行业,例如,核心产品词“连衣裙”对应 的行业是“女装”,核心产品词“橘子”对应的行业是“水果”。

本实施例中行业频率计算模块14具体可以包括以下子模块:

行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产 品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行 业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈 值,则判定该核心产品词属于该行业;

所述行业点击率是通过统计用户搜索该核心产品词时点击的行业来识 别的。例如,用户在搜索“毛衣”时,搜索引擎根据用户的搜索词,返回到 产品的搜索列表,用户在搜索列表中选择相关的产品,点击进入详情页面。 在这个过程中大部分用户点击的产品都属于“服装”行业,因此可以通过统 计大规模的用户点击行为,来得到行业点击率。

每个行业都有其对应的行业阈值,当核心产品词的行业点击率达到行业 阈值的时候,判定该核心产品词属于该行业,当所述核心产品词的行业点击 率未达到行业阈值,则判定该核心产品词不属于该行业,作为噪音进行去除。 例如,“服装”行业的行业阈值为0.2,用户在搜索“服装”的时的点击记录 如下:连衣裙100词,毛衣80次,羽绒服50次、童裙3次,则核心产品词 “连衣裙”的行业点击率为0.4292(100/(100+80+50+3)=0.4292),核心产 品词“毛衣”的行业点击率为0.3433,核心产品词“羽绒服”的行业点击率 为0.2146,核心产品词“挂袋”的行业点击率为0.0129。核心产品词“连衣 裙”、“毛衣”和“羽绒服”的行业点击率都大于或等于“服装”行业的行业 阈值为0.2,因此“连衣裙”、“毛衣”和“羽绒服”都属于“服装”行业, 而“挂袋”的行业点击率小于“服装”行业的行业阈值为0.2,因此“挂袋” 并不属于“服装”行业,应作为点击噪音去除掉。

同理,采用上述识别方法,可以得知图2所示的指定店铺中,核心产品 词“毛衣”、“针织衫”和“蝙蝠衫”都属于“服装”行业,核心产品词“收 纳盒”和“挂袋”属于“家居用品”行业。

计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率 进行加和,作为该行业在所述指定店铺中出现的频率。

在本实施例中可以将所述属于同一行业的核心产品词对应的产品词频 率进行加和,作为该行业在所述指定店铺中出现的频率。

具体地,计算子模块可以将属于同一行业的核心产品词对应的产品词频 率相加,结果作为该行业在所示指定店铺中出现的频率,例如图2所示的指 定店铺中,将属于同一行业“服装”的核心产品词“毛衣”对应的产品词频 率4、核心产品词“针织衫”对应的产品词频率3和核心产品词“蝙蝠衫” 对应的产品词频率1相加,结果8作为“服装”行业在指定店铺中出现的频 率,即在指定店铺中“服装”行业的行业频率为8。同理,可以计算得到指 定店铺中“家居用品”的行业频率为4(3+1=4)。

需要说明的是,本实施例是以简单的相加求和为例进行说明的,实际应 用时计算子模块也可以采用加权求和的方式来实现,将属于同一行业的核心 产品词对应的产品词频率进行加权以后求和,作为该行业的行业频率。

判定模块16,用于根据所述行业频率计算所述指定店铺所属的各个行业 的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

本实施例中判定模块16具体可以包括以下子模块:

产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频 率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业 的产品占比;

例如,产品占比计算子模块将表2所示的服装行业的行业频率8和家居 用品的行业频率4相加,结果12作为行业总频率。然后,产品占比计算子 模块将服装行业的行业频率8与行业总频率12相除,相除的商0.67 (8/12=0.67)作为服装行业的产品占比;将家居用品行业的行业频率4与行 业总频率12相除,相除的商4(4/12=0.33)作为服装行业的产品占比。

判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判 定该店铺为杂货铺。

例如,在本实施例中,阈值设为20%,在图2所示的指定店铺中,服装 行业的产品占比为0.67,即67%,已经超过上述设定的阈值20%;家居用品 行业的产品占比为0.33,即33%,同样超过上述设定的阈值20%,显然图2 所示的指定店铺中,有两个行业的产品占比都超过了预设的阈值,因此判定 子模块判定图2所示指定店铺为杂货铺。

本申请实施例中提取模块10从指定店铺的产品信息中提取出核心产品 词,然后产品词频率计算模块12统计核心产品词在指定店铺中的产品词频 率,行业频率计算模块14基于用户的搜索点击行为挖掘出核心产品词对应 的行业;判定模块16根据行业频率计算指定店铺所属的各个行业的产品占 比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。由于本申 请实施例是根据从产品信息中提取到的核心产品词识别出产品分布,再根据 产品分布识别出所属的行业,而不是直接使用用户填写的行业信息,可以避 免卖家行业分布信息填写不准确或类目作弊导致的杂货铺识别不准确的问 题,提高了识别杂货铺的准确率。

对于上述识别杂货铺的装置实施例而言,由于其与方法实施例基本相 似,所以描述的比较简单,相关之处参见图1所示识别杂货铺的方法实施例 的部分说明即可。

基于上述识别杂货铺的方法的实施例的描述,本申请提供了相应的搜索 店铺的方法实施例,可以在搜索的时候降低杂货铺的排序,从而提高搜索准 确率,具体如下:

参照图5,其示出了本申请实施例所述一种搜索店铺的方法的流程图, 本实施例具体可以包括以下步骤:

步骤200,接收搜索关键词;

搜索关键词是指买家在搜索店铺的时候输入的关键词,例如,女装。

步骤202,查找与所述搜索关键词相匹配的店铺,得到候选店铺;

候选店铺中包含与搜索关键词相关的产品,例如搜索关键词为女装,与 女装相关的产品有连衣裙、女式毛衣和女式羽绒服等,如果一家店铺中包含 连衣裙、女式毛衣或女式羽绒服等产品,则该店铺为候选店铺。

步骤204,将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂 货铺的候选店铺之后并输出;

杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本实施例 需要在搜索的时候将这些从事多个领域,不够专业的杂货铺从大量的店铺中 识别出来,并降低其排序,从而提高搜索的准确率。

本实施例中所述杂货铺具体可以通过以下步骤识别:

步骤100,将所述候选店铺作为指定店铺,获取指定店铺的产品信息, 并从所述产品信息中提取出所述指定店铺的核心产品词;

步骤102,统计所述指定店铺的核心产品词在所述指定店铺的产品信息 中出现的频率,作为核心产品词对应的产品词频率;

步骤104,识别所述指定店铺的核心产品词所属的行业,并根据属于同 一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出 现的频率,作为行业频率;

步骤106,根据所述行业频率计算所述指定店铺所属的各个行业的产品 占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

对于上述识别杂货铺的步骤而言,由于在识别杂货铺的方法实施例中已 经进行了详细的描述,相关之处参见图1所示的识别杂货铺的方法实施例的 说明即可,本实施例在此不做赘述。

基于上述搜索店铺的方法实施例的描述,本申请提供了相应的搜索店铺 的系统实施例,具体如下:

参照图6,其示出了本申请实施例所述一种搜索店铺的系统的结构框图, 本实施例具体可以包括以下模块:

接收模块20,用于接收搜索关键词;

查找模块22,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;

排序模块24,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识 别为杂货铺的候选店铺之后并输出;

本实施例中所述杂货铺具体可以通过以下模块识别:

提取模块10,用于将所述候选店铺作为指定店铺,获取指定店铺的产品 信息,并从所述产品信息中提取出所述指定店铺的核心产品词;

产品词频率计算模块12,用于统计所述指定店铺的核心产品词在所述指 定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;

行业频率计算模块14,用于识别所述指定店铺的核心产品词所属的行 业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在 所述指定店铺中出现的频率,作为行业频率;

判定模块16,用于根据所述行业频率计算所述指定店铺所属的各个行业 的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。

对于上述识别杂货铺的模块而言,由于在识别杂货铺的装置实施例中已 经进行了详细的描述,相关之处参见图4所示的识别杂货铺的装置实施例的 说明即可,本实施例在此不做赘述。

杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本实施例 提供的搜索店铺的系统,可以在搜索的时候将这些从事多个领域,不够专业 的杂货铺从大量的店铺中识别出来,并降低其排序,从而提高搜索的准确率。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。

本领域技术人员易于想到的是:上述各个实施例的任意组合应用都 是可行的,故上述各个实施例之间的任意组合都是本申请的实施方案, 但是由于篇幅限制,本说明书在此就不一一详述了。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或 计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定 的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储 器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的 步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了 基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权 利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上对本申请所提供的一种识别杂货铺的方法、装置及搜索店铺的方 法、系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施 方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核 心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实 施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为 对本申请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号