首页> 中国专利> 一种分组名分类方法及装置

一种分组名分类方法及装置

摘要

本申请公开了一种分组名分类方法,用于解决根据现有技术中的分组方式可能导致向用户推荐的信息不准确的问题。主要包括:获取待分类分组名;根据待分类分组名表示的分组所包含的关注对象的特征,确定待分类分组名的特征值;根据待分类分组名的特征值,对待分类分组名进行分类。还公开了一种分组名分类装置。

著录项

  • 公开/公告号CN104462448A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 微梦创科网络科技(中国)有限公司;

    申请/专利号CN201410779559.9

  • 发明设计人 李金奎;

    申请日2014-12-15

  • 分类号G06F17/30;

  • 代理机构北京国昊天诚知识产权代理有限公司;

  • 代理人许志勇

  • 地址 100080 北京市海淀区彩和坊路6号7-10层

  • 入库时间 2023-12-18 08:05:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-12

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141215

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本申请涉及计算机技术领域,尤其涉及一种分组名分类方法及装置。

背景技术

分组名,一般是指:社交网络中的用户按照自己与关注对象的关系,或按 照自己对关注对象产生兴趣的原因,将关注对象划分到不同分组后,为分组取 的名称。由于分组名往往可以体现用户个人的兴趣爱好和社交关系,因此分组 名一般可以分为两个类别,分别为“关系类别”和“兴趣类别”,这两个类别中的 分组名分别为与用户的社交关系有关的分组名,以及与用户的兴趣爱好有关的 分组名。

现有技术中,为了向用户推荐与用户的兴趣爱好有关的信息或与用户的社 交关系有关的信息,首先要按分组名语义,确定用户在社交网络上设置的分组 名所属类别,进而根据该类别,向用户推荐相关信息。该方式存在的缺陷在于: 例如针对分组名为“同事”的分组而言,若该分组中的关注对象都是影视明星, 那么如果仅凭语义解析,可能会将“同事”这个分组名直接划分到关系类别中, 从而导致根据该类别向用户推荐的信息不准确。

发明内容

本申请实施例提供一种分组名分类方法,用以解决根据现有技术中的分组 方式可能导致向用户推荐的信息不准确的问题。

本申请实施例还提供一种分组名分类装置,用以解决根据现有技术中的分 组方式可能导致向用户推荐的信息不准确的问题。

本申请实施例采用下述技术方案:

一种分组名分类方法,主要包括:

获取待分类分组名;

根据所述待分类分组名表示的分组所包含的关注对象的特征,确定所述待 分类分组名的特征值;

根据所述待分类分组名的特征值,对所述待分类分组名进行分类。

一种分组名分类装置,包括:

获取单元,用于获取待分类分组名;

确定单元,用于根据所述待分类分组名表示的分组所包含的关注对象的特 征,确定所述待分类分组名的特征值;

分类单元,用于根据所述待分类分组名的特征值,对所述待分类分组名进 行分类。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

由于是根据待分类分组名表示的分组所包含的关注对象的特征,确定待分 类分组名的特征值,并该特征值对待分类分组名进行分类,从而使得分类结果 与分组所包含的关注对象的特征相匹配,解决了现有技术中凭语义确定待分类 分组名所属类别,会导致向用户推荐的信息不准确的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不 当限定。在附图中:

图1为本申请实施例提供的一种分组名分类方法的流程图;

图2为本申请实施例提供的利用决策树模型对待分类分组名进行分类的方 法流程图;

图3为本申请实施例提供的一种分组名分类装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实 施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的 实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本申请保护的范围。

以下结合附图,详细说明本申请各实施例提供的技术方案。

实施例1

为了解决根据现有技术中的分组方式可能导致向用户推荐的信息不准确 的问题,本申请提出一种分组名分类方法,该方法的实现流程图如图1所示, 主要包括下述步骤:

步骤11、获取待分类分组名;

步骤12、根据待分类分组名表示的分组所包含的关注对象的特征,确定待 分类分组名的特征值;

步骤13、根据待分类分组名的特征值,对待分类分组名进行分类。

采用本申请实施例提供的上述方法,由于是根据获取到待分类分组名表示 的分组所包含的关注对象的特征,确定出待分类分组名的特征值;进而根据该 分组名的特征值对待分类分组名进行分类,从而使得分类结果与分组所包含的 关注对象的特征相匹配,解决了现有技术中凭语义确定待分类分组名所属类 别,会导致向用户推荐的信息不准确的问题。

以下对本申请实施例一些可选的实施方式进行详细说明。

在一种实施方式中,为了避免受不规范字符的干扰,在步骤12之前,可 以将获取的待分类分组名进行预处理。

具体而言,可以获取待分类分组名的被用户所使用的频次;然后,提取被 用户所使用频次大于预设频次的待分类分组名;最后,将提取的待分类分组名 进行格式归一化。其中,格式归一化,可以是将繁体字转化为简体字、去除标 点符号和/或大写字符转换为小写字符等。

在一种实施方式中,可以通过下述步骤A1-步骤A2实现步骤12:

步骤A1、确定具备待分类分组名的至少一个分组对应的关联程度值作为 关注对象的特征;

步骤A2、根据关联程度值,确定出待分类分组名的特征值。

其中,每一个分组对应的关联程度值表示当前分组所包含的关注对象与设 置该分组的用户之间的关联程度。

本申请实施例中,步骤A2可以但不限于有以下两种实现方式:

第一种实施方式,步骤A2可以通过公式[1]所示的数学表达式来说明:

AVGf=Σi=1NCountiN---[1]

其中,AVGf表示待分类分组名的特征值;N表示设置该待分类分组名的用 户的总数量;i表示用户编号,且i∈[1,N];Counti表示编号为i的用户与该 用户所设置的具备该待分类分组名的分组包含的关注对象的关联程度值。

针对公式[1]进一步举例:假设待分类分组名为“初中好友”,设置该分组 名的用户有U1和U2,其中,被U1划分到“初中好友”分组中的关注对象有100 人,这100人中有50人也同时对U1进行了关注;U2在“初中好友”分组所包 含的关注对象有30人,这30人中有20人也同时对U2进行了关注。则由上述 公式[1]可以确定:

N=2,Count1=50,Count2=20;进而可以由公式[1]得到待分类分组名的特 征值AVGf=35。

第二种实施方式:步骤A2可以包括:通过根据大于第一阈值的关联程度 值对应的具备待分类分组名的第一分组数目,以及小于第二阈值的关联程度值 对应的具备待分类分组名的第二分组数目,确定出待分类分组名的特征值。其 中,第一阈值大于第二阈值。

具体而言,该实施方式可以由公式[2]所示的数学表达式来说明:

Sub=High-LowHigh×100%---[2]

其中,Sub表示待分类分组名的特征值;High表示大于第一阈值的关联程 度值对应的具备待分类分组名的第一分组数目;Low表示小于第二阈值的关联 程度值对应的具备待分类分组名的第二分组数目。

针对公式[2]进一步下述举例假设:

待分类分组名为“初三六班”,“机器学习”和“影视艺人”;

具备待分类组名的分组总数目如下表一所示:

表一:

待分类分组名 具备待分类分组名的分组总数目 初三六班 110 机器学习 837 影视艺人 204

进一步地,假设关联程度值为互粉率;此外,具备“初三六班”这一待分类 分组名的110个分组中,互粉率分布如表二所示:

表二:

类似地,也可以得到与表二所示的互粉率分布类似的待分类分组名为“机 器学习”和“影视艺人”的互粉率分布,在此本申请不一一赘述。

进一步地,若假设第一阈值为60%,第二阈值为30%,则通过对表二右列 中数据的统计,可以得到:待分类分组名“初三六班”对应的High=99,Low=0, 进而可以根据公式[2],计算出Sub=100%。类似地,可以得到其他待分类分组 名“机器学习”和“影视艺人”的Sub值。

基于确定出的Sub值,步骤13的一种实施方式可以包括:

根据Sub值,以及设定的Sub阈值,确定待分类分组名所属类别。

在一种实施方式中,可以根据预先采集的样本分组名,设置该Sub阈值。 比如假设:以分组名为“初三六班”、“亲亲朋友”、“兄弟姐妹”和“机器学习”、“影 视相关”、“影视艺人”所构成的样本分组集合为例,若该样本分组集合中的“初 三六班”、“亲亲朋友”、“兄弟姐妹”属于关系类别,并且得到“初三六班”、“亲 亲朋友”、“兄弟姐妹”的分组总数在分组集合中的占比为39.67%;该样本分组 集合中的“机器学习”、“影视相关”、“影视艺人”属于兴趣类别,并且得到“机器 学习”、“影视相关”、“影视艺人”的分组总数在分组集合中的占比为60.33%; 那么,通过该样本分组名集合的训练,可以确定出当该Sub阈值=20%时,能 够达到最好的分类效果。

上述假设内容具体请见下表三:

表三:

基于上述表三,在确定出待分类分组名的Sub值后,若该Sub>20%,则确 定待分类分组名为关系分组,若该Sub≤20%,则确定待分类分组名为兴趣分 组。

在一种实施方式中,可以通过下述步骤B1-步骤B3实现步骤12:

步骤B1、确定使用待分类分组名的用户的数量;

步骤B2、获取被用户划分到该分组的关注对象的数量作为待分类分组名 的特征;

步骤B3、根据用户的数量和关注对象的数量,确定出待分类分组名的特 征值。

本申请实施例中,步骤B3可以但不限于有以下两种实现方式:

第一种实现方式:步骤B3可以通过公式[3]所示的数学表达式来说明:

AVGu=Σj=1NCountjN---[3]

其中,AVGu表示待分类分组名的特征值;N表示设置该待分类分组名的用 户的总数量;j表示用户编号,且j∈[1,N];Countj表示被编号为j的用户划 分到待分类分组名所表示的分组中的关注对象的数量。

针对公式[3]进一步举例:假设待分类分组名为“名人明星”,设置该分组名 的用户有U1、U2、U3,被U1划分到“名人明星”分组中的关注对象有100人、 被U2划分到“名人明星”分组中的关注对象有50和被U3划分到“名人明星”分 组中的关注对象有30。则由上述公式[3]可以确定:

N=3,Count1=100,Count2=50,Count3=30,进而可以由公式[3]得到待分 类分组名的特征值AVGu=60。

第二种实施方式:步骤B3可以包括:通过获取被用户划分到该分组的、 具备特定标识的关注对象的数量作为待分类分组特征。

具体而言,若用户U1和U2是带有特定标识的用户,则可得到:

N=2,Count1=100,Count2=50,进而由公式[3]可以得到AVGu=50。

基于确定出的AVGu值,步骤13的一种实施方式可以包括:

根据AVGu值,以及设定的AVGu阈值,确定待分类分组名所属类别。

在一种实施方式中,可以根据预先采集的样本分组名,设置该AVGu阈值。 比如假设:以分组名为“资讯围脖”、“汽车4s店”、“法院同行”、“爸爸去哪了”、 “黄金投资”和“大学同学”构成的样本分组集合为例,若该样本分组集合中的“资 讯围脖”、“汽车4s店”、“法院同行”属于兴趣类别,并且得到“资讯围脖”、“汽 车4s店”、“法院同行”的分组总数在分组集合中占比为38.25%,该样本分组集 合中“爸爸去哪了”、“黄金投资”和“大学同学”属于关系类别,并且得到“爸爸去 哪了”、“黄金投资”和“大学同学”的分组总数在分组集合中的占比为61.75%, 那么,通过该样本分组名集合的训练,可以确定出该AVGu阈值=1。

上述假设内容具体请见下表四:

表四:

基于上述表四,当AVGu>1时,确定待分类分组名为兴趣类别即占比为 38.25%,当AVGu≤1时,确定出待分类分组名为关系类别即占比为61.75%, 但是由于公式[3]并没有考虑到用户与关注对象之间关联程度,所以公式[3]对 获取待分类分组名的细粒度不高,因此,会利用公式[3]所得到的特征值与公式 [2]所得到的特征值结合使用的方式来对待分类分组名的特征值进行分类。

以上介绍的是确定待分类分组名的特征值的几种方式,以下介绍一种根据 确定的特征值进行分类的方法:

首先,设置利用公式[2]的方式分别得到待分类分组名“同事”、“名人明星” 的特征值10%,60%,分别作为“同事”、“名人明星”的第一特征值;设置利用 公式[3]的方式分别得到待分类分组名的特征值10、4,分别作为“同事”、“名人 明星”的第二特征值;设置利用公式[1]的方式分别得到待分类分组名的特征值 100、70,分别作为“同事”、“名人明星”的第三特征值。

然后,执行如下操作:

利用如图2所示的决策树模型,对待分类分组名进行分类。具体过程为:

判断“同事”的第一特征值是否大于20%;在得到“否”的判断结果后,判断 第二特征值是否大于20;在得到“同事的第二特征值不大于20”的判断结果后, 判断出“同事”属于关系类别。

判断“名人明星”的第一特征值是否大于20%;在得到“是”的判断结果后, 判断第二特征值是否处于[0,5);在得到“第二特征值处于[0,5)”的判断结果后, 判断第三特征值是否处于[0,90),在得到“名人明星的第三特征值处于[0,90)”的 判断结果后,判断出“名人明星”属于兴趣类别。

在一种实施方式中,可以在确定分组名所属类别之后,再对已确定出类别 的分组名进行规划化处理。具体规范化方式可以为:通过词性过滤的方式,将 确定出类别的分组名划分为两部分,分别为规划化分组名以及待修改的分组 名。

具体而言,由于兴趣类别中的分组名,通常是由比较常见的名词、动词、 形容词等组成,因此可以采用白名单机制;而关系类别的分组名,通常是词性 本身就很复杂多变,因此我们采用黑名单机制。过滤规则可如下表三所示:

在完成分组名的规划化处理后,针对各个待修改的分组名,可以分别执行: 从规划化分组名中,确定对应的关注对象的特征与该待修改的分组名对应的关 注对象的特征相同的规划化分组名,进而将该待修改的分组名修改为确定出的 该规划化分组名。

需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设 备,或者,该方法也由不同设备作为执行主体。比如,步骤11和步骤12的执 行主体可以为设备1,步骤13的执行主体可以为设备2;又比如,步骤11的 执行主体可以为设备1,步骤12和步骤13的执行主体可以为设备2;等等。

实施例2

为了解决根据现有技术中的分组方式可能导致向用户推荐的信息不准确 的问题,本申请提出一种分组名分类装置,该方法的实现流程图如图3所示, 主要包括:获取单元31、确定单元32和分类单元33,具体如下:

获取单元31,用于获取待分类分组名;

确定单元32,用于根据待分类分组名表示的分组所包含的关注对象的特 征,确定所述待分类分组名的特征值;

分类单元33,用于根据待分类分组名的特征值,对待分类分组名进行分类。

在一种实施方式中,确定单元32,可以用于确定具备待分类分组名的至少 一个分组对应的关联程度值作为所述特征;其中,每一个分组对应的关联程度 值表示当前分组所包含的关注对象与设置该分组的用户之间的关联程度;根据 关联程度值,确定出待分类分组名的特征值。

在一种实施方式,确定单元32,可以用于根据大于第一阈值的关联程度值 对应的第一分组数目,以及小于第二阈值的关联程度值对应的第二分组数目, 确定出待分类分组名的特征值;其中,第一阈值大于第二阈值。

在一种实施方式中,确定单元32,还可以用于确定使用待分类分组名的用 户的数量;获取被用户划分到分组的关注对象的数量作为该特征;根据用户的 数量和关注对象的数量,确定出待分类分组名的特征值。

在一种实施方式中,确定单元32,可以用于获取被用户划分到分组的、具 备特定标识的关注对象的数量作为待分类分组名的特征。

采用上述实施例2所提供的装置,由于是根据获取到待分类分组名表示的 分组所包含的关注对象的特征,确定出待分类分组名的特征值;进而根据该分 组名的特征值对待分类分组名进行分类。从而使得分类结果与分组所包含的关 注对象的特征相匹配,进而解决了现有技术中的分组方式可能导致向用户推荐 的信息不准确的问题。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输 出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其 他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读 存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁 磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算 设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒 体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设 备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程 序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和 硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算 机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号