首页> 中国专利> 应用卸载原因的分类方法及分类装置

应用卸载原因的分类方法及分类装置

摘要

本发明公开了一种应用卸载原因的分类方法及分类装置,属于计算机技术领域。所述分类方法包括:获取应用对应的卸载原因字符串;对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。本发明提高了应用卸载原因分类的效率和准确性。

著录项

  • 公开/公告号CN104933044A

    专利类型发明专利

  • 公开/公告日2015-09-23

    原文格式PDF

  • 申请/专利号CN201410098025.X

  • 发明设计人 孙鹏飞;

    申请日2014-03-17

  • 分类号

  • 代理机构北京市隆安律师事务所;

  • 代理人权鲜枝

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-18 11:00:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-12

    专利权的转移 IPC(主分类):G06F16/35 专利号:ZL201410098025X 登记生效日:20220801 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:北京奇虎科技有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:100015 北京市朝阳区酒仙桥路6号院2号楼1至19层104号内8层801 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2019-05-31

    授权

    授权

  • 2016-06-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140317

    实质审查的生效

  • 2015-09-23

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,具体涉及一种应用卸载原因的分类方法及 分类装置。

背景技术

应用提供商提供了很多应用(应用程序),供用户在计算设备例如个人 电脑中安装和使用。在一些情况下,用户安装使用某个应用一段时间后,由 于种种原因可能会卸载该应用,并在网页中填写应用卸载原因发送到应用提 供商的日志服务器中。

举个例子,如图1所示,用户卸载完成“360安全桌面”这一应用后, 在网页中填写的卸载原因字符串为:“安装360安全桌面后,导致桌面图标 太乱,影响对电脑的使用”。日志服务器接收到该应用的该卸载原因后,对 该卸载原因进行存储。

应用卸载原因反映的是用户声音,可以通过其改善应用提供商的产品。 应用提供商针对各种应用,需要对用户反馈的卸载原因进行分类。在现有的 实现方式中,一般是由人工对日志服务器中存储的应用卸载原因进行分类和 统计。一方面,日志服务器中存储的应用卸载原因的数据量较大,导致人力 耗费太大;另一方面,用户反馈的卸载原因描述不集中,分类人员采取的分 类标准可能不一致,导致分类的准确性较低。

因此,如何提高应用卸载原因分类的效率和准确性就成为亟待解决的技 术问题。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的应用卸载原因的分类方法及分类装置。

根据本发明的一个方面,提供了一种应用卸载原因的分类方法,包括:

获取应用对应的卸载原因字符串;

对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键 词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级, 每个子类具有预定的权重;

对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目 标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字 符串中的出现次数的乘积,得到各目标关键词的权重;

将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子 类。

可选地,采用基于用户字典的预定分词算法进行所述分词处理,所述用 户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用 卸载原因的类别和子类。

可选地,所述预定分词算法为正向最大匹配算法。

可选地,所述用户字典包括多个用户分字典,每个用户分字典对应一种 关键词长度;

在进行分词处理的过程中,根据候选字符串的长度选择相应的用户分字 典进行关键词匹配。

可选地,所述基本信息还包括与关键词对应的组合词;

在进行分词处理过程中,每得到一个关键词,还进一步根据该关键词的 基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中 匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。

可选地,所述子类的权重为所述用户字典中该子类对应的关键词的数目 的倒数。

可选地,在进行分词处理之前,所述分类方法还包括,判断所述卸载原 因字符串是否包含汉字,若是,进行所述分词处理,否则,将所述应用的卸 载原因归类为“其他”类别中的“无语义”子类。

根据本发明的另一方面,提供了一种应用卸载原因的分类装置,包括:

卸载原因字符串获取单元,适于获取应用对应的卸载原因字符串;

分词处理单元,适于对所述卸载原因字符串进行分词处理得到一个或多 个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别 具有不同的优先级,每个子类具有预定的权重;

权重计算单元,适于对于所述一个或多个关键词中所属的类别的优先级 最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与 其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;

卸载原因分类单元,适于将所述应用的卸载原因归类为权重最大的目标 关键词所属的类别和子类。

可选地,所述分词处理单元采用基于用户字典的预定分词算法进行所述 分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息 包括所述表征应用卸载原因的类别和子类。

可选地,所述预定分词算法为正向最大匹配算法。

可选地,所述用户字典包括多个用户分字典,每个用户分字典对应一种 关键词长度;

所述分词处理单元在进行分词处理的过程中,根据候选字符串的长度选 择相应的用户分字典进行关键词匹配。

可选地,所述基本信息还包括与关键词对应的组合词;

所述分词处理单元在进行分词处理的过程中,每得到一个关键词,还进 一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所 述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合 成最终的关键词。

可选地,所述子类的权重为所述用户字典中该子类对应的关键词的数目 的倒数。

可选地,所述分类装置还包括:

判断单元,适于判断所述卸载原因字符串是否包含汉字,若是,通知所 述分词处理单元进行所述分词处理,否则,通知所述卸载原因分类单元将所 述应用的卸载原因归类为“其他”类别中的“无语义”子类。

根据本发明上述的一个或多个技术方案,通过对卸载原因字符串进行分 词处理,并获取分词处理得到的关键词所属的类别和子类,根据关键词对应 的类别的优先级以及子类的权重,计算关键词的权重,将应用的卸载原因归 类为权重最大的关键词所属的类别和子类,实现了应用卸载原因的自动分类。 一方面,通过对应用卸载原因的自动分类,提高了应用卸载原因分类的效率, 节约了人力成本;另一方面,通过引入类别的优先级以及子类的权重,统一 和优化了分类的标准,从而提高了应用卸载原因分类的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:

图1示出了应用卸载完成后填写应用卸载原因字符串的界面;

图2示出了根据本发明一个实施例的应用卸载原因的分类方法流程图;

图3示出了本发明实施例中使用的一种用户字典的存储结构示意图;

图4示出了本发明实施例中基于用户字典的正向最大匹配算法流程图;

图5示出了根据本发明一个实施例的应用卸载原因的分类装置结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图2示出了根据本发明一个实施例的应用卸载原因的分类方法流程图。 参照图2,所述分类方法可以包括:

步骤202,获取应用对应的卸载原因字符串;

用户卸载应用后,通常会在应用提供商提供的网页中填写卸载原因,并 发送到应用提供商的日志服务器中。因此,针对某个待分析的应用,可以从 日志服务器中获取其对应的卸载原因字符串。

在日志服务器中,目标应用通常对应许多用户填写的大量卸载原因字符 串。在本发明实施例中,可以对每个卸载原因字符串分别进行处理,即每次 提取一个卸载原因字符串后执行后续的步骤,得到在该卸载原因字符串下该 应用的卸载原因所属的类别和子类。

步骤204,对所述卸载原因字符串进行分词处理得到一个或多个关键词, 所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的 优先级,每个子类具有预定的权重;

对字符串进行分词处理的算法有多种,本发明实施例对具体的算法不做 限制,可以采用现有技术中或者将来可能出现的各种分词算法。在本步骤中, 通过分词处理得到一个或多个关键词后,还可以获取各关键词分别对应的表 征应用卸载原因的类别和子类,以及,各类别的优先级和各子类的权重。

在具体实现时,可以预先设置关键词与类别和子类的对应关系,并将该 对应关系以例如关键词表或者用户字典的方式存储。在所述对应关系中,一 个类别具有一个或多个子类,每个关键词对应一个类别下的一个子类。其中, 关键词与类别和子类的对应关系、各类别的优先级、以及各子类的权重可以 由本领域技术人员根据经验或者根据对应用卸载时各关键词的统计分析来合 理设置。

步骤206,对于所述一个或多个关键词中所属的类别的优先级最高的一 个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述 卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;

由于每个类别具有不同的优先级,优先级越高,则表示应用的卸载原因 属于该类别的可能性越大。因此,在通过分词处理得到一个或多个关键词, 并获取到各关键词分别对应的表征应用卸载原因的类别和子类后,首先从获 取到的所有类别中确定出优先级最高的类别,该优先级最高的类别即为该应 用的卸载原因对应的类别。

然后,从这些关键词中筛选出所属的类别的优先级最高的关键词作为目 标关键词,目标关键词的数量可能是一个或多个,由于各目标关键词可能对 应同一类别下的不同的子类,因此,还需要确定应用的卸载原因对应的所述 类别下的子类。在本发明实施例中,子类具有对应的权重,且由于目标关键 词有可能在所述卸载原因字符串中出现多次(出现的次数越多,说明该目标 关键词越重要),因此,可以将目标关键词所属的子类的权重与其在所述卸 载原因字符串中的出现次数的乘积作为目标关键词的权重。

步骤208,将所述应用的卸载原因归类为权重最大的目标关键词所属的 类别和子类。

本发明实施例的上述技术方案实现了应用卸载原因的自动分类,一方面 提高了应用卸载原因分类的效率,节约了人力成本;另一方面,通过引入类 别的优先级以及子类的权重,统一和优化了分类的标准,从而提高了应用卸 载原因分类的准确性。

如前所述,对卸载原因字符串进行分词处理的算法有多种,本领域技术 人员可以根据需要合理选择。作为一种实现方式,可以采用基于用户字典的 分词算法来进行所述分词处理,其中,所述用户字典包括关键词以及关键词 的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类,且每 个类别具有不同的优先级,每个子类具有预定的权重。

对卸载原因字符串的原始数据进行分析后,发现进行语义分析的分词, 粒度越大越好,即单词的字数越多,所能表示的含义越确切,如:“加速球” 可以分为“加速”和“球”,也可以分为“加速球”,但是如果要用于语义 分析,则“加速球”的分词结果是最好的(当然前提是所使用的用户字典中 有这个词)。因此,为了保证分词粒度,可以采用最大匹配算法,而对比正 向、逆向、双向最大匹配算法,发现使用正向最大匹配算法的准确率最高, 在后文中,是以正向最大匹配算法为例进行说明。

在本发明实施例中,为了提高分词效率,所使用的用户字典可以包括多 个用户分字典,每个用户分字典对应一种关键词长度,这样,在进行分词处 理的过程中,可以根据候选字符串的长度选择相应的用户分字典进行关键词 匹配。

具体实现时,可以建立包括字数索引表、词索引表和词项基本信息的用 户字典。首先,将词按字数分类,加载进字数索引表,字数索引表中每一项 对应一个词索引表;然后,在词索引表中,每项记录一个词以及词项基本信 息。这样,在进行正向最大匹配算法时,是“逐字数逐词匹配”,而不是“全 匹配”,从而在一定程度上提高了匹配的效率。

其中,所述词项基本信息包括表征应用卸载原因的类别和子类,进一步, 所述词项基本信息还可以包括一个或多个与词项对应的组合词。所谓组合词, 可以理解为“用于进行组合的词”,是指能够与词项组合后形成另外一个词 的词。例如,对于“加速”,其对应的一个组合词为“球”,则二者组合后 形成的词为“加速球”,又例如,对于“某某”,其对应的一个组合词为“卫 士”,则二者组合后形成的词为“某某卫士”。

相应地,当所述词项基本信息包括组合词时,在进行分词处理过程中, 每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对 应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键 词与匹配到的组合词组合成最终的关键词,若否,直接将该关键词作为最终 的关键词。

通过增加组合词,可以使应用卸载原因的定位更加准确。例如,用户输 入的卸载原因字符串中包括“某某卫士”或者“某某的卫士”,如果用户字 典中包括基本的词项“某某”和“卫士”,但不包括组合词,则进行分词处 理后,得到的关键词只能是“某某”和“卫士”;如果用户字典中包括与词 项“某某”对应的组合词“卫士”,则进行分词处理后,得到的关键词是“某 某卫士”。由于“某某卫士”直接对应于具体的产品或应用,因此,采用组 合词的方案能够使得应用卸载原因的定位更加准确。

图3示出了本发明实施例中使用的一种用户字典的存储结构示意图。参 照图3,所述用户字典包括字数索引表、词索引表和词项基本信息。字数索 引表包括字数和指向两个字段,每种长度的字数指向一个词索引表,例如, 字数为5时,指向的是包括“流量防火墙”和“默认浏览器”的词索引表, 又例如,字数为3时,指向的是包括“浏览器”的词索引表。词索引表包括 词和指向两个字段,每个词指向一个词项基本信息。词项基本信息包括组合 词、类别和子类三个字段,其中,组合词可能为空也可能为多个,例如,“流 量防火墙”对应的组合词为空,对应的类别为“产品”,对应的子类为“加 速球”;又例如,“浏览器”对应的组合词为“锁定”和“网址”,则可以 组合成“浏览器锁定”和“浏览器网址”两个关键词,对应的类别均为“产 品”,对应的子类分别为“默认浏览器”和“主页锁定”。在所述用户字典 中,词、组合词、类别和子类的组合是唯一的,可以利用哈希表(HashMap) 来存储该用户字典。

以下对基于上述用户字典的正向最大匹配算法进行详细说明。

首先介绍算法思想。正向最大匹配是指以用户字典为依据,取字典中最 长的单词为第一次取字数量的扫描串,在用户字典中进行扫描,为了提高扫 描效率,在建立用户字典HashMap表的时候,根据字数多少索引,然后根 据不同字数扫描不同的词索引表。例如:用户字典中最长的词是“流量防火 墙”共5个汉字,则最大匹配的起始字数为5个汉字。然后从左向右,逐字 递减,在用户字典中进行查找和匹配。

图4示出了本发明实施例中基于用户字典的正向最大匹配算法流程图。 参照图4,所述算法包括如下步骤:

(1)初始化:输入待切分字符串S1(包含汉字),设置输出词串S2为 空,设置最大词长WORD_LENTGH_MAX,例如为5;

(2)判断S1是否为空,若是,输出S2,结束分词处理流程,若否,进 入步骤(3);

(3)从S1左边开始,取出候选字串W,且W的长度不大于 WORD_LENTGH_MAX;

(4)查看W是否在用户字典中,若是,进入步骤(5);若否,将W 最右边一个字符去掉,继续查看更新后的W是否在用户字典中,如果每次更 新后的W都不在用户字典中,则将S1最左边的一个字符去掉后返回步骤(2);

(5)判断W是否对应组合词,若是,将W与对应的组合词进行组合后 作为新的W,若否,保持W不变;

(6)令S2=S2+W+” ”,S1=S1-W,返回步骤(2),其中,“ ”为词 与词之间的分割符。

需要说明的是,步骤(1)中的S1包含汉字,如果步骤S1中不包含汉 字,则可以不进行上述的分词处理流程。也就是说,作为一种可选方式,在 本发明实施例中,在进行分词处理之前,所述分类方法还包括,判断所述卸 载原因字符串是否包含汉字,若是,进行所述分词处理,否则,将所述应用 的卸载原因归类为“其他”类别中的“无语义”子类。

这里举一个具体的例子。

假如输入的卸载原因字符串为:S1=“某某卫士360不兼容”。

定义:最大词长WORD_LENTGH_MAX=5;S2=“”;词与词间的分 隔符=“ ”,词与类别间的分隔符=“/”,词与次数间的分隔符=“”; “-”表示词与组合词间的分隔符。

假设存在字典:某某-卫士/竞品/某某,不兼容/竞品/其他,360/公司/名 称,...。

具体过程如下:

(1)先判断S1是否包含汉字,如果包含则进行分词处理,否则,将其 放入到“其他”类别中的“无语义”子列。

(2)S2=“”;S1不为空,从S1右边取出候选字符串W=“某某卫士 3”;

(3)查找字典,W不在字典中,将W最右边的一个字去掉,得到W= “某某卫士”;

(4)由于组合词的位置不限,这里采用将词和组合词分别查找,再组合 的策略,因此,查找字典,W不在字典中,将W最右边的一个字去掉,得 到W=“某某卫”;

(5)查找字典,W不在字典中,将W最右边的一个字去掉,得到W= “某某”;

(6)查找字典,“某某”在字典中,将W加入到S2中,S2=“某某 - ”,由于“某某”是组合词,所以将继续从S1查找“卫士”,如果找 到,将“某某-卫士”从S1中去掉,此时S1=“360不兼容”,S2=“某某- 卫士/竞品/某某1 ”;

(7)S1不为空,于是从S1左边取出候选子串W=“360不兼”;

(8)查找字典,W不在字典中,将W最右边的一个字去掉,得到W= “360不”;

(9)查找字典,W不在字典中,将W最右边的一个字去掉,得到W= “360”;

(10)查找字典,W在字典中,且没有组合词,将W从S1中去掉,此 时S1=“不兼容”,S2=“某某-卫士/竞品/某某1 360/公司/名称1”;

(11)S1不为空,于是从S1左边取出候选子串W=“不兼容”;

(12)查找字典,W在字典中,且没有组合词,将W从S1中去掉,此 时S1=“”,S2=“某某-卫士/竞品/某某1 360/公司/名称1 不让用/竞品 /其他1”;

(13)S1为空,输出S2作为分词结果,分词过程结束。

在进行分词处理后,就可以根据分词处理结果对应用卸载原因进行分类。 首先,获取分词处理得到的各关键词对应的类别的优先级,从所有关键词中 筛选出对应的类别的优先级最高的一个或多个关键词作为目标关键词;其 次,获取各目标关键词所对应的子类的权重wsubclass,以及,各目标关键词在输 入的卸载原因字符串中出现的次数ttimes;然后,计算每个目标关键词的权重 wword=wsubclass×wtimes;最后,将权重最高的目标关键词所代表的类别和子类赋予 该应用卸载原因。如果计算得到的每个目标关键词的权重wword都相同,则可 以采用随机游走算法,随机赋予应用卸载原因一个类别和子类。另外,由于 在信息论中,如果一句话包含的词语越多,则每个词能代表这句话的信息量 越少,因此,对于子类的权重,可以将其设置为用户字典中该子类对应的关 键词的数目的倒数。

这里举一个应用卸载原因分类的具体例子。

假设输入的卸载原因字符串为S1=“今天用那个真人专家,我给那货说 我电脑蓝屏,他接管后~他妈傻的二话不说直接给我把鼠标和键盘的驱动给 老子卸了。。你说你卸就卸了吧,你倒是给我吧电脑蓝屏给劳资弄好吧,他 妈的直接不管老子了,然后我把电脑重启了。。。”

分词处理结果为:S2=“妈/负面/其他3傻/负面/其他2重启/产品 /关机-重启1专家/产品/电脑专家1蓝屏/产品/蓝屏2”;

则应用卸载原因分类的具体过程如下:

(1)查看S2,得到包括产品和负面的两个类别,由事先设定的优先 级,确定S2的类别为产品。

(2)在S2中,产品对应的子类包括关机-重启、电脑专家、蓝屏,通过 采用上述算法,计算得到wsubclass(关机-重启)=1/2、wsubclass(电脑专家)=1/6、 wsubclass(蓝屏)=1;ttimes(关机-重启)=1、ttimes(电脑专家)=1、ttimes(蓝屏)=2;

(3)最后,通过计算得到wword(蓝屏)的权重最大,这样确定S2的级类别 为产品类,子类为蓝屏。

对应于本发明实施例的应用卸载原因分类方法,本发明实施例还提供一 种应用卸载原因的分类装置。

图5示出了根据本发明一个实施例的应用卸载原因的分类装置结构图, 参照图5,所述分类装置可以包括:卸载原因字符串获取单元52、分词处理 单元54、权重计算单元56和卸载原因分类单元58,各模块的具体工作原理 如下:

卸载原因字符串获取单元52适于获取应用对应的卸载原因字符串。用户 卸载应用后,通常会在应用提供商提供的网页中填写卸载原因,并发送到应 用提供商的日志服务器中。因此,针对某个待分析的应用,卸载原因字符串 获取单元52可以从日志服务器中获取其对应的卸载原因字符串。

分词处理单元54于对所述卸载原因字符串进行分词处理得到一个或多 个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别 具有不同的优先级,每个子类具有预定的权重。

在具体实现时,可以预先设置关键词与类别和子类的对应关系,并将该 对应关系以例如关键词表或者用户字典的方式存储。在所述对应关系中,一 个类别具有一个或多个子类,每个关键词对应一个类别下的一个子类。其中, 关键词与类别和子类的对应关系、各类别的优先级、以及各子类的权重可以 由本领域技术人员根据经验或者根据对应用卸载时各关键词的统计分析来合 理设置。

对字符串进行分词处理的算法有多种,本发明实施例对具体的算法不做 限制,可以采用现有技术中或者将来可能出现的各种分词算法。例如,分词 处理单元54可以采用基于用户字典的预定分词算法进行所述分词处理,所述 用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应 用卸载原因的类别和子类。其中,所述预定分词算法可以是正向最大匹配算 法。

另外,所述用户字典还可以包括多个用户分字典,每个用户分字典对应 一种关键词长度,这样,分词处理单元54在进行分词处理的过程中,可以根 据候选字符串的长度选择相应的用户分字典进行关键词匹配。

进一步,所述基本信息还可以包括与关键词对应的组合词,这样,分词 处理单元54在进行分词处理的过程中,每得到一个关键词,还进一步根据该 关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因 字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关 键词。

权重计算单元56适于对于所述一个或多个关键词中所属的类别的优先 级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重 与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重。 其中,所述子类的权重可以为所述用户字典中该子类对应的关键词的数目的 倒数。

卸载原因分类单元58适于将所述应用的卸载原因归类为权重最大的目 标关键词所属的类别和子类。

另外,所述分类装置还可以包括判断单元(图未示),适于判断所述卸 载原因字符串是否包含汉字,若是,通知所述分词处理单元进行所述分词处 理,否则,通知所述卸载原因分类单元将所述应用的卸载原因归类为“其他” 类别中的“无语义”子类。

需要说明的是,由于本发明实施例的应用卸载原因的分类装置与应用卸 载原因的分类方法是相对应的,因此,对上述分类装置的描述相对简略,对 于该分类装置中相应模块的具体功能和实现,本领域技术人员参照上述分类 方法实施例容易得到。

另外,在根据本发明实施例的上述应用卸载原因的分类方法或分类装置 得到各种卸载原因字符串对应的分类结果后,还可以对一段时间内的分类结 果进行统计。

例如,可以提取一天的分类结果数据,进行统计后得到如下结果:

类别 数量 占比 负面 67 9.19% 竞品 27 3.70% 推广 56 7.68% 应用 15 2.06% 不兼容 16 2.19% 卡慢 72 9.88% 安装 32 4.39% 产品 200 27.43% 其他 244 33.47% 总计 729 100.00%

表1类别统计表

表2子类统计表

从表1和表2中可以看出各个类别和子类的占比,如果区分其他类别与 已知类别,可以发现准确率在66.53%,但是其他类别中还包含了无语义的 一些卸载原因,因此,通过表2,可以发现去除无语义的数据后准确率在 74.9%。

综上所述,根据本发明实施例的一个或多个技术方案,通过对卸载原因 字符串进行分词处理,并获取分词处理得到的关键词所属的类别和子类,根 据关键词对应的类别的优先级以及子类的权重,计算关键词的权重,将应用 的卸载原因归类为权重最大的关键词所属的类别和子类,实现了应用卸载原 因的自动分类。一方面,通过对应用卸载原因的自动分类,提高了应用卸载 原因分类的效率,节约了人力成本;另一方面,通过引入类别的优先级以及 子类的权重,统一和优化了分类的标准,从而提高了应用卸载原因分类的准 确性。

本发明的实施例还公开了:

B11、如权利要求B9所述的分类装置,其中,所述用户字典包括多个用 户分字典,每个用户分字典对应一种关键词长度;

所述分词处理单元在进行分词处理的过程中,根据候选字符串的长度选 择相应的用户分字典进行关键词匹配。

B12、如权利要求B9所述的分类装置,其中,所述基本信息还包括与关 键词对应的组合词;

所述分词处理单元在进行分词处理的过程中,每得到一个关键词,还进 一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所 述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合 成最终的关键词。

B13、如权利要求B9所述的分类装置,其中,所述子类的权重为所述用 户字典中该子类对应的关键词的数目的倒数。

B14、如权利要求B8所述的分类装置,其中,还包括:

判断单元,适于判断所述卸载原因字符串是否包含汉字,若是,通知所 述分词处理单元进行所述分词处理,否则,通知所述卸载原因分类单元将所 述应用的卸载原因归类为“其他”类别中的“无语义”子类。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描 述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何 特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的 内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时 被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开 的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求 中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映 的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循 具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利 要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或 者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括 伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法 或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括 伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或 相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其 它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组 合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理 器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当 理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据 本发明实施例的应用卸载原因的分类装置中的一些或者全部部件的一些或者 全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全 部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实 现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个 信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上 提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在 列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个 硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。 可将这些单词解释为名称。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号