首页> 中国专利> 骚扰电话号码确定方法、装置和系统

骚扰电话号码确定方法、装置和系统

摘要

本公开是关于一种骚扰电话号码确定方法、装置和系统,属于安全技术领域。所述方法包括:从终端获取目标通话记录得到通话记录集合,通话记录集合中包含有预定个数的目标通话记录;获取通话记录集合中N个可疑号码;检测每个可疑号码所在的目标通话记录包含的关键词中是否存在预设词典记录的骚扰特征词;将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。本公开通过将所在目标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码,可以解决获取骚扰电话号码的效率较低的问题;达到了提高骚扰电话号码的获取效率的效果。

著录项

  • 公开/公告号CN105100366A

    专利类型发明专利

  • 公开/公告日2015-11-25

    原文格式PDF

  • 申请/专利权人 小米科技有限责任公司;

    申请/专利号CN201510408711.7

  • 发明设计人 秦秋平;陈志军;龙飞;

    申请日2015-07-13

  • 分类号H04M1/663(20060101);

  • 代理机构11138 北京三高永信知识产权代理有限责任公司;

  • 代理人滕一斌

  • 地址 100085 北京市海淀区清河中街68号华润五彩城购物中心二期13层

  • 入库时间 2023-12-18 12:35:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-20

    授权

    授权

  • 2015-12-23

    实质审查的生效 IPC(主分类):H04M1/663 申请日:20150713

    实质审查的生效

  • 2015-11-25

    公开

    公开

说明书

技术领域

本公开涉及安全技术领域,特别涉及一种骚扰电话号码确定方法、装置和 系统。

背景技术

骚扰电话号码通常可以包括推销保险的电话号码、房产中介的电话号码和 进行诈骗的电话号码,这些骚扰电话号码长期干扰着人们的正常生活。

相关技术中有一种骚扰电话号码确定方法,该方法首先由大量用户通过终 端来确认接听到的号码是否为骚扰电话号码,并将确认的骚扰电话号码上传至 服务器,服务器将大量用户确认的骚扰电话号码进行汇总生成骚扰电话号码表。

公开内容

为了解决相关技术问题,本公开实施例提供了一种骚扰电话号码确定方法、 装置和系统。所述技术方案如下:

第一方面,提供一种骚扰电话号码确定方法,该方法包括:

从至少一个终端获取目标通话记录得到通话记录集合,通话记录集合中包 含有预定个数的目标通话记录,每个目标通话记录中包含有陌生号码和至少一 个关键词,至少一个关键词是终端根据与陌生号码通话的通话内容文本数据得 到的,用于表征通话内容文本数据的通话主题,陌生号码为陌生号码对应的终 端的通讯录中未存储的号码;

获取通话记录集合中N个可疑号码,N个可疑号码为预定个数的目标通话 记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生号码;

检测每个可疑号码所在的目标通话记录包含的关键词中是否存在预设词典 记录的骚扰特征词;

若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的 骚扰特征词,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰 电话号码。

本公开的第一方面,能够方便快捷的确定出通话记录集合包含的大量电话 号码中的骚扰电话号码,提高了骚扰电话号码的获取效率。

结合第一方面,在第一种可实现方式中,将所在的目标通话记录中存在骚 扰特征词的可疑号码确定为骚扰电话号码,包括:

获取包含第一可疑电话号码的目标通话记录组成的目标通话记录集合,第 一可疑电话号码为任一所在的目标通话记录中存在骚扰特征词的可疑号码;

根据预设的骚扰特征词与骚扰类型的对应关系,确定第一通话记录包含的 骚扰特征词的骚扰类型,骚扰类型表征第一可疑电话号码的骚扰目的,第一通 话记录为目标通话记录集合中的任一通话记录;

将第一通话记录包含的骚扰特征词的骚扰类型确定为第一通话记录的骚扰 类型;

统计目标通话记录集合中每种骚扰类型对应的通话记录的数量;

根据每种骚扰类型对应的通话记录的数量与目标通话记录集合中通话记录 的总数的比值,确定每种骚扰类型在目标通话记录集合中的比例;

若目标通话记录集合中存在比例大于比例阈值的骚扰类型,则确定第一可 疑电话号码为骚扰电话号码。

本公开第一方面的第一种可实现方式,提高了确定的骚扰电话号码的准确 性。

结合第一种可实现方式,在第二种可实现方式中,该方法还包括:

将目标通话记录集合中比例最大的骚扰类型作为骚扰电话号码的骚扰类 型。

本公开第一方面的第二种可实现方式,确定了骚扰电话号码的骚扰类型。

结合第一方面,或第一种可实现方式,或第二种可实现方式,在第三种可 实现方式中,每个目标通话记录中包含有两个电话号码,两个电话号码中包含 有陌生号码,获取通话记录集合中N个可疑号码,包括:

对通话记录集合进行去重复处理,去重复处理用于丢弃至少两个同类通话 记录中除包含关键词最多的目标通话记录之外的通话记录,同类通话记录为包 含相同的两个电话号码的目标通话记录;

获取处理后的通话记录集合中N个可疑号码。

本公开第一方面的第三种可实现方式,增加了最终确定的骚扰电话号码的 准确性。

第二方面,提供一种骚扰电话号码确定方法,该方法包括:

获取与陌生号码通话的通话语音数据和通话记录,通话记录中包含有陌生 号码,陌生号码为通讯录中未存储的号码;

将通话语音数据转化为通话内容文本数据;

获取通话内容文本数据的至少一个关键词,至少一个关键词为表征通话内 容文本数据的通话主题的词;

根据至少一个关键词和通话记录生成目标通话记录,目标通话记录中包含 有陌生号码和至少一个关键词;

将目标通话记录提供给服务器,服务器用于根据目标通话记录中的陌生号 码和至少一个关键词确定陌生号码是否为骚扰电话号码。

本公开的第二方面,使服务器能够方便快捷的确定出通话记录集合包含的 大量电话号码中的骚扰电话号码,提高了骚扰电话号码的获取效率。

结合第二方面,在第一种可实现方式中,获取通话内容文本数据的至少一 个关键词,包括:

对内容文本数据进行分词处理得到包含有至少一个词的分词结果;

获取分词结果中每个词的关键词因子,关键词因子正相关于每个词的主题 相关度,每个词的主题相关度用于指示每个词与通话内容文本数据的通话主题 相关的程度;

按照关键词因子的大小将分词结果中的词降序排列;

将排名前M位的词作为内容文本数据的关键词。

本公开第二方面的第一种可实现方式,提高了获取的关键词与主题的相关 程度。

结合第一种可实现方式,在第二种可实现方式中,获取分词结果中每个词 的关键词因子,包括:

根据预设类型词典获取分词结果中每个词的类型,类型用于表征每个词的 特征;

根据预设的类型与权值的对应关系,按照分词结果中每个词的类型为每个 词分配权值;

获取分词结果中每个词的词频;

将每个词的权值与词频的乘积作为每个词的关键词因子。

本公开第二种可实现方式,获取了可信度较高的关键词因子,提高了关键 因子的可靠性。

结合第二种可实现方式,在第三种可实现方式中,获取分词结果中每个词 的关键词因子,包括:

去除分词结果中类型为语气词、人称代词和修饰词的词得到处理后的分词 结果;

获取处理后的分词结果中每个词的关键词因子。

本公开第二方面第三种可实现方式,减少了终端的计算量,提高了关键词 因子的可信度。

第三方面,提供一种骚扰电话号码确定装置,该装置包括:

集合获取模块,被配置为从至少一个终端获取目标通话记录得到通话记录 集合,通话记录集合中包含有预定个数的目标通话记录,每个目标通话记录中 包含有陌生号码和至少一个关键词,至少一个关键词是终端根据与陌生号码通 话的通话内容文本数据得到的,用于表征通话内容文本数据的通话主题,陌生 号码为陌生号码对应的终端的通讯录中未存储的号码;

号码获取模块,被配置为获取通话记录集合中N个可疑号码,N个可疑号 码为预定个数的目标通话记录中包含的陌生号码按出现次数降序排列,排名前N 位的陌生号码;

检测模块,被配置为检测每个可疑号码所在的目标通话记录包含的关键词 中是否存在预设词典记录的骚扰特征词;

确定模块,被配置为在任一可疑号码所在的目标通话记录包含的关键词中 存在预设词典记录的骚扰特征词时,将所在的目标通话记录中存在骚扰特征词 的可疑号码确定为骚扰电话号码。

结合第三方面,在第一种可实现方式中,确定模块,包括:

集合获取子模块,被配置为获取包含第一可疑电话号码的目标通话记录组 成的目标通话记录集合,第一可疑电话号码为任一所在的目标通话记录中存在 骚扰特征词的可疑号码;

特征词确定子模块,被配置为根据预设的骚扰特征词与骚扰类型的对应关 系,确定第一通话记录包含的骚扰特征词的骚扰类型,骚扰类型表征第一可疑 电话号码的骚扰目的,第一通话记录为目标通话记录集合中的任一通话记录;

记录确定子模块,被配置为将第一通话记录包含的骚扰特征词的骚扰类型 确定为第一通话记录的骚扰类型;

统计子模块,被配置为统计目标通话记录集合中每种骚扰类型对应的通话 记录的数量;

比例确定子模块,被配置为根据每种骚扰类型对应的通话记录的数量与目 标通话记录集合中通话记录的总数的比值,确定每种骚扰类型在目标通话记录 集合中的比例;

号码确定子模块,被配置为在目标通话记录集合中存在比例大于比例阈值 的骚扰类型时,确定所述第一可疑电话号码为骚扰电话号码。

结合第一种可实现方式,在第二种可实现方式中,该装置还包括:

类型确定模块,被配置为将目标通话记录集合中比例最大的骚扰类型作为 骚扰电话号码的骚扰类型。

结合第三方面,或第一种可实现方式,或第二种可实现方式,在第三种可 实现方式中,每个目标通话记录中包含有两个电话号码,两个电话号码中包含 有陌生号码,

号码获取模块,被配置为对通话记录集合进行去重复处理,去重复处理用 于丢弃至少两个同类通话记录中除包含关键词最多的目标通话记录之外的通话 记录,同类通话记录为包含相同的两个电话号码的目标通话记录;获取处理后 的通话记录集合中N个可疑号码。

第四方面,提供一种骚扰电话号码确定装置,该装置包括:

终端获取模块,被配置为获取与陌生号码通话的通话语音数据和通话记录, 通话记录中包含有陌生号码,陌生号码为通讯录中未存储的号码;

转化模块,被配置为将通话语音数据转化为通话内容文本数据;

关键词获取模块,被配置为获取通话内容文本数据的至少一个关键词,至 少一个关键词为表征通话内容文本数据的通话主题的词;

目标生成模块,被配置为根据至少一个关键词和通话记录生成目标通话记 录,目标通话记录中包含有陌生号码和至少一个关键词;

记录提供模块,被配置为将目标通话记录提供给服务器,服务器用于根据 目标通话记录中的陌生号码和至少一个关键词确定陌生号码是否为骚扰电话号 码。

结合第四方面,在第一种可实现方式中,关键词获取模块,包括:

分词子模块,被配置为对内容文本数据进行分词处理得到包含有至少一个 词的分词结果;

因子获取子模块,被配置为获取分词结果中每个词的关键词因子,关键词 因子正相关于每个词的主题相关度,每个词的主题相关度用于指示每个词与通 话内容文本数据的通话主题相关的程度;

因子排序子模块,被配置为按照关键词因子的大小将分词结果中的词降序 排列;

关键词确定子模块,被配置为将排名前M位的词作为内容文本数据的关键 词。

结合第一种可实现方式,在第二种可实现方式中,因子获取子模块,被配 置为根据预设类型词典获取分词结果中每个词的类型,类型用于表征每个词的 特征;根据预设的类型与权值的对应关系,按照分词结果中每个词的类型为每 个词分配权值;获取分词结果中每个词的词频;将每个词的权值与词频的乘积 作为每个词的关键词因子。

结合第二种可实现方式,在第三种可实现方式中,因子获取子模块,被配 置为去除分词结果中类型为语气词、人称代词和修饰词的词得到处理后的分词 结果;获取处理后的分词结果中每个词的关键词因子。

第五方面,提供一种骚扰电话号码确定装置,该装置包括:

处理器;

用于存储处理器的可执行指令的存储器;

其中,处理器被配置为:

从至少一个终端获取目标通话记录得到通话记录集合,通话记录集合中包 含有预定个数的目标通话记录,每个目标通话记录中包含有陌生号码和至少一 个关键词,至少一个关键词是终端根据与陌生号码通话的通话内容文本数据得 到的,用于表征通话内容文本数据的通话主题,陌生号码为陌生号码对应的终 端的通讯录中未存储的号码;

获取通话记录集合中N个可疑号码,N个可疑号码为预定个数的目标通话 记录中包含的陌生号码按出现次数降序排列,排名前N位的陌生号码;

检测每个可疑号码所在的目标通话记录包含的关键词中是否存在预设词典 记录的骚扰特征词;

若任一可疑号码所在的目标通话记录包含的关键词中存在预设词典记录的 骚扰特征词,将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰 电话号码。

第六方面,提供一种骚扰电话号码确定装置,该装置包括:

处理器;

用于存储处理器的可执行指令的存储器;

其中,处理器被配置为:

获取与陌生号码通话的通话语音数据和通话记录,通话记录中包含有陌生 号码,陌生号码为通讯录中未存储的号码;

将通话语音数据转化为通话内容文本数据;

获取通话内容文本数据的至少一个关键词,至少一个关键词为表征通话内 容文本数据的通话主题的词;

根据至少一个关键词和通话记录生成目标通话记录,目标通话记录中包含 有陌生号码和至少一个关键词;

将目标通话记录提供给服务器,服务器用于根据目标通话记录中的陌生号 码和至少一个关键词确定陌生号码是否为骚扰电话号码。

第七方面,提供一种骚扰电话号码确定系统,该系统包括:服务器和终端,

服务器包括第三方面提供的骚扰电话号码确定装置;

终端包括第四方面提供的骚扰电话号码确定装置。

第八方面,提供一种骚扰电话号码确定系统,该系统包括:服务器和终端,

服务器包括第五方面提供的骚扰电话号码确定装置;

终端包括第六方面提供的骚扰电话号码确定装置。

本公开的提供的技术方案可以包括以下有益效果:

本公开提供的骚扰电话号码确定方法、装置和系统,通过将通话记录集合 中出现次数最多的N个陌生号码确定为可疑号码,再将可疑号码所在的目标通 话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码,其中 关键词为表征通话主题的词,方便快捷的确定出通话记录集合包含的大量电话 号码中的骚扰电话号码,达到了提高骚扰电话号码的获取效率的效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能 限制本公开。

附图说明

为了更清楚地说明本公开的实施例,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。

图1是本公开各个实施例提供的骚扰电话号码确定方法所涉及的实施环境 的示意图;

图2是根据一示例性实施例示出的一种骚扰电话号码确定方法的流程图;

图3是根据一示例性实施例示出的另一种骚扰电话号码确定方法的流程图;

图4-1是根据一示例性实施例示出的另一种骚扰电话号码确定方法的流程 图;

图4-2是图4-1示出的骚扰电话号码确定方法中获取关键词的流程图;

图4-3是图4-1示出的骚扰电话号码确定方法中获取关键词因子的流程图;

图4-4是图4-1示出的骚扰电话号码确定方法中确定骚扰电话号码的流程 图;

图5-1是根据一示例性实施例示出的一种骚扰电话号码确定装置的框图;

图5-2是图5-1示出的骚扰电话号码确定装置中确定模块的框图;

图5-3是本公开实施例提供的另一种骚扰电话号码确定装置的框图;

图6-1是根据一示例性实施例示出的另一种骚扰电话号码确定装置的框图;

图6-2是图6-1示出的骚扰电话号码确定装置中的关键词获取模块的框图;

图7是根据一示例性实施例示出的一种骚扰电话号码确定装置的框图;

图8是根据一示例性实施例示出的一种骚扰电话号码确定装置的框图;

图9是根据一示例性实施例示出的一种骚扰电话号码确定系统的框图;

图10是根据一示例性实施例示出的一种骚扰电话号码确定系统的框图。

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开 的实施例,并与说明书一起用于解释本公开的原理。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公 开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部份实施例, 而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。

图1是本公开各个实施例提供的骚扰电话号码确定方法所涉及的实施环境 的示意图,该实施环境可以包括:终端11和服务器12。

终端11可以是手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器12可以是一台服务器,或者由若干台服务器组成的服务器集群,或 者是一个云计算服务中心。

终端11和服务器12之间可以建立有有线连接或无线连接。此外,本实施 环境不对终端11的数量作出限制。

图2是根据一示例性实施例示出的一种骚扰电话号码确定方法的流程图, 本实施例以该骚扰电话号码确定方法应用于图1所示实施环境中的服务器12来 举例说明,该骚扰电话号码确定方法可以包括如下几个步骤:

在步骤201中,从至少一个终端获取目标通话记录得到通话记录集合,通 话记录集合中包含有预定个数的目标通话记录,每个目标通话记录中包含有陌 生号码和至少一个关键词,至少一个关键词是终端根据与陌生号码通话的通话 内容文本数据得到的,用于表征通话内容文本数据的通话主题,陌生号码为陌 生号码对应的终端的通讯录中未存储的号码。

在步骤202中,获取通话记录集合中N个可疑号码,N个可疑号码为预定 个数的目标通话记录中包含的陌生号码按出现次数降序排列,排名前N位的陌 生号码。

在步骤203中,检测每个可疑号码所在的目标通话记录包含的关键词中是 否存在预设词典记录的骚扰特征词。

在步骤204中,若任一可疑号码所在的目标通话记录包含的关键词中存在 预设词典记录的骚扰特征词,将所在的目标通话记录中存在骚扰特征词的可疑 号码确定为骚扰电话号码。

综上所述,本公开实施例提供的骚扰电话号码确定方法,通过将通话记录 集合中出现次数最多的N个陌生号码确定为可疑号码,再将可疑号码所在的目 标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码, 其中关键词为表征通话主题的词,方便快捷的确定出通话记录集合包含的大量 电话号码中的骚扰电话号码,达到了提高骚扰电话号码的获取效率的效果。

图3是根据一示例性实施例示出的另一种骚扰电话号码确定方法的流程图, 本实施例以该骚扰电话号码确定方法应用于图1所示实施环境中的终端11来举 例说明,该骚扰电话号码确定方法可以包括如下几个步骤:

在步骤301中,获取与陌生号码通话的通话语音数据和通话记录,通话记 录中包含有陌生号码,陌生号码为通讯录中未存储的号码。

在步骤302中,将通话语音数据转化为通话内容文本数据。

在步骤303中,获取通话内容文本数据的至少一个关键词,至少一个关键 词为表征通话内容文本数据的通话主题的词。

在步骤304中,根据至少一个关键词和通话记录生成目标通话记录,目标 通话记录中包含有陌生号码和至少一个关键词。

在步骤305中,将目标通话记录提供给服务器,服务器用于根据目标通话 记录中的陌生号码和至少一个关键词确定陌生号码是否为骚扰电话号码。

综上所述,本公开实施例提供的骚扰电话号码确定方法,通过获取目标通 话记录,该目标通话记录中包含有陌生号码和至少一个关键词,并将该目标通 话记录提供给服务器,服务器用于根据该目标通话记录中的陌生号码和至少一 个关键词来确定该陌生号码是否为骚扰电话号码,达到了提高骚扰电话号码获 取效率的效果。

图4-1是根据一示例性实施例示出的另一种骚扰电话号码确定方法的流程 图,本实施例以该骚扰电话号码确定方法应用于图1所示实施环境中来举例说 明,该骚扰电话号码确定方法可以包括如下几个步骤:

在步骤401中,终端获取与陌生号码通话的通话语音数据和通话记录,该 通话记录中包含有陌生号码,陌生号码为通讯录中未存储的号码。

每当终端开始通话时,可以根据通讯录来检测通话对端的电话号码是否为 陌生号码,在通话对端的电话号码为陌生号码时,终端可以同步获取通话语音 数据,并生成一个通话记录,该通话记录中可以记录有通话对端的陌生号码和 该终端自身的电话号码,或者该通话记录中可以仅记录通话对端的陌生号码。

在步骤402中,终端将通话语音数据转化为通话内容文本数据。

终端在获取通话语音数据后,可以将通话语音数据转化为文本格式的通话 内容文本数据并存储,该文本格式可以为txt或ASCII(AmericanStandardCode forInformationInterchange,美国标准信息交换代码)等。

示例性的,可以通过自动语音识别技术(AutomaticSpeechRecognition)将 获取的通话语音数据转化为通话内容文本数据,该自动语音识别技术可以参考 现有技术,本公开实施例不再赘述。

可选的,本步骤可以和步骤401同时执行,即终端在与陌生号码通话时, 获取与陌生号码的通话语音数据,并实时的将语音数据转化为通话内容文本数 据,这样在通话结束时终端就可以获取完整的通话内容文本数据。

在步骤403中,终端获取通话内容文本数据的至少一个关键词,该至少一 个关键词为表征该通话内容文本数据的通话主题的词。

在终端获取了通话内容文本数据之后,终端可以对该通话内容文本数据进 行分析,并获取其中可以表征通话主题的词。示例性的,获取的通话内容文本 数据是讨论某一个明星的一段话,则终端获取的关键词可能是该明星的姓名。

如图4-2所示,本步骤分可以为下面4个子步骤:

在子步骤4031中,终端对内容文本数据进行分词处理得到包含有至少一个 词的分词结果。

终端获取的通话内容文本数据通常包含多个完整的语句,终端想要从中获 取关键词,首先需要对该通话内容文本数据进行分词处理,将其中包含的完整 的语句都拆分成一个个词。

其中,进行分词处理的方法可以包括基于字典、词库匹配的分词方法、基 于词频度统计的分词方法和基于知识理解的分词方法这三大类,每一个大类又 可以包括多种分词算法,比如基于字典、词库匹配的分词方法可以包括最大正 向匹配法、最大反向匹配法和最短路径分词法等等,又比如基于词频度统计的 分词方法中可以包括建立基于统计的分词模型,并根据该分词模型来进行分词 处理的算法。可选的,本公开实施例可以从该三大类分词处理的方法中任选至 少一种分词算法来对获取的通话内容文本数据进行分词处理。

在子步骤4032中,终端获取分词结果中每个词的关键词因子。

终端在获取了通话内容文本数据的分词结果之后,可以获取该分词结果中 每个词的关键词因子,该关键词因子可以正相关于每个词的主题相关度,该主 题相关度用于指示一个词与通话内容文本数据的通话主题相关的程度,即一个 词的关键词因子越大,则该词与通话内容文本数据的通话主题的相关程度越高。

如图4-3所示,本步骤可以包括下面5个子步骤:

在子步骤4032a中,终端根据预设类型词典获取分词结果中每个词的类型, 该类型用于表征每个词的特征。

终端在获取了通话内容文本数据的分词结果之后,首先可以根据预设的类 型词典来获取该分词结果中每个词的类型,该类型可以用于表征每个词的特征。 示例性的,该类型可以包括骚扰特征词,专有名词,人物姓名,日期,语气词, 人称代词,修饰词和地名等等,预设类型词典中可以记录有大部分常用词汇的 类型。

在子步骤4032b中,终端去除分词结果中类型为语气词、人称代词和修饰 词的词得到处理后的分词结果。

终端在获取了分词结果中每个词的类型之后,可以去除其中类型为语气词、 人称代词和修饰词的词,得到处理后的分词结果。这样可以减少后续步骤中终 端的计算量,提高终端在实施本公开实施例提供的骚扰电话号码确定方法时的 运行速度。

其中,类型为语气词、人称代词和修饰词的词通常都和通话主题无关,且 出现频率可能较高,示例性的,语气词可以包括了、么、呢、吧、啊等;人称 代词可以包括你、我、他等;修饰词可以包括大、高、认真、生动、美丽等, 去除这些词不但不会影响后续获取关键词,还可以增加获取的关键词的准确性。 此外,终端还可以去除其它类型的与主题相关度较小的词,本公开实施例不作 出限制。

需要说明的是,本步骤为可选步骤,即终端也可以不进行本步骤,在子步 骤4032a之后直接执行子步骤4032c。

在子步骤4032c中,终端根据预设的类型与权值的对应关系,按照分词结 果中每个词的类型为每个词分配权值。

在终端去除了与通话主题无关的类型的词之后,终端可以继续获取处理后 的分词结果中每个词的关键词因子。终端可以根据预设的类型与权值的对应关 系,按照分词结果中每个词的类型为每个词分配权值。其中,预设的类型与权 值的对应关系,可以预先根据类型与通话主题可能的相关度来进行设置,示例 性的,可以给类型为骚扰特征词的词设置最高的权值,给类型为专有名词和人 物姓名的词设置较高的权值,给类型为日期和地名的词设置较低的权值,比如 骚扰特征词对应的权值为2,专有名词和人物姓名对应的权值为1.5,日期和地 名对应的权值为1等等。

在子步骤4032d中,终端获取分词结果中每个词的词频。

终端在为分词结果中每个词分配权值后,可以获取每个词在分词结果中的 词频,其中词频可以表示某个词在分词结果中出现的次数,比如分词结果中共 有100个词,“楼盘”这个词出现12次,则“楼盘”在该分词结果中的词频可以为 12;或者,词频可以表示某个词在分词结果中出现的次数除以该分词结果中的 总词数所得的数值,比如分词结果中共有100个词,“楼盘”这个词出现12次, 则“楼盘”在该分词结果中的词频可以为12/100=0.12。需要说明的是,在使用多 种分词算法进行分词处理,并获取多种分词结果时,可以在每种分词结果中分 别统计每个词的词频。

需要说明的是,本步骤也可以在子步骤4032c之前执行,或者,本步骤和 子步骤4032c同时执行,本公开实施例不作出限制。

在子步骤4032e中,终端将每个词的权值与词频的乘积作为每个词的关键 词因子。

终端在获取了每个词的权值和乘积后,可以将权值与词频的乘积作为关键 词因子。

在子步骤4033中,终端按照关键词因子的大小将分词结果中的词降序排列。

终端在获取了分词结果中每个词的关键词因子后,可以按照关键词因子的 大小将分词结果中的词降序排列,即关键词因子越大的词排名越靠前。

需要说明的是,在终端通过多种分词算法进行分词得到多种分词结果时, 可以对每种分词结果中的词分别进行排名,或者将多种分词结果中的词合并进 行排名,本公开实施例不作出限制。

在子步骤4034中,终端将排名前M位的词作为内容文本数据的关键词。

终端可以将排名前M位的词作为内容文本数据的关键词。

需要说明的是,在终端通过多种分词算法进行分词处理得到多种分词结果 的情况下,该前M位的词可以为每种分词结果中的前M位的词,或者该前M 位的词为合并排列中前M位的词。其中M为预设的值。

示例性的,M为1,终端根据两种分词算法得到了两种分词结果F1和F2。 F1包含词保险、看房和恭喜,且保险的关键词因子为10,看房的关键词因子为 12,恭喜的关键词因子为8。F2包含词奖品、张三和李四,且奖品的关键词因 子为13,张三的关键词因子为7,李四的关键词因子为3。

F1中的词按照关键词因子降序排列为:1、看房;2、保险;3、恭喜。F2 中的词按照关键词因子降序排列为:1、奖品;2、张三;3、李四。终端可以将 这两个排列中排名首位的词看房和奖品作为关键词。

而F1和F2中包含的词按照关键词因子的大小降序合并排列为:1、奖品; 2、看房;3、保险;4、恭喜;5、张三;6、李四。终端也可以将该合并排列的 首位奖品作为关键词。

需要说明的是,终端还可以设置有关键词因子阈值,终端可以利用该关键 词因子阈值对排名前M位的词作进一步的筛选,去除排名前M位的词中关键词 因子小于关键词因子阈值的词,并将剩余的词作为关键词,这样可以提高最终 确定的关键词的准确性,或者终端还可以直接将分词结果中关键词因子大于该 关键词因子阈值的词作为关键词。

至此,已经获取了内容文本数据的关键词。需要说明的是,步骤402和步 骤403为终端获取关键词的步骤,这两个步骤或这两个步骤中的部分步骤也可 以由服务器来完成,本公开实施例不作出限制。示例性的,终端可以将通话语 音数据或通话内容文本数据上传至服务器,由服务器来获取其中的关键词。

在步骤404中,终端根据至少一个关键词和通话记录生成目标通话记录, 目标通话记录中包含有陌生号码和至少一个关键词。

终端在获取了关键词之后,可以将关键词以及该关键词对应的通话记录合 并得到目标通话记录,目标通话记录中包含有陌生号码和至少一个关键词。示 例性的,可以将关键词插入通话记录中对应的字段以生成目标通话记录。

在步骤405中,终端将预定时间内所有通话记录提供给服务器。

终端在获取了目标通话记录之后,可以将预定时间内所有的通话记录都提 供给服务器,该所有通话记录可以包含有目标通话记录和普通通话记录,其中 普通通话记录为不包含关键词的普通的通话记录。示例性的,终端可以每过一 个月将该月内所有的通话记录上传至服务器。

此外,终端还可以仅将目标通话记录提供给服务器,本公开实施例不作出 限制。

在步骤406中,服务器获取至少一个终端在预定时间内所有通话记录。

服务器可以获取至少一个终端在预定时间内所有通话记录,示例性的,服 务器可以获取1000个终端在一个月内所有的通话记录,且服务器可以每隔一个 月从这1000个终端获取一次。

在步骤407中,服务器从至少一个终端在预定时间内所有通话记录中获取 目标通话记录得到通话记录集合。

在终端向服务器提供的是所有通话记录时,服务器可以从中筛选出目标通 话记录,并将目标通话记录组成通话记录集合。筛选方法根据不同情况可以分 为:

1)在终端向服务器提供了通讯录时,服务器可以根据该通讯录来筛选其中 包含有陌生号码的通话记录,并将这些包含有陌生号码的电话号码作为目标通 话记录。

2)在终端未向服务器提供通讯录,仅向服务器提供通话记录时,服务器可 以根据通话记录中是否记录有姓名,并将未记录有姓名的通话记录作为目标通 话记录,需要说明的是,终端在生成通话记录时,若通话对端的号码为通讯录 中记录的联系人的号码,通常会在通话记录中附上该联系人的姓名。

此外,在终端仅向服务器提供了目标通话记录时,服务器可以直接将获取 的目标通话记录组成通话记录集合。

在步骤408中,服务器对通话记录集合进行去重复处理。

目标通话记录中除了记录有通话对端的陌生号码,还可以记录有生成目标 通话记录的终端的电话号码。其中,去重复处理用于丢弃至少两个同类通话记 录中除包含关键词最多的目标通话记录之外的通话记录,即存在多个包含的两 个电话号码一致的目标通话记录时,可以按照包含的关键词个数将这些目标通 话记录进行降序排列,并仅保留首位的目标通话记录。同类通话记录为包含相 同的两个电话号码的目标通话记录,该两个号码为通话双方的电话号码。

示例性的,当目标通话记录A、目标通话记录B和目标通话记录C为同类 通话记录时,目标通话记录A包含有关键词保险、看房、恭喜和奖品,目标通 话记录B包含有关键词张三,目标通话记录C包含有关键词李四和投资,则按 照包含的关键词个数将这些目标通话记录进行降序排列:

1、目标通话记录A(4个关键词);

2、目标通话记录C(2个关键词);

3、目标通话记录B(1个关键词)。

服务器可以丢弃目标通话记录C和目标通话记录B,并保留包含关键词最 多的目标通话记录A,这样可以增加本公开实施例提供的骚扰电话号码确定方 法确定的骚扰电话号码的准确性。

在步骤409中,服务器获取处理后的通话记录集合中N个可疑号码。

其中,N个可疑号码可以为预定个数的目标通话记录中包含的陌生号码按 出现次数降序排列,排名前N位的陌生号码,N为预设值。

由于骚扰电话的拨打方通常会向大量的陌生号码拨打电话,因而服务器在 对通话记录集合进行去重复处理之后,可以首先统计通话记录集合包含的目标 通话记录中每个陌生号码的出现次数,并按照该出现次数将所有陌生号码进行 降序排列,将排名前N位的陌生号码确定为可疑号码。由于骚扰电话的拨打方 通常会向大量的陌生号码拨打骚扰电话,因而骚扰电话号码的拨打方的号码通 常会大量的出现与目标通话记录中。

示例性的,服务器统计得到的陌生号码出现次数为:陌生号码1出现1000 次,陌生号码2出现900次,陌生号码3出现800次,陌生号码4出现1200次, 陌生号码5出现2000次,将这些陌生号码按照出现次数降序排列:

1、陌生号码5;

2、陌生号码4;

3、陌生号码1;

4、陌生号码2;

5、陌生号码3。

在N预设为3时,可以得到可疑号码为陌生号码5、陌生号码4和陌生号 码1。

此外,服务器还可以设置出现次数阈值,过滤掉排名前N位的陌生号码中 出现次数小于该出现次数阈值的陌生号码,并将剩下的陌生号码作为可疑号码, 以提高可疑号码的准确性,或者服务器可以直接将通话记录集合中出现次数大 于该出现次数阈值的陌生号码作为可疑号码。

本步骤能够进一步的提高本公开实施例提供的骚扰电话号码确定方法确定 的骚扰电话号码的准确性。

需要说明的是,服务器也可以将可疑号码确定为骚扰电话号码,本公开实 施例不作出限制。

在步骤410中,服务器检测每个可疑号码所在的目标通话记录包含的关键 词中是否存在预设词典记录的骚扰特征词。

服务器在获取了可疑号码之后,可以根据预设词典来检测每个可疑号码所 在的目标通话记录包含的关键词中是否存在骚扰特征词,其中预设词典中可以 记录有骚扰特征词。示例性的,预设词典中记录的骚扰特征词可以包括:

保险、保险公司、保险产品、风险、投资;

二手房、看房、学区房、业主、新房,换房;

恭喜、手机号码、电话号码、抽奖、中奖、奖品。

服务器可以检测每个可疑号码所在的目标通话记录包含的关键词中是否存 在这些词。

在步骤411中,若任一可疑号码所在的目标通话记录包含的关键词中存在 预设词典记录的骚扰特征词,服务器将所在的目标通话记录中存在骚扰特征词 的可疑号码确定为骚扰电话号码。

服务器在根据预设词典检测了每个可疑号码是否存在骚扰特征词之后,可 以将所在的目标通话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。 本步骤可以进一步提高确定的骚扰电话号码的准确性,减小对正常号码(非骚 扰电话号码)误判的可能性。

如图4-4所示,本步骤可以包括下面7个子步骤:

在子步骤4111中,服务器获取包含第一可疑电话号码的目标通话记录组成 的目标通话记录集合,第一可疑电话号码为任一所在的目标通话记录中存在骚 扰特征词的可疑号码。

服务器在检测了所有可疑号码所在的目标通话记录是否包含有骚扰特征词 之后,可以获取包含第一可疑电话号码的目标通话记录组成的目标通话记录集 合,第一可疑电话号码为任一所在的目标通话记录中存在骚扰特征词的可疑号 码,第一可疑号码可以出现于多个目标通话记录中,服务器可以通过这多个目 标通话记录组成目标通话记录集合。

在子步骤4112中,服务器根据预设的骚扰特征词与骚扰类型的对应关系, 确定第一通话记录包含的骚扰特征词的骚扰类型。

其中,骚扰类型表征第一可疑电话号码的骚扰目的,第一通话记录为目标 通话记录集合中的任一通话记录。即服务器在获取了目标通话记录集合之后, 可以根据预设的骚扰特征词与骚扰类型的对应关系,确定目标通话记录集合中 每个目标通话记录包含的骚扰特征词的骚扰类型。示例性的,预设的骚扰特征 词与骚扰类型的对应关系可以如表1所示:

表1

在表1中,第一行为表头,用于对表1中的两列进行说明,左边一列代表 骚扰类型,右边一列代表每种骚扰类型包含的骚扰特征词,服务器可以根据该 表确定第一通话记录包含的骚扰特征词的骚扰类型,比如第一通话记录中包含 的骚扰特征词为“恭喜”,则根据表1可以得知“恭喜”的骚扰类型为“诈骗”。

在子步骤4113中,服务器将第一通话记录包含的骚扰特征词的骚扰类型确 定为第一通话记录的骚扰类型。

服务器在获取了目标通话记录集合中每个通话记录包含的骚扰特征词的骚 扰类型之后,可以将该骚扰特征词的骚扰类型确定为该通话记录的骚扰类型。 示例性的,目标通话记录集合中的一个通话记录包含有骚扰类型为“诈骗”的骚扰 特征词,则服务器可以将该通话记录的骚扰类型确定为“诈骗”。

需要说明的是,在目标通话记录集合中的通话记录包含有多个骚扰类型的 骚扰特征词时,可以将这多个骚扰类型均确定为该通话记录的骚扰类型,示例 性的,通话记录A包含有“诈骗”和“中介”两种骚扰类型的骚扰特征词,则通话 记录A的骚扰类型为“诈骗”和“中介”。

在子步骤4114中,服务器统计目标通话记录集合中每种骚扰类型对应的通 话记录的数量。

服务器在获取了目标通话记录中每个通话记录的骚扰类型之后,可以统计 目标通话记录集合中每种骚扰类型对应的通话记录的数量。

示例性的,通话记录A的骚扰类型为“诈骗”和“中介”,通话记录B的骚扰 类型为“推销”,通话记录C的骚扰类型为“中介”。则服务器的统计结果为:

骚扰类型“中介”对应的通话记录为通话记录A和通话记录C两个,骚扰类 型“诈骗”对应的通话记录为通话记录A一个,骚扰类型“推销”对应的通话记录 为通话记录B一个。

在子步骤4115中,服务器根据每种骚扰类型对应的通话记录的数量与目标 通话记录集合中通话记录的总数的比值,确定每种骚扰类型在目标通话记录集 合中的比例。

服务器在统计了目标通话记录集合中每种骚扰类型对应的通话记录的数量 之后,可以根据每种骚扰类型对应的通话记录的数量与目标通话记录集合中通 话记录的总数的比值,确定每种骚扰类型在目标通话记录集合中的比例。

示例性的,目标通话记录集合中骚扰类型“推销”对应的通话记录有60个, 骚扰类型“中介”对应的通话记录有20个,该目标通话记录集合的通话记录共 有100个,则骚扰类型“推销”在该目标通话记录集合中的比例为0.6,骚扰类 型“中介”在该目标通话记录集合中的比例为0.2。

在子步骤4116中,若目标通话记录集合中存在比例大于比例阈值的骚扰类 型,服务器则确定第一可疑电话号码为骚扰电话号码。

服务器在获取了每种骚扰类型在目标通话记录集合中的比例之后,可以检 测这些比例中是否存在大于比例阈值的值,若存在,则确定该第一可疑电话号 码为骚扰电话号码。示例性的,比例阈值为0.5,骚扰类型“推销”在目标通话 记录集合中的比例为0.6,大于该比例阈值,则可以确定该目标通话记录集合对 应的第一可疑电话号码为骚扰电话号码。

需要说明的是,由于骚扰电话中骚扰方说的内容大都相差不多,因而一个 骚扰电话号码所在的多个通话记录中的骚扰特征词的骚扰类型的相似度会较 高,即根据比例阈值对可疑号码进行筛选能够进一步的提高确定的骚扰电话号 码的准确性。

在子步骤4117中,服务器将目标通话记录集合中比例最大的骚扰类型作为 骚扰电话号码的骚扰类型。

服务器在确定了骚扰电话号码之后,可以将该骚扰电话号码对应的目标通 话记录集合中比例最大的骚扰类型作为该骚扰电话号码的骚扰类型,该骚扰类 型可以提供给用户一个对骚扰电话号码清晰的认识,提高用户体验。示例性的, 目标通话记录集合中包含“推销”和“中介”这两种骚扰类型的通话记录,而 骚扰类型“推销”在该目标通话记录集合中的比例为0.6,骚扰类型“中介”在 该目标通话记录集合中的比例为0.2,则可以确定该骚扰电话号码的骚扰类型为 “推销”。

此外,子步骤4117为对骚扰电话号码分类的步骤,是可选的步骤。

需要说明的是,目标通话记录集合中的通话记录均为目标通话记录。

在步骤412中,服务器根据确定的骚扰电话号码生成即时骚扰号码表。

服务器在获取了骚扰电话号码之后,可以根据骚扰电话号码生成即时骚扰 号码表,示例性的,生成的即时骚扰电话号码表可以如表2所示。

表2

骚扰电话号码 111***1111 111***1112 111***1113 …………

在表2中,第一行为表头,用于对表2中的数据进行说明,表2中的数字 代表骚扰电话号码。

需要说明的是,在服务器确定了骚扰电话号码的骚扰类型时,服务器还可 以根据骚扰电话号码和骚扰类型共同生成即时骚扰号码表,也就是说即时骚扰 号码表中不但记录有骚扰电话号码,还记录有骚扰电话号码的骚扰类型。示例 性的,如表3所示:

表3

骚扰电话号码 骚扰类型 111***1111 推销

111***1112 中介 111***1113 诈骗 ………… …………

在表3中,第一行为表头,用于对表3中的两列数据进行说明,左边一列 代表骚扰电话号码,右边一列代表每个骚扰电话号码的骚扰类型。比如第二行 的骚扰电话号码“111***1111”的骚扰类型为“推销”。

在步骤413中,服务器根据即时骚扰号码表更新历史骚扰号码表。

服务器在获取了即时骚扰号码表之后,可以以该即时骚扰号码表来更新历 史骚扰号码表,其中历史骚扰号码表可以为服务器根据本次之前获取的即时骚 扰号码表生成的,此外,在本次即为第一次的到即时骚扰号码表时,可以将该 即时骚扰号码表作为历史骚扰号码表。在更新历史骚扰号码表时,可以给每条 骚扰电话号码附上时间戳(Timestamp),以表示该条骚扰电话号码记录进历史 骚扰号码表的时间。服务器可以每过一段时间就生成一次即使骚扰号码表,并 根据最新获取的即时骚扰号码表更新一次历史骚扰号码表。

需要说明的是,时间戳,或称Unix时间(Unixtime),是一种时间表示方式, 定义为从格林威治时间1970年01月01日00时00分00秒(北京时间1970年 01月01日08时00分00秒)起至现在的总秒数。

本步骤在更新历史骚扰号码表时,可以遵循下面三条原则:

1)历史骚扰号码表中没有而在即时骚扰号码表中有的骚扰电话号码,更新 到历史骚扰号码表中。

2)历史骚扰号码表中和即时骚扰号码表中都有的骚扰电话号码,更新历史 骚扰号码表中该骚扰电话号码的时间戳。

3)历史骚扰号码表中有而即时骚扰号码表中没有的骚扰电话号码,比较当 前时间与该骚扰电话号码的时间戳,如果时间差大于阈值(可以预先设定),则 删除历史骚扰号码表中的该骚扰电话号码。这样可以删除掉历史骚扰号码表中 长时间未使用的骚扰电话号码,避免骚扰电话号码更换使用者而产生的误判。

本步骤结束后,服务器获取的历史骚扰号码表中记录的骚扰电话号码会具 有相当高的准确性。

在步骤414中,服务器向终端提供更新后的历史骚扰号码表。

服务器在更新历史骚扰号码表之后,可以向终端提供该更新后的历史骚扰 号码表,示例性的服务器可以主动向终端发送该历史骚扰号码表,或者由终端 向服务器下载该历史骚扰号码表。

终端在获取了更新后的历史骚扰号码表之后,终端的用户可以根据其中记 录的骚扰电话号码以及骚扰电话号码的骚扰类型来对骚扰电话号码的来电做出 进一步的处理。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定方法,通过关 键词因子的大小来判断分词结果中的词是否为关键词,达到了提高关键词的准 确性的效果。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定方法,通过将 目标通话记录中出现次数最多的N个号码确定为可疑号码,达到了增加最终确 定的骚扰电话号码的准确性的效果。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定方法,通过目 标通话记录集合中各骚扰类型对应的目标通话记录在目标通话记录集合中的比 例来筛选出骚扰电话号码,达到了进一步增加确定的骚扰电话号码的准确性的 效果。

综上所述,本公开实施例提供的骚扰电话号码确定方法,通过将通话记录 集合中出现次数最多的N个陌生号码确定为可疑号码,再将可疑号码所在的目 标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码, 其中关键词为表征通话主题的词,方便快捷的确定出通话记录集合包含的大量 电话号码中的骚扰电话号码,达到了提高骚扰电话号码的获取效率的效果。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开 装置实施例中未披露的细节,请参照本公开方法实施例。

图5-1是根据一示例性实施例示出的一种骚扰电话号码确定装置的框图,本 实施例以该骚扰电话号码确定装置应用于图1所示实施环境中的服务器12中来 举例说明,该骚扰电话号码确定装置可以包括:

集合获取模块510,被配置为从至少一个终端获取目标通话记录得到通话记 录集合,通话记录集合中包含有预定个数的目标通话记录,每个目标通话记录 中包含有陌生号码和至少一个关键词,至少一个关键词是终端根据与陌生号码 通话的通话内容文本数据得到的,用于表征通话内容文本数据的通话主题,陌 生号码为陌生号码对应的终端的通讯录中未存储的号码。

号码获取模块520,被配置为从集合获取模块510获取的通话记录集合中获 取N个可疑号码,N个可疑号码为预定个数的目标通话记录中包含的陌生号码 按出现次数降序排列,排名前N位的陌生号码。

检测模块530,被配置为检测号码获取模块520获取的每个可疑号码所在的 目标通话记录包含的关键词中是否存在预设词典记录的骚扰特征词。

确定模块540,被配置为在检测模块530检测出的任一可疑号码所在的目标 通话记录包含的关键词中存在预设词典记录的骚扰特征词时,将所在的目标通 话记录中存在骚扰特征词的可疑号码确定为骚扰电话号码。

综上所述,本公开实施例提供的骚扰电话号码确定装置,通过将通话记录 集合中出现次数最多的N个陌生号码确定为可疑号码,再将可疑号码所在的目 标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码, 其中关键词为表征通话主题的词,方便快捷的确定出通话记录集合包含的大量 电话号码中的骚扰电话号码,达到了提高骚扰电话号码的获取效率的效果。

图5-2是图5-1示出的骚扰电话号码确定装置中确定模块540的框图。

可选的,确定模块540,包括:

集合获取子模块541,被配置为获取包含第一可疑电话号码的目标通话记录 组成的目标通话记录集合,第一可疑电话号码为任一所在的目标通话记录中存 在骚扰特征词的可疑号码。

特征词确定子模块542,被配置为根据预设的骚扰特征词与骚扰类型的对应 关系,确定集合获取子模块541获取的目标通话记录集合中第一通话记录包含 的骚扰特征词的骚扰类型,骚扰类型表征第一可疑电话号码的骚扰目的,第一 通话记录为目标通话记录集合中的任一通话记录。

记录确定子模块543,被配置为将特征词确定子模块542确定的第一通话记 录包含的骚扰特征词的骚扰类型确定为第一通话记录的骚扰类型。

统计子模块544,被配置为统计记录确定子模块543确定的目标通话记录集 合中每种骚扰类型对应的通话记录的数量。

比例确定子模块545,被配置为根据统计子模块544统计的每种骚扰类型对 应的通话记录的数量与目标通话记录集合中通话记录的总数的比值,确定每种 骚扰类型在目标通话记录集合中的比例。

号码确定子模块546,被配置为在比例确定子模块545确定的目标通话记录 集合中存在比例大于比例阈值的骚扰类型时,确定所述第一可疑电话号码为骚 扰电话号码。

如图5-3所示,其为本公开实施例示提供的另一种骚扰电话号码确定装置的 框图。

可选的,该装置还包括:

类型确定模块550,被配置为将比例确定子模块545确定的目标通话记录集 合中比例最大的骚扰类型作为骚扰电话号码的骚扰类型。

可选的,每个目标通话记录中包含有两个电话号码,两个电话号码中包含 有陌生号码。

号码获取模块520,被配置为对集合获取模块510获取的通话记录集合进行 去重复处理,去重复处理用于丢弃至少两个同类通话记录中除包含关键词最多 的目标通话记录之外的通话记录,同类通话记录为包含相同的两个电话号码的 目标通话记录;获取处理后的通话记录集合中N个可疑号码。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定装置,通过将 目标通话记录中出现次数最多的N个号码确定为可疑号码,达到了增加最终确 定的骚扰电话号码的准确性的效果。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定装置,通过目 标通话记录集合中各骚扰类型对应的目标通话记录在目标通话记录集合中的比 例来筛选出骚扰电话号码,达到了进一步增加确定的骚扰电话号码的准确性的 效果。

综上所述,本公开实施例提供的骚扰电话号码确定装置,通过将通话记录 集合中出现次数最多的N个陌生号码确定为可疑号码,再将可疑号码所在的目 标通话记录包含的关键词中存在骚扰特征词的可疑号码确定为骚扰电话号码, 其中关键词为表征通话主题的词,方便快捷的确定出通话记录集合包含的大量 电话号码中的骚扰电话号码,达到了提高骚扰电话号码的获取效率的效果。

如图5-1和图5-3所示的骚扰电话号码确定装置,用于执行如图2和图4-1 所示的方法流程。

如图5-2所示的确定模块,用于执行如图4-4所示的方法流程。

图6-1是根据一示例性实施例示出的另一种骚扰电话号码确定装置的框图, 本实施例以该骚扰电话号码确定装置应用于图1所示实施环境中的终端11中来 举例说明,该骚扰电话号码确定装置可以包括:

终端获取模块610,被配置为获取与陌生号码通话的通话语音数据和通话记 录,通话记录中包含有陌生号码,陌生号码为通讯录中未存储的号码。

转化模块620,被配置为将终端获取模块610获取的通话语音数据转化为通 话内容文本数据。

关键词获取模块630,被配置为获取转化模块620获取的通话内容文本数据 的至少一个关键词,至少一个关键词为表征通话内容文本数据的通话主题的词。

目标生成模块640,被配置为根据关键词获取模块630获取的至少一个关键 词和通话记录生成目标通话记录,目标通话记录中包含有陌生号码和至少一个 关键词。

记录提供模块650,被配置为将目标生成模块640生成的目标通话记录提供 给服务器,服务器用于根据目标通话记录中的陌生号码和至少一个关键词确定 陌生号码是否为骚扰电话号码。

综上所述,本公开实施例提供的骚扰电话号码确定装置,通过获取目标通 话记录,该目标通话记录中包含有陌生号码和至少一个关键词,并将该目标通 话记录提供给服务器,服务器用于根据该目标通话记录中的陌生号码和至少一 个关键词来确定该陌生号码是否为骚扰电话号码,达到了提高骚扰电话号码获 取效率的效果。

图6-2是图6-1示出的骚扰电话号码确定装置中的关键词获取模块630的框 图,该关键词获取模块630,包括:

分词子模块631,被配置为对内容文本数据进行分词处理得到包含有至少一 个词的分词结果。

因子获取子模块632,被配置为获取分词子模块631得到的分词结果中每个 词的关键词因子,关键词因子正相关于每个词的主题相关度,每个词的主题相 关度用于指示每个词与通话内容文本数据的通话主题相关的程度。

因子排序子模块633,被配置为按照因子获取子模块632获取的关键词因子 的大小将分词结果中的词降序排列。

关键词确定子模块634,被配置为将因子排序子模块633的排列中排名前M 位的词作为内容文本数据的关键词。

可选的,因子获取子模块632,被配置为根据预设类型词典获取分词子模块 631得到的分词结果中每个词的类型,类型用于表征每个词的特征;根据预设的 类型与权值的对应关系,按照分词结果中每个词的类型为每个词分配权值;获 取分词结果中每个词的词频;将每个词的权值与词频的乘积作为每个词的关键 词因子。

可选的,因子获取子模块632,被配置为去除分词子模块631得到的分词结 果中类型为语气词、人称代词和修饰词的词得到处理后的分词结果;获取处理 后的分词结果中每个词的关键词因子。

需要补充说明的是,本公开实施例提供的骚扰电话号码确定装置,通过关 键词因子的大小来判断分词结果中的词是否为关键词,达到了提高关键词的准 确性的效果。

综上所述,本公开实施例提供的骚扰电话号码确定装置,通过获取目标通 话记录,该目标通话记录中包含有陌生号码和至少一个关键词,并将该目标通 话记录提供给服务器,服务器再根据该目标通话记录中的陌生号码和至少一个 关键词来确定该陌生号码是否为骚扰电话号码,达到了提高骚扰电话号码获取 效率的效果。

如图6-1所示的骚扰电话号码确定装置,用于执行如图3所示的方法流程。

如图6-2所示的关键词获取模块,用于执行如图4-2所示的方法流程。

图7是根据一示例性实施例示出的一种用于确定骚扰电话号码的装置700 的框图。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发 设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图7,装置700可以包括以下一个或多个组件:处理组件702,存储器 704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口 712,传感器组件714,以及通信组件716。

处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数 据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多 个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理 组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。 例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件 702之间的交互。

存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些 数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人 数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失 性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM), 电可擦除可编程只读存储器(张三PROM),可擦除可编程只读存储器(EPROM), 可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器, 磁盘或光盘。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电 源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相 关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏 幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如 果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。 触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。 所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸 或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一 个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频 模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄 像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能 力。

音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括 一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音 识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进 一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件 710还包括一个扬声器,用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口 模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音 量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的 状态评估。例如,传感器组件714可以检测到装置700的打开/关闭状态,组件 的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还 可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存 在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714 可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存 在。传感器组件714还可以包括光传感器,如CMOS或恭喜D图像传感器,用 于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度 传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通 信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们 的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广 播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组 件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可 基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技 术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、 数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、 现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实 现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介 质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完 成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取 存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置700 的处理器执行时,使得装置700能够执行上述各个实施例提供的骚扰电话号码 确定方法。

图8是根据一示例性实施例示出的一种用于确定骚扰电话号码的装置800 的框图。例如,装置800可以被提供为一服务器。参照图8,装置800包括处理 组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器 资源,用于存储可由处理部件822执行的指令,例如应用程序。存储器832中 存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此 外,处理组件822被配置为执行指令,以执行上述骚扰电话号码确定方法。

装置800还可以包括一个电源组件826被配置为执行装置800的电源管理, 一个有线或无线网络接口850被配置为将装置800连接到网络,和一个输入输 出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统,例 如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。

图9是根据一示例性实施例示出的一种骚扰电话号码确定系统,该系统包 括:服务器910和终端920。

服务器910可以包括图5-1所示的骚扰电话号码确定装置或图5-3所示的骚 扰电话号码确定装置。

终端920可以包括图6-1所示的骚扰电话号码确定装置。

图10是根据一示例性实施例示出的一种骚扰电话号码确定系统,该系统包 括:服务器1010和终端1020。

服务器1010可以包括图8所示的骚扰电话号码确定装置。

终端1020可以包括图7所示的骚扰电话号码确定装置。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公 开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化, 这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开 的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性 的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结 构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的 权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号