首页> 中国专利> 目标文本主题词的选取方法、装置及终端

目标文本主题词的选取方法、装置及终端

摘要

本发明实施例公开了目标文本主题词的选取方法、装置及终端。一种目标文本主题词的选取方法,包括:对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。本发明实施例提供的技术方案,提供了将短语选择为主题词的可能性,有利于提高目标文本主题词选取的准确性。

著录项

  • 公开/公告号CN105159927A

    专利类型发明专利

  • 公开/公告日2015-12-16

    原文格式PDF

  • 申请/专利权人 北京金山安全软件有限公司;

    申请/专利号CN201510472798.4

  • 发明设计人 陈欣荣;

    申请日2015-08-04

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构44202 广州三环专利代理有限公司;

  • 代理人郝传鑫;熊永强

  • 地址 100085 北京市海淀区小营西路33号二层东区

  • 入库时间 2023-12-18 12:59:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-15

    授权

    授权

  • 2016-01-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150804

    实质审查的生效

  • 2015-12-16

    公开

    公开

说明书

技术领域

本发明涉及文本处理领域,具体涉及一种目标文本主题词的选取方法、装 置及终端。

背景技术

目前,手机、电脑等终端可以提供文件分类、信息检索、广告推荐等服务。 例如可以将目标文本划分到与其内容匹配的类别、从多个文件中找到与检索操 作匹配目标文本、或者利用记载了用户相关信息的目标文本向用户终端推送广 告等等。

上述这些操作都涉及到对目标文件进行处理。通常先从目标文本中选取若 干个主题词,然后以选取的主题词代替目标文本参与相关操作。其中,主题词 源于目标文本,可以概括目标文本的内容特征。

本发明的发明人在研究和实践过程中发现,在对目标文本进行处理选取主 题词时,现有技术一般是将目标文本按照最小语义原则进行分词操作得到多个 词语,然后删除停用词(比如的、了、标点符号等)。对剩余的词语进行计算, 统计每个词语在目标文本中出现的次数(TermFrequency,简称TF),以及利 用训练文本计算每个词的逆向文件频率值(termfrequency–inversedocument frequency,简称IDF)。最后将TF和IDF相乘得到每个词语的权重,按照所需 主题词的个数N,选取权重较大的N个词语作为主题词。

采用现有技术方案,举例说明,例如,目标文本为“小米手机是国产智能 手机的代表,是国产民族品牌的佼佼者。”,对其进行分词操作得到如下分词结 果:“小米/手机/是/国产/智能/手机/的/代表/,/是/国产/民族/品牌/的/佼佼者/。”, 其中,每个词语用”/”分开,删除分词操作得到的停用词:“是/的/,/。”。

若每个词语在目标文本中出现的次数TF如表一所示,利用训练文本计算 得到的词语的IDF如表二所示,则词语的权重如表三所示:

表一词语在目标文本中出现的次数TF的列表

词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者 TF 1 2 2 1 1 1 1 1

表二利用训练文本计算得到的词语的逆向文件频率值IDF的列表

词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者 IDF 5.1 3.4 2.9 4.0 3.0 5.2 3.0 7.0

表三词语的权重的列表

词语 小米 手机 国产 智能 代表 民族 品牌 佼佼者 词语的权重 5.1 6.8 5.8 4.0 3.0 5.2 3.0 7.0

若需要四个主题词,则由表三根据权重由大到小选取出四个词语:‘佼佼 者、手机、国产、民族’作为目标文本的主题词。根据这四个词语的含义及目 标文本的内容,可知,用这四个词语作为目标文本的主题词时,其表达的意思 与目标文本表达的意思存在较大差异。

因此,采用现有技术对目标文本主题词进行选取时,选取的主题词有时不 够准确。

发明内容

本发明实施例提供一种目标文本主题词的选取方法、装置及终端,以期提 高目标文本主题词选取的准确性。

本发明实施例第一方面提供一种目标文本主题词的选取方法,包括:

对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1的整数;

获取所述K1个词语的词性和位置;

基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件 的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;

从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为 所述目标文本的N个主题词,其中,所述N为小于K1的整数。

结合第一方面,在第一方面的第一种可能的实施方式中,

所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、 形容词名词、或者数量词名词,则将相邻的词语合并为短语。

结合第一方面,在第一方面的第二种可能的实施方式中,

若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;

所述从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语 作为所述目标文本的N个主题词,包括:

从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或 短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可 能的实施方式,在第一方面的第三种可能的实施方式中,

词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆 向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;

短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆 向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。

本发明实施例第二方面提供一种目标文本主题词的选取装置,包括:

分词单元,用于对目标文本进行分词操作,得到K1个词语,其中,所述 K1为大于1的整数;

获取单元,用于获取所述K1个词语的词性和位置;

合并单元,用于基于所述K1个词语的词性和位置,将所述K1个词语中满 足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为 大于等于1的整数;

选取单元,用于从所述K1个词语和所述K2个短语中选取N个权重较大的 词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

结合第二方面,在第二方面的第一种可能的实施方式中,

所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、 形容词名词、或者数量词名词,则将相邻的词语合并为短语。

结合第二方面,在第二方面的第二种可能的实施方式中,

所述选取单元具体用于,若所述K1个词语中包括K3个停用词,则从所述 K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或短语作为所 述目标文本的N个主题词,其中,所述K3为小于K1的整数,所述N为小于K1 的整数。

结合第二方面、第二方面的第一种可能的实施方式或第二方面的第二种可 能的实施方式,在第二方面的第三种可能的实施方式中,

词语i的权重为所述词语i在所述目标文本中出现的次数与所述词语i的逆 向文本频率值的乘积,其中,所述词语i为所述K1个词语中的任意一个词语;

短语j的权重为所述短语j在所述目标文本中出现的次数与所述短语j的逆 向文本频率值的乘积,其中,所述短语j为所述K2个短语中的任意一个短语。

本发明实施例第三方面提供一种终端,包括上述的目标文本主题词的选取 装置。

本发明实施例提供的技术方案,将目标文本分词后,将满足预设合并条件 的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。相对于现 有技术,本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取 对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的 各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本 发明实施例提供了将短语选择为主题词的可能性,有利于提高目标文本主题词 选取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1-a是本发明实施例提供的一种目标文本主题词的选取方法的流程示意 图;

图1-b是本发明实施例提供的另一种目标文本主题词的选取方法的流程示 意图;

图1-c是本发明实施例提供的另一种目标文本主题词的选取方法的流程示 意图;

图2是本发明实施例提供的另一种目标文本主题词的选取方法的流程示意 图;

图3是本发明实施例提供的一种目标文本主题词的选取装置的示意图;

图4是本发明实施例提供的一种终端的示意图。

具体实施方式

本发明实施例提供目标文本主题词的选取方法、装置及终端,以期提高目 标文本主题词选取的准确性。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施 例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本发明保护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第 三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术 语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如 包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出 的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对 于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明目标文本主题词的选取方法的一个实施例。其中,一种目标文本 主题词的选取方法可以包括:对目标文本进行分词操作,得到K1个词语,其 中,所述K1为大于1的整数;获取所述K1个词语的词性和位置;基于所述K1 个词语的词性和位置,将所述K1个词语中满足预设合并条件的相邻的词语合 并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;从所述K1个 词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标文本的 N个主题词,其中,所述N为小于K1的整数。

参见图1-a,图1-a为本发明的一个实施例提供的一种目标文本主题词的选 取方法的流程示意图。如图1所示,本发明的一个实施例提供的一种目标文本 主题词的选取方法可以包括如下步骤:

S101、对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1 的整数。

其中,上述目标文本可以是包括多个词语、标点符号或者其他字符的字符 串。比如“物联网通俗来讲就是物物相连的网络,根本上还是以互联网为基础, 只是在它的基础上做了一些延伸和扩展,延伸到了任何物体和物体之间,进行 信息交换和通信。”这段话可以作为一个目标文本。背景技术中提到的“小米 手机是国产智能手机的代表,是国产民族品牌的佼佼者。”这句话也可以作为 一个目标文本。

对目标文本进行分词操作,是指将目标文本进行拆分,比如按照最小语义 原则将目标文本拆分成一个个语义独立的词语,具体地,拆分后得到的词语可 以是有具体含义的词语,也可能包括没有具体含义的停用词,比如标点符号、 是、的、得、地、了等。

S102、获取所述K1个词语的词性和位置。

其中,词性可以包括:名词、动词、形容词、助词、感叹词、标点符号、 特殊字符等。词语的位置指词语之间的相对位置关系,比如相邻或者非相邻等。

比如“今天天气晴朗。”,拆分后得到的4个词语,分别为:“今天/天气/晴 朗/。”。则对该目标文本进行分词后获得的4个词语的词性分别是:名词、名词、 形容词、标点符号。K1个词语的位置包括:‘今天’与‘天气’是临近词、‘天 气’与‘晴朗’是临近词、‘晴朗’与‘。’是相邻词。

S103、基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合 并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1 的整数。

可选的,在本发明一些可能的实施方式中,所述预设合并条件可以包括: 若相邻词语的词性依次为:名词名词、动词名词、形容词名词或者数量词名词, 则将相邻的词语合并为短语。具体地,预设合并条件可以是上述相邻词性的一 种或者多种,当然,也可以设置预设合并条件包括其他相邻词性的词语进行合 并。如前面所述的目标文本“今天天气晴朗。”分词后得到的词语中,相邻词 语‘今天’与‘天气’是名词名词,符合预设合并条件,则将‘今天’与‘天 气’合并,合并后得到短语‘今天天气’。

S104、从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短 语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

对于上面的目标文本“今天天气晴朗。”可以从“今天/天气/晴朗/。/今天 天气”这几个词中选取主题词,具体地可以按照权重值由大到小的顺序选取主 题词,比如若选取两个主题词,删除停用词‘。’,其余几个词语及短语“今天 /天气/晴朗/今天天气”的权重依次为:3.3、3.0、4.2、3.5,则按照权重由大到 小选择权重位于前两位的词或者短语作为该目标文本的主题词,即选取‘晴朗’ 和‘今天天气’作为主题词。

可以看出,由于短语‘今天天气’为主题词的选取对象,当其权重较大符 合条件时,选择‘今天天气’比选择‘今天’或者‘天气’与目标文本的内容 更加匹配。因此采用本发明实施例提供的技术方案选取主题词时增加了主题词 选取的准确性。

可选的,在本发明一些可能的实施方式中,如图1-b所示,在S106、从所 述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为所述目标 文本的N个主题词之前,还包括:

S105、计算所述K1个词语和所述K2个短语的权重。

可选的,在本发明一些可能的实施方式中,如图1-c所示,若所述K1个词 语中包括K3个停用词,其中,所述K3为小于K1的整数;

在S103之后,还可以包括:

S107、计算所述K1个词语中K1-K3个非停用词的权重以及K2个短语的权 重。

S108、从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词 语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

可选的,在本发明一些可能的实施方式中,权重可以通过如下方法计算得 到:

首先,统计词语或者短语在所述目标文本中出现的次数TF。比如“今天/ 天气/晴朗/今天天气”这四个词语和短语在目标文本“今天天气晴朗。”中出现 的次数都是1次,如表四所示。

表四

词语或短语 今天 天气 晴朗 今天天气 TF 1 1 1 1

其次,利用训练文本计算词语或者短语的逆向文本频率值IDF。IDF可以 由训练文本的总文件数目除以包含所述词语或者短语的文件的数目,再将得到 的商取对数得到。其中,训练文本是事先收集的一些相关文本集。比如,利用 训练文本计算“今天/天气/晴朗/今天天气”这四个词语和短语得到的IDF分别 为:3.3、3.0、4.2、6.3,如表五所示。

表五

词语或短语 今天 天气 晴朗 今天天气 IDF 3.3 3.0 4.2 6.3

然后,将词语或者短语的TF与IDF相乘得到词语或者短语的权重,比如利 用前面的统计及计算结果,“今天/天气/晴朗/今天天气”这四个词语和短语的 权重分别为:3.3、3.0、4.2、6.3,如表六所示。

表六

词语或短语 今天 天气 晴朗 今天天气 权重 3.3 3.0 4.2 6.3

采用本发明实施例,若主题词的个数为两个,则根据对应权重由大到小的 顺序选取‘今天天气’和‘晴朗’作为主题词。

可以看出,本发明实施例的技术方案中,将目标文本分词后,将满足预设 合并条件的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。 相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时, 根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得 到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。 因此,本发明实施例提供的目标文本主题词的选取方法,有利于提高目标文本 主题词选取的准确性。

为便于更好的理解和实施本发明实施例的上述方案,下面通过一些具体的 应用场景进行举例说明。

参见图2,图2为本发明的另一个实施例提供的一种目标文本主题词的选取 方法的流程示意图。在该实施例中,以目标文本为背景技术中提到的“小米手 机是国产智能手机的代表,是国产民族品牌的佼佼者。”为例。

如图2所示,本发明的一个实施例提供的一种目标文本主题词的选取方法 可以包括:

S201、对目标文本进行分词操作,得到K1个词语,其中,所述K1为大于1 的整数。

需要说明的是,在该实施例中以“小米手机是国产智能手机的代表,是国 产民族品牌的佼佼者”作为目标文本。

对目标文本进行分词操作,目标文本分词后得到的词语分别是“小米/手 机/是/国产/智能/手机/的/代表/,/是/国产/民族/品牌/的/佼佼者/。”,其中,每个 词语用”/”分开。

S202、获取所述K1个词语的词性和位置。

分此操作后得到的词语依次为:名词、名词、动词、动词、形容词、名词、 助词、名词、标点符号、动词、动词、名词、名词、助词、名词、标点符号。

所述词语按照分词操作后的位置依次相邻。

S203、基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合 并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1 的整数。

所述预设合并条件可以包括:若相邻词语的词性依次为:名词名词,或者 形容词名词时则将相邻的词语合并为短语。

因此根据该该合并条件,得到的3个短语,合并后的短语包括:小米手机、 智能手机、民族品牌。

S204、若所述K1个词语中包括K3个停用词,统计所述K1个词语中K1-K3 个非停用词及K2个短语在所述目标文本中出现的次数。

在该实施例中包括的停用词包括:“是/的/,/。”。

则统计非停用词和3个短语在目标文本中出现的次数,如表七所示。

表七

S205、利用训练文本计算所述K1-K3个非停用词及所述K2个短语的逆向文 件频率值。

利用训练文本计算词语或者短语的逆向文本频率值IDF。IDF可以由训练 文本的总文件数目除以包含所述词语或者短语的文件的数目,再将得到的商取 对数得到。其中,训练文本是事先收集的一些相关文本集。在该实施例中假设 利用训练文本计算后得到上述10个词语和3个短语的IDF如表八中所示。

表八

S206、将所述K1-K3个非停用词和所述K2个短语在所述目标文本中出现的 次数与所述词或者词语的逆向文本频率值相乘得到所述K1-K3个非停用词及 所述K2个短语权重的权重。

具体地,将词语或者短语的TF与IDF相乘得到词语或者短语的权重,如表 九中所示。

表九

S207、从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词 语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

若需要四个主题词,即N=4时,由表九根据权重由大到小选取的主题词 包括‘小米手机、民族品牌、智能手机、佼佼者’。根据这四个词语或短语的 含义及目标文本的内容,可知,用这四个词语或短语作为目标文本的主题词, 相对于采用现有技术中的选取方法选取的主题词,其表达的意思与目标文本表 达的意思更加接近,因此采用本发明实施提供的技术方案有利于提高目标文本 主题词选取的准确性。

本发明实施例还提供用于实施上述方案的相关装置。

参见图3,本发明实施例提供的一种目标文本主题词的选取装置300,可包 括:

分词单元301,用于对目标文本进行分词操作,得到K1个词语,其中,所 述K1为大于1的整数。

获取单元302,用于获取所述K1个词语的词性和位置。

合并单元303,用于基于所述K1个词语的词性和位置,将所述K1个词语中 满足预设合并条件的相邻的词语合并为短语,得到K2个短语,其中,所述K2 为大于等于1的整数。

可选的,在本发明一些可能的实施方式中,预设合并条件包括:若相邻词 语的词性依次为:名词名词、动词名词、形容词名词、或者数量词名词,则将 相邻的词语合并为短语。

选取单元304,用于从所述K1个词语和所述K2个短语中选取N个权重较大 的词语或短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

可选的,在本发明一些可能的实施方式中,若所述K1个词语中包括K3个 停用词,所述选取单元具体用于,从所述K1-K3个非停用词和所述K2个短语中 选取N个权重较大的词语或短语作为所述目标文本的N个主题词,其中,所述 N为小于K1的整数。

可选的,在本发明一些可能的实施方式中,词语i的权重为所述词语i在所 述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述 词语i为所述K1个词语中的任意一个词语;短语j的权重为所述短语j在所述目标 文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为 所述K2个短语中的任意一个短语。

可以理解的是,本实施例的目标文本主题词的选取装置300的各功能模块 的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上 述方法实施例的相关描述,此处不再赘述。目标文本主题词的选取装置300可 部署于手机、计算机等终端。

可以看出,本发明实施例的技术方案中,目标文本主题词的选取装置中的 分词单元将目标文本分词后,合并单元将满足预设合并条件的相邻的词语进行 合并,选取单元并将合并后的短语作为主题词的选取对象。相对于现有技术, 本发明实施例增加了主题词的选取对象,在选取主题词时,根据选取对象的权 重可能会将短语选为目标文本的主题词,由于短语相对于得到短语的各词语其 含义与目标文本的含义更加接近,其作为主题词更加准确。因此,本发明实施 例提供的目标文本主题词的选取装置,有利于提高目标文本主题词选取的准确 性。

参见图4,图4是本发明的另一实施例提供的终端400的结构框图。其 中,终端400可包括:至少1个处理器401,存储器402、用户接口403和至 少1个通信总线404。其中,通信总线404用于实现这些组件之间的连接通 信。

用户接口403可以包括显示屏、键盘或者触摸屏等装置,可以用于接收 用户的输入的指令,也可以接收用户通过键盘或者触摸屏输入的目标文本, 当然目标文本也可以是已经存储在存储器中的文本,或者从其他终端或者从 网络获得的文本。

其中,存储器402可以包括只读存储器和随机存取存储器,可以用于存 储程序代码并向处理器401提供指令和数据。存储器402中的一部分还可以包 括非易失性随机存取存储器。

在本发明的实施例中,通过调用存储器402存储的程序代码或指令,处 理器401用于对目标文本进行分词操作,得到K1个词语,其中,所述K1为 大于1的整数;

获取所述K1个词语的词性和位置;

基于所述K1个词语的词性和位置,将所述K1个词语中满足预设合并条件 的相邻的词语合并为短语,得到K2个短语,其中,所述K2为大于等于1的整数;

从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语作为 所述目标文本的N个主题词,其中,所述N为小于K1的整数。

所述预设合并条件包括:若相邻词语的词性依次为:名词名词、动词名词、 形容词名词、或者数量词名词,则将相邻的词语合并为短语。

可选的,在本发明一些可能的实施方式中,

若所述K1个词语中包括K3个停用词,其中,所述K3为小于K1的整数;

所述从所述K1个词语和所述K2个短语中选取N个权重较大的词语或短语 作为所述目标文本的N个主题词,包括:

从所述K1-K3个非停用词和所述K2个短语中选取N个权重较大的词语或 短语作为所述目标文本的N个主题词,其中,所述N为小于K1的整数。

可选的,在本发明一些可能的实施方式中,词语i的权重为所述词语i在所 述目标文本中出现的次数与所述词语i的逆向文本频率值的乘积,其中,所述 词语i为所述K1个词语中的任意一个词语;短语j的权重为所述短语j在所述目标 文本中出现的次数与所述短语j的逆向文本频率值的乘积,其中,所述短语j为 所述K2个短语中的任意一个短语。

可以看出,本发明实施例的技术方案中,将目标文本分词后,将满足预设 合并条件的相邻的词语进行合并,并将合并后的短语作为主题词的选取对象。 相对于现有技术,本发明实施例增加了主题词的选取对象,在选取主题词时, 根据选取对象的权重可能会将短语选为目标文本的主题词,由于短语相对于得 到短语的各词语其含义与目标文本的含义更加接近,其作为主题词更加准确。 因此,本发明实施例提供的目标文本主题词的选取方法,有利于提高目标文本 主题词选取的准确性。

本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存 储有程序,该程序执行时包括上述方法实施例中记载的任何一种目标文本主题 词的选取方法的部分或全部步骤。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表 述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描 述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者 同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没 有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其 它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单 元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例 如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽 略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连 接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其 它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全 部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或 者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的 存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存 储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以 存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,其中,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中 部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号