首页> 中国专利> 一种确定图片簇描述文本核心词的方法及装置

一种确定图片簇描述文本核心词的方法及装置

摘要

本发明提供一种确定图片簇描述文本核心词的方法及装置,解决现有核心词确定不准确的问题。该方法针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描述文本进行切词,根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的分数值及每个基础词在文本簇中的总分数值,从而确定图片簇的核心词。由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述图片簇的语意。

著录项

  • 公开/公告号CN103646074A

    专利类型发明专利

  • 公开/公告日2014-03-19

    原文格式PDF

  • 申请/专利号CN201310674702.3

  • 发明设计人 陶哲;

    申请日2013-12-11

  • 分类号G06F17/30(20060101);

  • 代理机构11448 北京中强智尚知识产权代理有限公司;

  • 代理人姜精斌

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2024-02-19 22:53:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-18

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2013106747023 申请日:20131211 授权公告日:20170623

    专利权的终止

  • 2017-06-23

    授权

    授权

  • 2014-04-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131211

    实质审查的生效

  • 2014-03-19

    公开

    公开

说明书

技术领域

本发明涉及数据通信技术领域,尤其涉及一种确定图片簇描述文本核心词 的方法及装置。

背景技术

现有技术中搜索引擎依据网络爬虫/网络蜘蛛抓取互联网上的各个页面,针 对每个页面的描述文本,可以确定每个页面的核心词。

但是,当搜索引擎抓取到的海量图片做相似度识别后会发现很多一组一组 的相似图片,其中,每张图片都有源网页上自身的不完全相同的图片描述文本, 同时也有可能是描述不实的图片描述文本。这样要确定图片对应其内容的真实 的图片描述文本或核心词就异常困难,对于不断更新的海量图片全部通过人工 标注的方式也是不现实的。另外,因为图片描述文本一般包含的字节数较少, 并且其中还可能包含很多与图片不相关的干扰信息,从而无法从中确定较准确 的核心词,也为确定与图片真实匹配的核心词或描述文本造成了极大的困难。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决或者减缓上述问题的一种确定图片簇描述文本核心词的方法及装置。

本发明实施例提供一种确定图片簇描述文本核心词的方法,该方法包括:

针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述 图片描述文本保存在文本簇中;

对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中 的基础词;

根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权 值,并确定每个基础词在每个图片描述文本中的分数值;

根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本 簇中的总分数值;

根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。

较佳地,为了准确的确定出每个图片簇的核心词,确定每个基础词在文本 簇中的总分数值之后,所述方法还包括:

根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的 总得分值;

根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;

判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本的 数量是否达到设定的收敛阈值;

当该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文 本簇中确定该图片簇的核心词,否则,重新确定该文本簇中剩余的每个图片描 述文本的总得分值直至确定出图片簇的核心词。

较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述确 定每个基础词在每个图片描述文本中的权值之前,所述方法还包括下述至少一 个步骤:

对切词处理后的基础词进行去噪声处理;和

对文本簇中每个图片描述文本进行去噪声处理。

较佳地,在本发明实施例中为了更加准确的确定文本簇的核心词。所述对 切词处理后的基础词进行去噪声处理包括:

将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;

当匹配成功时,确定该基础词为无意义词,将该基础词删除。

较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述对 文本簇中每个图片描述文本进行去噪声处理包括以下至少一个处理步骤:

判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足 设定的过滤条件时,将该图片描述文本删除;和

将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺 序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈 值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时, 删除该两个图片描述文本中的一个图片描述文本。

较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述确定该 基础词在该图片描述文本中的权值包括:

根据统计的每个基础词的频度,确定该基础词的基础值;

根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位 置权重值,确定每个基础词的位置值;

根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重 值,确定该基础词的长度值;

根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础 词的词性值;

根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词 的子权值;

根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该 基础词在该图片描述文本中的权值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述重新 确定每个图片描述文本的总得分值包括:

根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,确定每个 基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定 每个图片描述文本的总得分值;或

根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,对该基础 词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后 的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确 定每个图片描述文本归一化后的总得分值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而确定较准确的图片簇的核心词。 所述对该基础词的分数值进行归一化处理包括:

根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词 的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词 的分数值的和对该基础词的分数值进行归一化处理;或

根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词 的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词 的分数值的积对该基础词的分数值进行归一化处理。

本发明实施例提供一种确定图片簇描述文本核心词的装置,所述装置包 括:

图片簇库,用于存储每个图片簇,其中每个图片簇中包括多张图片;并根 据核心词提取模块确定的每个图片簇的核心词,保存每个图片簇及其核心词的 对应关系;

文本簇库,用于针对每个图片簇,存储该图片簇中每个图片提取出的图片 描述文本构成的文本簇;

切词模块,用于对文本簇中的每个图片描述文本进行切词处理,得到每个 图片描述文本中的基础词;

分数值计算模块,用于根据每个基础词的属性信息,确定每个基础词在每 个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数 值;

总分数值计算模块,用于根据每个基础词在每个图片描述文本中的分数 值,确定每个基础词在文本簇中的总分数值;

核心词提取模块,用于根据确定的每个基础词在文本簇中的总分数值,确 定该图片簇的核心词。

较佳地,为了准确的确定出每个图片簇的核心词,所述装置还包括:

总得分值计算模块,用于根据确定的每个基础词在文本簇中的总分数值, 确定每个图片描述文本的总得分值;

删除判断模块,用于根据每个图片描述文本的总得分值,删除设定数量的 图片描述文本;判断删除设定数量的图片描述文本后,该文本簇中包含的图片 描述文本数量是否达到设定的收敛阈值;当确定文本簇中包含的图片描述文本 数量未达到设定的收敛阈值时,通知总得分值计算模块重新确定该文本簇中剩 余的每个图片描述文本的总得分值;

所述核心词提取模块,还用于当删除判断模块确定该文本簇中包含的图片 描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心 词。

较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述装 置还包括:

过滤模块,用于对切词处理后的基础词进行去噪声处理;和/或对文本簇中 每个图片描述文本进行去噪声处理。

较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述过 滤模块,具体用于将切词后得到的每个基础词与保存的无意义词库中的每个词 进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础词删除。

较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述过 滤模块,具体用于判断每个图片描述文本是否满足设定的过滤条件;当该图片 描述文本满足设定的过滤条件时,将该图片描述文本删除;和/或将每两个图片 描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片 描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描 述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述 文本中的一个图片描述文本。

较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述分数值 计算模块,具体用于根据统计的每个基础词的频度,确定该基础词的基础值; 根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权 重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种 基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性, 及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该 基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确 定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该 图片描述文本中的权值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块,还用于根据文本簇中删除图片描述文本后,每个基础词在每个 图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个 基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块,还用于根据文本簇中删除图片描述文本后,每个基础词在每个 图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础 词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据 其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分 值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确 定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片 描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确 定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片 描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。

本发明实施例提供一种确定图片簇描述文本核心词的方法及装置,该方法 包括针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描 述文本进行切词处理得到每个基础词,根据每个基础词的属性信息,确定每个 基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本 中的分数值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词在 文本簇中的总分数值,确定图片簇的核心词。由于在本发明实施例中针对图片 簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属 性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础 词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词, 从而可以保证选择出的核心词能准确描述图片簇的语意。

附图说明

图1为本发明实施例提供的一种确定图片簇描述文本核心词的过程示意 图;

图2为本发明实施例提供的一种确定图片簇描述文本核心词的详细实施过 程示意图;

图3为本发明实施例提供的一种确定图片簇描述文本核心词的另一详细实 施过程示意图;

图4为本发明实施例提供的一种确定图片簇描述文本核心词的再一详细实 施过程示意图;

图5为本发明实施例提供的一种确定图片簇描述文本核心词的装置结构示 意图。

具体实施方式

为了能够准确的确定出近似多张图片的图片簇的核心词,从而准确的描述 图片簇的语意,本发明实施例提供了一种确定图片簇描述文本核心词的方法及 装置。

本发明实施例在进行核心词的确定时,将整个确定过程抽象为一个投票过 程。例如有10个投票人,N个候选人,每个投票人有一次投票的权利。在本 发明实施例中就是将每个投票人的一次投票权利拆分开来,例如其可以向A投 0.1票,向B投0.9票。

每个投票人都有自己的背景和主流意识,因此将导致投票结果的不同。在 进行多次投票时,每一次投票之后,候选人之间会有一个排名。投票人可能会 受本次投票结果的启发,从而调整自己下一次的投票。另外,通过投票的结果 也可以发现一些比较“恶劣的投票人”,这些人应该从投票队伍中剔除,并且 他们投的“候选人”也可能是恶劣性质的可疑的人。

本发明实施例基于该抽象过程,可以将基础词作为投票人,将图片描述文 本作为候选人,根据基础词的属性信息确定最终的图片描述文本,从而从中确 定相应的核心词。

下面结合说明书附图,对本发明实施例进行详细说明。

图1为本发明实施例提供的一种确定图片簇描述文本核心词的过程示意 图,该过程包括以下步骤:

S101:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每 个所述图片描述文本保存在文本簇中。

在每个图片簇中包含相似的多张图片,该相似的多张图片可以是包含同一 特定信息的图片,或者都是源于同一张图片做图片处理后得到的。例如在某一 图片簇中都包含某一人物,张三,或者在某一图片簇中都包含某一特定信息, 海啸、地震等等。这些相似图片可以通过现有图片识别技术来确定。在图片簇 中每个图片都有其对应的图片描述文本,将图片簇中每个图片的描述文本提取 出来保存到文本簇中,从而得到每个图片簇对应的每个文本簇。

S102:对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述 文本中的基础词。

对图片描述文本进行切词处理的过程属于现有技术,在本发明实施例中就 不对该过程进行说明,相信本领域技术人员可以根据本发明实施例的描述确定 相应的切词方式。

将图片描述文本进行切词后,得到每个图片描述文本包括的基础词,每个 图片描述文本中可以包括一个、两个、三个以上的基础词。并且图片描述文本 中包含的每个基础词之间可以不同,也可以相同。例如某一图片描述文本中切 词后得到基础词A、B、C、A、D,该图片描述文本包含的基础词为4个,其 中基础词A在该图片描述文本中出现了2次。

S103:根据每个基础词的属性信息,确定每个基础词在每个图片描述文本 中的权值,并确定每个基础词在每个图片描述文本中的分数值。

确定每个基础词在每个图片描述文本中的权值时,根据每个基础词的属性 信息来确定。具体的针对每个图片描述文本,根据切词后该图片描述文本中每 个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础 词在该图片描述文本中的权值。

当确定了每个图片描述文本中的基础词后,确定图片描述文本中的每个基 础词,在该图片描述文本中的权值。具体的,在确定基础词在图片描述文本中 的权值时,根据基础词的属性信息及该基础词在该图片描述文本中出现的次数 确定。该基础词的属性信息包括:基础词的频度信息、基础词在图片描述文本 中的位置信息、基础词包含的字节数信息以及基础词的词性信息等。

另外,图片描述文本中可能包括多个相同的基础词,而每个基础词在该图 片描述文本中出现的位置不同,因此同一基础词在同一图片描述文本中,由于 其位于图片描述文本的不同位置,因此同一基础词可能对应多个不同的子权 值,将该同一基础词对应的多个子权值相加,即可得到该基础词在该图片描述 文本中的权值。

当确定了每个基础词在每个图片描述文本中的权值后,针对每个图片描述 文本,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中 每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本 中的分数值。

确定了图片描述文本中的每个基础词在该图片描述文本中的权值后,为了 确定每个基础词在图片描述文本中的重要程度,在本发明实施例中需要确定每 个基础词在图片描述文本中的分数值。在确定每个基础词在图片描述文本中的 分数值时,根据每个基础词在该图片描述文本中的权值,及该图片描述文本中 每个基础词在该图片描述文本中的权值和,确定该基础词在该图片描述文本中 的分数值。

采用上述方法后,在一个图片描述文本中,其包含的每个基础词在该图片 描述文本中的分数值的和为1。

S104:根据每个基础词在每个图片描述文本中的分数值,确定每个基础词 在文本簇中的总分数值。

具体的,在确定每个基础词在文本簇中的总分数值时,在文本簇中针对每 个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词 在文本簇中的总分数值。

当一个基础词在文本簇中出现的频率非常的高,说明该基础词对该文本簇 来说非常重要。为了衡量每个基础词对文本簇的重要程度,在本发明实施例中, 针对每个基础词,根据确定的每个基础词在每个图片描述文本中的分数值的 和,确定每个基础词在文本簇中的总分数值,从而可以将该总分数值作为衡量 该基础词在该文本簇中的重要程度。

S105:根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核 心词。

当确定了每个基础词在文本簇中的总得分值后,可以确定出每个基础词在 文本簇中的重要程度。根据每个基础词在文本簇中的重要程度,按照每个基础 词在文本簇中的总得分值,选择设定数量的基础词作为该图片簇的核心词。

由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根 据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描 述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础 词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述 图片簇的语意。

在本发明实施例中为了进一步准确的确定图片簇的核心词,在确定了每个 基础词在文本簇中的总得分值后,该方法还包括:

根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的 总得分值;

根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;

判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本的 数量是否达到设定的收敛阈值;

当该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文 本簇中确定该图片簇的核心词,否则,重新确定该文本簇中剩余的每个图片描 述文本的总得分值直至确定出图片簇的核心词。

当确定了每个基础词在文本簇中的重要程度后,可以根据确定的每个基础 词在文本簇中的总分数,确定每个图片描述文本在文本簇中的重要程度。具体 的,可以针对每个图片描述文本,根据该图片描述文本中包含的每个基础词在 该文本簇中的总分数的和,确定每个图片描述文本的总得分数。

得到衡量每个图片描述文本在文本簇中的重要程度的总得分值后,可以将 图片描述文本的总得分值按照大小顺序排序,从总得分值最小的图片描述文本 开始,删除设定数量的图片描述文本,此时可以认为该图片描述文本在该文本 簇中不重要,可以将该图片描述文本删除。在删除图片描述文本时,每次根据 设定的数量,删除相应数量的图片描述文本,例如该设定数量可以为1,或者 2,即每次在进行图片描述文本删除时,可以删除总得分数最低的一个图片描 述文本,或者删除总得分数最低的2个图片描述文本。

删除设定数量的图片描述文本后,该文本簇中剩余的图片描述文本的数量 达到设定的收敛阈值时,可以认为该文本簇中剩余的都是对该核心词提取比较 重要的图片描述文本,在该图片描述文本中确定核心词时,可以保证确定的核 心词的准确性。

删除设定数量的图片描述文本后,该文本簇中剩余的图片描述文本的数量 达到设定的收敛阈值时,为了保证确定的核心词的准确性,在本发明实施例中, 由于一些图片描述文本已经删除,基础词在文本簇中的总分数值发生变化,需 要重新确定每个图片描述文本的总得分值,从而根据每个图片描述文本的总得 分值,再一步删除设定数量的图片描述文本,直到该文本簇中图片描述文本的 数量达到设定的收敛阈值,便于准确的确定核心词。

为了进一步提高图片簇核心词提取的准确性,克服一些噪音的干扰,在本 发明实施例中确定每个基础词在每个图片描述文本中的权值之前,可以针对切 词后得到的每个基础词进行去噪声处理;和对文本簇中每个图片描述文本进行 去噪声处理。上述两种去噪声的方式可以结合在一起使用,也可以单独使用, 结合在一起使用时两种去噪声的方式可以同步进行,也可以采用任意顺序进 行。同时采用两种去噪声的方式,可以有效的避免文本簇中噪声的干扰,进一 步提高核心词提取的准确性。

在本发明实施例中对切词处理后的基础词进行去噪声处理包括:将切词后 得到的每个基础词与保存的无意义词库中的每个词进行匹配;当匹配成功时, 确定该基础词为无意义词,将该基础词删除。

具体的,在本发明实施例中可以预先保存无意义词库,在该无意义词库中 保存有一些作为停止词的基础词,例如“把”、“的”、“原来如此”等等相对核 心词来说无意义的词。由于该无意义词库中保存有一些无意义的基础词,因此 将切词后得到的每个基础词与该无意义词库中保存的每个词进行匹配,当匹配 成功时,认为该基础词为无意义词,无法作为核心词,将该基础词删除,否则, 认为该基础词可能为核心词,保留该基础词。

为了有效的去除一些干扰图片描述文本,在本发明实施例中可以对文本簇 中的图片描述文本进行去噪声处理,具体的处理过程可以包括以下至少一个处 理步骤:

判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足 设定的过滤条件时,将该图片描述文本删除;和

将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺 序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈 值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时, 删除该两个图片描述文本中的一个图片描述文本。

之所以要对文本簇中的图片描述文本进行去噪声处理是因为,有些图片描 述文本可能是一些无意义的文本,其对核心词提取的贡献非常的小,例如图片 描述文本非常的短,即其包含的字节数非常的少,或者在该图片描述文本中根 本不存在名词以表述该文本语意,再或者图片描述文本非常的长,即其包含的 字节数非常的多,这些情况下都可以认为图片描述文本是无意义的。

因此也就可以根据上述描述设置图片描述文本的过滤条件,在判断图片描 述文本是否满足设定的过滤条件时,具体可以判断图片描述文本包含的字节数 是否小于设定的第一长度阈值,当图片描述文本包含的字节数小于设定的第一 长度阈值时,认为该图片描述文本满足设定的过滤条件;或者判断图片描述文 本中是否包含名词,当该图片描述文本中不包含名词时,认为该图片描述文本 满足设定的过滤条件;或者判断图片描述文本包含的字节数是否大于设定的第 二长度阈值,当图片描述文本包含的字节数大于设定的第二长度阈值时,认为 该图片描述文本满足设定的过滤条件,其中第二长度阈值大于第一长度阈值。 当图片描述文本满足设定的过滤条件时,将该图片描述文本删除。

另外,在本发明实施例中当对某一图片描述文本进行复制粘贴操作时,文 本簇中可能会存在多个内容相同的图片描述文本,复制粘贴得到的图片描述文 本可能会影响后续核心词确定的准确性。因此为了克服复制粘贴图片描述文本 的操作对最终核心词的确定,在本发明实施例中可以针对每两个图片描述文 本,判断其中一个图片描述文本是否为复制粘贴得到的图片描述文本。

由于复制粘贴后得到的图片描述文本应该与原图片描述文本相同,因此针 对进行比较的两个图片描述文本进行判断时,可以先判断该两个图片描述文本 包含的基础词的数量是否相同,当该两个图片描述文本包含的基础词的数量不 同时,可以认为该两个图片描述文本不是复制粘贴得到的图片描述文本,当该 两个图片描述文本包含的基础词的数量相同时,按照每个基础词在每个图片描 述文本中的顺序,依次比较两个图片描述文本中每个基础词是否相同,当两个 图片描述文本中按照顺序出现相同基础词的数量达到设定的数量阈值时,认为 其中一个图片描述文本为复制粘贴操作得到的图片描述文本,在该文本簇中将 其中一个图片描述文本删除。

图2为本发明实施例提供的一种确定图片簇描述文本核心词的详细实施过 程示意图,该过程包括以下步骤:

S201:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每 个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切 词处理,得到每个图片描述文本中的基础词。

对图片描述文本切词后,可以记录每个图片描述文本包含几个基础词,分 别是哪些基础词,每个基础词在该图片描述文本中出现了几次,分别在什么位 置出现的。

S202:对切词后的基础词进行去噪声处理,并对对文本簇中每个图片描述 文本进行去噪声处理。

S203:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文 本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定 该基础词在该图片描述文本中的权值。

S204:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中 的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每 个基础词在该图片描述文本中的分数值。

S205:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本 中的分数值,确定每个基础词在文本簇中的总分数值。

S206:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述 文本的总得分值。

S207:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。

S208:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述 文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S209,否则, 进行步骤S210。

S209:选择文本簇中设定数量的基础词作为该文本簇的核心词。

S210:重新确定每个图片描述文本的总得分值直至确定出核心词。

由于在本发明实施例中在切词处理后,对切词得到的基础词和图片描述文 本进行去噪声处理,从而可以过滤文本簇中的干扰,进一步提高后续核心词确 定的准确性。

对文本簇中的基础词及图片描述文本进行去噪声处理后,根据每个基础词 的属性信息确定每个图片描述文本的总得分值。在确定每个图片描述文本的总 得分值之前,首先需要确定每个基础词在图片描述文本中的权值。在本发明实 施例中确定该基础词在该图片描述文本中的权值包括:

根据统计的每个基础词的频度,确定该基础词的基础值;根据该基础词在 图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个 基础词的位置值;根据该基础词包含的字节数,及设置的每种基础词长度对应 的长度权重值,确定该基础词的长度值;根据该基础词的词性,及设置的每种 词性对应的词性权重值,确定该基础词的词性值;根据确定的该基础词的基础 值、位置值、长度值和词性值,确定该基础词的子权值;根据确定的该图片描 述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本 中的权值。

在确定每个基础词在每个图片描述文本中的权值时,针对每个图片描述文 本,根据该图片描述文本中包含的每个基础词,确定每个基础词在该图片描述 文本中的权值。在确定时,根据该基础词的属性信息及该基础词在该图片描述 文本中出现的次数确定。该基础词的属性信息包括:基础词的频度(IDF)、基 础词在图片描述文本中出现的位置(position)、基础词包含的字节数(length) 以及基础词的词性(type)等信息。

具体可以根据下述公式确定:

W=Σj=0MIDFj*Positionj*Lengthj*Typej

IDF为基础词的基础知识,Position为基础词的位置值,Length为基础词 的长度值,Type为基础词的词性值,M为基础词在当前该图片描述文本中出现 的次数,W为基础词在图片描述文本中的权值。

基础词的频度根据统计的大量文本切词后得到的每个基础词的出现的频 次和,及该基础词出现的频次的商确定。该商即为该基础词在该图片描述文本 中的基础值。

基础词在图片描述文本中出现的位置不同,可以标识出该基础词在该图片 描述文本中的重要程度,如果该基础词在该图片描述文本中的位置比较靠前, 说明该基础词在该图片描述文本中比较重要,相反位置比较靠后,重要程度就 会比较低。因此可以设置每个位置对应的位置权重值,根据每个基础词在图片 描述文本中位置,及设置的每个位置对应的位置权重值,确定每个基础词的位 置值。

基础词包含的字节数的多少也可以反映出基础词的重要程度,当基础词包 含的字节数比较多时,可以认为该基础词包含的信息比较多,相对比较重要, 相反基础词包含的字节数少,说明该基础词较不重要。因此可以设置基础词的 长度对应的长度权重值,根据每个基础词包含的字节数,及该设置的基础词的 长度对应的长度权重值,可以确定基础词的长度值。

当基础词的词性不同时,基础词的重要程度也会不同,一般情况下名词能 够标识比较重要的语意,形容词表述语意的程度较名词弱,但是较动词强,因 此可以根据词性的重要程度,设置每种词性对应的词性权重值。当确定了基础 词的词性后,根据设置的每种词性对应的词性权重值,确定该基础词的词性值。 基础词词性的确定属于现有技术,在本发明实施例中对该过程就不就行赘述。

确定了基础词的基础值、位置值、长度值和词性值后,将基础值、位置值、 长度值和词性值相加作为该基础词的子权值。如果图片描述文本中该基础词只 出现一次则该子权值即为该基础词在该图片描述文本中的权值,如果基础词在 当前该图片描述文本中出现了多次,则该基础词在该图片描述文本每个位置出 现时对应的子权值的和,即为该基础词在图片描述文本中的权值。

针对每个图片描述文本,根据该图片描述文本中包含的每个基础词,确定 了每个基础词在该图片描述文本中的权值后,根据每个基础词在该图片描述文 本中的权值,及该图片描述文本中每个基础词在该图片描述文本中的权值和, 确定每个基础词在该图片描述文本中的分数值,即确定对该图片描述文本中每 个基础词的投票得分。

具体根据下述公式计算:

Fk=(WkΣK=0NWk)*Wtext

FK为图片描述文本中第k个基础词的投票得分,即该第k个基础词在该图 片描述文本中的分数值,WK为图片描述文本中第k个基础词的在该图片描述 文本中的权值,该图片描述文本中包含N个基础词,Wtext是图片描述文本的 基础投票分数,为了简化,对应每段图片描述文本Wtext=1。

经过上述过程,在每个图片描述文本中每个基础词的分数值的和为1,基 础词在该图片描述文本中的分数值的多少,可以反映该基础词在该图片描述文 本中的重要程度,也可以反映出对该基础词的投票结果。

确定了每个基础词在每个图片描述文本中的分数值后,针对同一基础词, 根据该基础词在不同图片描述文本中的分数值的和,确定该基础词在文本簇中 的总分数值,从而得到每个基础词在该文本簇中的总分数值,该总分数值可以 反映出在该文本簇中对该基础词的投票结果。具体根据下式计算:

Wi=Σi=0NWi

Wi为基础词在第i个图片文本中的分数值,N为文本簇中包含的图片描述 文本的数量,当该图片描述文本中不存在该基础词时,该基础词在该图片描述 文本中的分数值为0,Wi'为基础词在文本簇中的总分数值。

根据确定的每个基础词在该文本簇中的总分数值,并根据每个图片描述文 本包含的基础词,将该图片描述文本中每个基础词在该文本簇中的总分数值的 和作为该图片描述文本的总得分值。具体根据可以根据下述公式计算:

TW=Σi=0KWi

Tw为图片描述文本的总得分值,Wi'为该图片描述文本中每个基础词在该 文本簇中的总分数值,k为该图片描述文本包含的基础词的数量。

得到每个图片描述文本的总得分值后,就确定了对图片描述文本的投票结 果,根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。在该 结果中根据图片描述文本的总得分值进行排序,删除总得分值较少的设定数量 的图片描述文本,该设定数量可以是一个也可以几个,用户可以根据需要设置 不同的数量。在文本簇中删除设定数量的图片描述文本后,判断该文本簇是否 满足收敛条件,即判断删除设定数量的图片描述文本后,该文本簇中包含的图 片描述文本数量是否达到设定的收敛阈值,例如判断该文本簇中包含的图片描 述文本数量是否小于4个。

当该文本簇中包含的图片描述文本数量达到设定的收敛阈值时,确定该文 本簇中剩余的图片描述文本为投票选出的较重要的图片描述文本,在这些图片 描述文本中选择出设定数量的基础词作为该文本簇的核心词。该设定数量可以 是3、4、5个等,可以根据要求设置。选择核心词时,可以选择该文本簇中总 分数值较高的基础词,也可以任意选择。

当该文本簇中包含的图片描述文本数量未达到设定的收敛阈值时,此时该 文本簇中删除了一些图片描述文本,因此有些基础词在该文本簇中的总分数值 可能会发生变化。因此为了确定出该文本簇的核心词,在本发明实施例中需要 重新确定文本簇中剩余的每个图片描述文本的总得分值。

在重新确定文本簇中剩余的每个图片描述文本的总得分值时,可以采用上 述办法,即根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文 本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文 本簇中的总分数值,确定每个图片描述文本的总得分值。

图3为本发明实施例提供的一种确定图片簇描述文本核心词的另一详细实 施过程示意图,该过程包括以下步骤:

S301:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每 个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切 词处理。

S302:对切词后的基础词进行去噪声处理,并对文本簇中每个图片描述文 本进行去噪声处理。

S303:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文 本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定 该基础词在该图片描述文本中的权值。

S304:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中 的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每 个基础词在该图片描述文本中的分数值。

S305:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本 中的分数值,确定每个基础词在文本簇中的总分数值。

S306:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述 文本的总得分值。

S307:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。

S308:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述 文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S309,否则, 进行步骤S305。

S309:选择该文本簇中设定数量的基础词作为对应图片簇的核心词。

但本发明实施例中为了根据投票的结果,调整自身的投票行为,从而使投 票结果更加的准确,以便确定出较准确的核心词,在本发明实施例中在重新图 片描述文本的总得分值时,还包括:

根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文本中的 分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述 文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一 化后的分数值,确定每个图片描述文本归一化后的总得分值。

具体的对该基础词的分数值进行归一化处理包括:

根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词 的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词 的分数值的和对该基础词的分数值进行归一化处理;或

根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词 的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词 的分数值的积对该基础词的分数值进行归一化处理。

具体的,在进行处理时,根据该文本簇中剩余的图片描述文本,根据每个 基础词在每个图片描述文本中的分数值,在该文本簇中对该基础词的分数值进 行归一化处理,从而确定每个基础词在文本簇中归一化后的分数值。

例如针对基础词A,该基础词在文本簇的4个图片描述文本中出现,该基 础词A在每个图片描述文本中的分数值分别为0.5、0.5、0.3和0.5,在确定该 基础词A在每个图片描述文本中归一化后的分数值时,将该基础词A在每个 图片描述文本中的分数值分别相加(0.5+0.5+0.3+0.5=1.8),1.8乘以0.5得到的 第一积,1.8乘以(0.5+0.5+0.3+0.5)得到第二积,将第一积和第二积的商作为 该基础词A在该图片描述文本中的归一化后的分数值,之后,根据基础词A 在每个图片描述文本中的分数值,可以确定基础词A在每个图片描述文本中的 归一化后的分数值。其中基础词A在第一、第二和第四图片描述文本中的归一 化后的分数值相等分别为1.8乘以0.5得到的第一积,1.8乘以(0.5+0.5+0.3+0.5) 得到第二积,将第一积和第二积的商,基础词A在第三图片描述文本中的归一 化后的分数值为第一积和第二积的商,其中1.8乘以0.3得到的第一积,1.8乘 以(0.5+0.5+0.3+0.5)得到第二积。

具体可以根据下述公式计算:

Fi=(Fi*Fi)/(Σi=0KFi*Fi)

Fi''为基础词在第i个图片描述文本中归一化后的分数值,Fi'为基础词在文 本簇中的总分数值,Fi为基础词在第i个图片描述文本中的分数值,K为该文 本簇中包含的图片描述文本的数量。

或者,在本发明实施例中为了保证确定的核心词的准确性,在对基础词的 分数值进行归一化处理时,还可以采用和的方式确定。沿用上例,针对基础词 A,该基础词在文本簇的4个图片描述文本中出现,该基础词A在每个图片描 述文本中的分数值分别为0.5、0.5、0.3和0.5,在确定该基础词A在每个图片 描述文本中归一化后的分数值时,将该基础词A在每个图片描述文本中的分数 值分别相加0.5+0.5+0.3+0.5=1.8,1.8加0.5得到的第一和,1.8加 (0.5+0.5+0.3+0.5)得到第二和,将第一和和第二和的商作为该基础词A在该 图片描述文本中的归一化后的分数值。之后,根据基础词A在每个图片描述文 本中的分数值,可以确定基础词A在每个图片描述文本中的归一化后的分数 值。其中基础词A在第一、第二和第四图片描述文本中的归一化后的分数值相 等分别为1.8加0.5得到的第一和,1.8加(0.5+0.5+0.3+0.5)得到第二和,将 第一和和第二和的商;基础词A在第三图片描述文本中的归一化后的分数值为 第一加和第二加的商,其中1.8加0.3得到的第一和,1.8加(0.5+0.5+0.3+0.5) 得到第二和。

无论采用哪种方式,确定了每个基础词在每个图片描述文本中归一化后的 分数值后,根据每个根据图片描述文本包含的基础词归一化后的分数值,可以 确定每个图片描述文本归一化后的总得分值。确定了每个图片描述文本归一化 后的总得分值后,删除总得分值较少的设定数量的图片描述文本,判断删除设 定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定 的收敛阈值,当该文本簇中包含的图片描述文本数量达到设定的收敛阈值时, 选择该文本簇中设定数量的基础词作为该文本簇对应的图片簇的核心词,否 则,重复上述过程直至确定出核心词。

图4为本发明实施例提供的一种确定图片簇描述文本核心词的再一详细实 施过程示意图,该过程包括以下步骤:

S401:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每 个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切 词处理。

S402:对切词后的基础词进行去噪声处理,并对文本簇中每个图片描述文 本进行去噪声处理。

S403:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文 本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定 该基础词在该图片描述文本中的权值。

S404:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中 的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每 个基础词在该图片描述文本中的分数值。

S405:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本 中的分数值,确定每个基础词在文本簇中的总分数值。

S406:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述 文本的总得分值。

S407:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。

S408:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述 文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S409,否则, 进行步骤S410。

S409:选择该文本簇中设定数量的基础词作为该文本簇对应的图片簇的核 心词。

S410:根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该 基础词的总分数值,根据确定的该基础词的总分数值与每个图片描述文本中该 基础词的分数值的和,及该本簇中该基础词的总分数值与每个基础词在每个图 片描述文本中的分数值的和的商,对该基础词的分数值进行归一化处理。

S411:根据归一化处理后每个图片描述文本中每个基础词归一化后的分数 值,确定每个图片描述文本归一化后的总得分值,之后进行步骤S407。

图5为本发明实施例提供的一种确定图片簇描述文本核心词的装置结构示 意图,所述装置包括:

图片簇库51,用于存储每个图片簇,其中每个图片簇中包括多张图片;并 根据核心词提取模块确定的每个图片簇的核心词,保存每个图片簇及其核心词 的对应关系;

文本簇库52,用于针对每个图片簇,存储该图片簇中每个图片提取出的图 片描述文本构成的文本簇;

切词模块53,用于对文本簇中的每个图片描述文本进行切词处理,得到每 个图片描述文本中的基础词;

分数值计算模块54,用于根据每个基础词的属性信息,确定每个基础词在 每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数 值;

总分数值计算模块55,用于根据每个基础词在每个图片描述文本中的分数 值,确定每个基础词在文本簇中的总分数值;

核心词提取模块56,用于根据确定的每个基础词在文本簇中的总分数值, 确定该图片簇的核心词。

所述分数值计算模块54包括:

权值计算单元541,针对每个图片描述文本,根据切词后该图片描述文本 中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该 基础词在该图片描述文本中的权值;

分数值计算单元542,用于对每个图片描述文本,根据确定的每个基础词 在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文 本中的权值和,确定每个基础词在该图片描述文本中的分数值。

较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述权值计 算模块541,具体用于根据统计的每个基础词的频度,确定该基础词的基础值; 根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权 重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种 基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性, 及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该 基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确 定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该 图片描述文本中的权值。

所述装置还包括:

总得分值计算模块57,用于根据确定的每个基础词在文本簇中的总分数 值,确定每个图片描述文本的总得分值;

删除判断模块58,用于根据每个图片描述文本的总得分值,删除设定数量 的图片描述文本;判断删除设定数量的图片描述文本后,该文本簇中包含的图 片描述文本数量是否达到设定的收敛阈值;当确定文本簇中包含的图片描述文 本数量的未达到设定的收敛阈值时,通知总得分值计算模块重新确定该文本簇 中剩余的每个图片描述文本的总得分值;

所述核心词提取模块56,还用于当删除判断模块确定该文本簇中包含的图 片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心 词。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块57,还用于根据每个基础词在文本簇剩余的每个图片描述文本中 的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇 中的总分数值,确定每个图片描述文本的总得分值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块57,还用于根据每个基础词在文本簇剩余的每个图片描述文本中 的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描 述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归 一化后的分数值,确定每个图片描述文本归一化后的总得分值。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块57,具体用于根据每个基础词在每个图片描述文本中的分数值, 确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图 片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理。

较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本 中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得 分值计算模块57,具体用于根据每个基础词在每个图片描述文本中的分数值, 确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图 片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。

较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心 词。所述装置还包括:

过滤模块59,用于对切词处理后的基础词进行去噪声处理;和/或对文本 簇中每个图片描述文本进行去噪声处理。

较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心 词。所述过滤模块59,具体用于将切词后得到的每个基础词与保存的无意义词 库中的每个词进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础 词删除。

较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心 词。所述过滤模块59,具体用于判断每个图片描述文本是否满足设定的过滤条 件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和/ 或将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序, 判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值; 当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除 该两个图片描述文本中的一个图片描述文本。

本发明实施例提供一种确定图片簇描述文本核心词的方法及装置,该方法 包括针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描 述文本进行切词处理得到每个基础词,根据每个基础词的属性信息,确定每个 基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本 中的分数值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词在 文本簇中的总分数值,确定图片簇的核心词。由于在本发明实施例中针对图片 簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属 性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础 词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词, 从而可以保证选择出的核心词能准确描述图片簇的语意。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号