首页> 中国专利> 一种确定作品关键词的方法和设备

一种确定作品关键词的方法和设备

摘要

本发明的目的是提供一种用于确定作品关键词的方法和设备;获取至少一个作品对应的作品文本信息;根据作品文本信息对应的切词的词频属性,结合预定属性阈值,确定候选关键词并入引导词集,获得关键词集;分别确定每个作品对应的作品文本信息命中关键词集的候选作品关键词,作为对应每个作品的候选作品关键词;在关键词集中,确定与候选作品关键词的共现率高于预定共现阈值的派生词;将候选作品关键词与派生词作为对应每个作品的作品关键词。与现有技术相比,本发明结合人工先验知识标注的引导词集以及词频属性筛选作品关键词,采用全局关键词共现矩阵的方法确定派生词作为作品关键词,提高作品关键词标注的覆盖率,进一步提升了用户的使用体验。

著录项

  • 公开/公告号CN103942189A

    专利类型发明专利

  • 公开/公告日2014-07-23

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201410103253.1

  • 发明设计人 代大攀;姚旭;樊开元;

    申请日2014-03-19

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构北京汉昊知识产权代理事务所(普通合伙);

  • 代理人罗朋;周建华

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2023-12-17 00:55:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-15

    授权

    授权

  • 2014-08-20

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20140319

    实质审查的生效

  • 2014-07-23

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及一种用于确定作品关键词 的技术。

背景技术

电影、电视剧、动漫、综艺等作品一般都需要一定的简介信息, 网络用户才可以明白该作品的主要内容,并以此对作品进行选择。随 着网络用户的要求的日益提升,对作品的描述的准确性的要求越来越 高。更进一步地,网络用户还希望能够通过少量的关键词,即可以了 解整部作品的关键信息。

现有技术中,各大网站通常采用人工编辑的方式标记作品类型信 息,而社区类网站则采用大众标注的方式给作品添加标签(tag)信息, 如武侠、穿越等。

然而,现有技术的这种方式,大多都依靠人工编辑,需要耗费大 量时间精力,并且主观性强,准确性不够,极大地影响了网络用户的 使用体验。

因此,如何高效、准确地确定作品关键词,成为本领域技术人员 亟需解决的技术问题之一。

发明内容

本发明的目的是提供一种用于确定作品关键词的方法和设备。

根据本发明的一个方面,提供了一种确定作品关键词的方法,其 中,该方法包括以下步骤:

-获取至少一个作品所对应的作品文本信息;

-根据所述作品文本信息所对应的切词的词频属性,并结合预定 属性阈值,确定候选关键词;

-将所述候选关键词并入引导词集,以获得关键词集,其中,所 述引导词集预置有用于引导作品关键词标注的引导词;

-分别确定所述至少一个作品中每个作品所对应的作品文本信 息命中所述关键词集的候选作品关键词,以作为分别对应所述每个作 品的候选作品关键词;

-在所述关键词集中,确定与所述候选作品关键词的共现率高于 预定共现阈值的派生词;

-将所述候选作品关键词与所述派生词作为对应所述每个作品 的作品关键词。

根据本发明的另一方面,还提供了一种确定作品关键词的设备, 其中,该设备包括:

用于获取至少一个作品所对应的作品文本信息的装置;

用于根据所述作品文本信息所对应的切词的词频属性,并结合预 定属性阈值,确定候选关键词的装置;

用于将所述候选关键词并入引导词集,以获得关键词集的装置, 其中,所述引导词集预置有用于引导作品关键词标注的引导词;

用于分别确定所述至少一个作品中每个作品所对应的作品文本 信息命中所述关键词集的候选作品关键词,以作为分别对应所述每个 作品的候选作品关键词的装置;

用于在所述关键词集中,确定与所述候选作品关键词的共现率高 于预定共现阈值的派生词的装置;

用于将所述候选作品关键词与所述派生词作为对应所述每个作 品的作品关键词的装置。

与现有技术相比,本发明自动从作品文本信息中提取作品关键 词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验; 完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的 情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合 人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词, 使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预 先发现的作品关键词。

进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文 本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品 关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信 息,从而更加全面地描述作品,进一步提升了用户的使用体验。

更进一步地,本发明确定作品关键词后能根据词频等信息标注关 键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提 升了用户的使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本发明一个方面的用于确定作品关键词的装置示意 图;

图2示出根据本发明另一个方面的用于确定作品关键词的方法流 程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于确定作品关键词的装置示意 图。其中,设备1包括用于获取至少一个作品所对应的作品文本信息 的装置101;用于根据所述作品文本信息所对应的切词的词频属性, 并结合预定属性阈值,确定候选关键词的装置102;用于将所述候选 关键词并入引导词集,以获得关键词集的装置103,其中,所述引导 词集预置有用于引导作品关键词标注的引导词;用于分别确定所述至 少一个作品中每个作品所对应的作品文本信息命中所述关键词集的 候选作品关键词,以作为分别对应所述每个作品的候选作品关键词的 装置104;用于在所述关键词集中,确定与所述候选作品关键词的共 现率高于预定共现阈值的派生词的装置105;及用于将所述候选作品 关键词与所述派生词作为对应所述每个作品的作品关键词的装置 106。

其中,装置101获取至少一个作品所对应的作品文本信息。具体 地,装置101例如通过与本地或网络端的作品库的交互,或者,通过 接收网络用户等提交的作品文本信息等方式,获取至少一个作品所对 应的作品文本信息,该作品文本信息包括但不限于该作品所对应的标 题信息、简介信息、图片描述信息等。

在此,作品库中存储有大量作品所对应的作品文本信息,如作品 的标题联系、简介信息、图片信息、链接信息等,该作品库既可以位 于该设备1中,也可以位于与该设备1通过网络相连接的第三方设备 中。

本领域技术人员应能理解,上述获取作品文本信息的方式仅为举 例,其他现有的或今后可能出现的获取作品文本信息的方式如可适 用于本发明,也应包含在本发明保护范围以内,并在此以引用方式 包含于此。

装置102根据所述作品文本信息所对应的切词的词频属性,并结 合预定属性阈值,确定候选关键词;其中,所述词频属性包括以下至 少任一项:

-词汇频率;

-逆文档频率。

具体地,作品文本信息具有对应的切词,该切词例如通过对该作 品文本信息进行切词处理得到,或更优地,对该作品文本信息先进行 切词处理,再进行去除停用词等过滤处理、或词性识别处理等所得到 的切词;装置102根据该作品文本信息所对应的切词,获得这些切词 的词频属性,在此,词频属性包括但不限于词汇频率(TF)、逆文档 频率(IDF)等。词汇频率为该切词在所有作品文本信息中出现的次 数,例如,对于三个作品文本信息,切词A在该三个作品文本信息中 出现的总次数为5次,则该切词A的词汇频率则为5。逆文档频率则 可以通过总作品文本信息的数量除以出现该切词的作品文本信息的 数量,再取对数值确定。接上例,假设该切词A仅在前两个作品文本 信息中出现过,则该切词A的逆文档频率可以通过下式计算得出:

IDF(A)=log(总作品文本信息数/出现切词A的作品文本信息 数)

即,IDF(A)=log(3/2)

接着,该装置102结合预定属性阈值,在该作品文本信息对应的 切词中确定候选关键词。

例如,装置102对作品文本信息对应的切词进行筛选,将词汇频 率和逆文档频率大于预定属性阈值的切词作为候选关键词。如假设预 定属性阈值仅规定词汇频率大于4的切词作为候选关键词,则上例中 的切词A可作为候选关键词。

在此,预定属性阈值为用于根据作品文本信息对应的切词的词频 属性对这些切词进行筛选的阈值,当切词的词频属性满足该预定属性 阈值,则将其作为候选关键词,其具体还可以分为预定词汇频率属性 阈值和预定逆文档频率属性阈值。

本领域技术人员应能理解,上述确定候选关键词的方式仅为举 例,其他现有的或今后可能出现的确定候选关键词的方式如可适用 于本发明,也应包含在本发明保护范围以内,并在此以引用方式包 含于此。

本领域技术人员还应能理解,上述词频属性仅为举例,其他现有 的或今后可能出现的词频属性如可适用于本发明,也应包含在本发 明保护范围以内,并在此以引用方式包含于此。

装置103将所述候选关键词并入引导词集,以获得关键词集,其 中,所述引导词集预置有用于引导作品关键词标注的引导词。

具体地,设备1还可以有一个引导词集,该引导词集预置有用于 引导作品关键词标注的引导词,装置103将装置102所确定的候选关 键词并入引导词集,并将该合并后的词集作为关键词集。

在此,引导词可以有多种来源:1)基于用户标注的数据(UGC 数据),利用互联网网站提供网络用户提交“关键词”的功能,通过 技术过滤得到基于网络用户提交数据的引导词;2)基于搜索数据挖 掘的引导词,网络用户在搜索日志中会有如下行为:搜索“动作电影” 之后,再次搜索“速度与激情”,通过技术手段可挖掘出“速度与激 情”这一作品,具有“动作”引导词;3)基于互联网搜索引擎抓取。 基于上述获取引导词的方式,可以获得对应的引导词集。装置103将 装置102所确定的作品文本信息中的候选关键词,并入该引导词集中, 生成关键词集。

本领域技术人员应能理解,上述获得关键词集的方式仅为举例, 其他现有的或今后可能出现的获得关键词集的方式如可适用于本发 明,也应包含在本发明保护范围以内,并在此以引用方式包含于 此。

本领域技术人员还应能理解,上述获得引导词集的方式仅为举 例,其他现有的或今后可能出现的获得引导词集的方式如可适用于 本发明,也应包含在本发明保护范围以内,并在此以引用方式包含 于此。

装置104分别确定所述至少一个作品中每个作品所对应的作品文 本信息命中所述关键词集的候选作品关键词,以作为分别对应所述每 个作品的候选作品关键词。具体地,对于该至少一个作品中的每个作 品,装置104分别确定每个作品对应的作品文本信息命中了关键词集 中的哪些候选关键词或引导词,并将这些命中的词作为分别对应每个 作品的候选作品关键词。

例如,假设关键词集中包括切词A和引导词B,分别有三个作品, 其中,作品甲所对应的作品文本信息中包含了切词A,则该作品文本 信息命中了该关键词集,将该命中的切词A作为对应该作品甲的候选 作品关键词;作品乙所对应的作品文本信息中包含了切词B,由于该 切词B与该引导词B一致,则该作品文本信息也命中了该关键词集, 将该命中的词B作为对应该作品乙的候选作品关键词;作品丙对应的 作品文本信息中包含了切词C,则该切词C未命中该关键词集。

本领域技术人员应能理解,上述确定候选作品关键词的方式仅为 举例,其他现有的或今后可能出现的确定候选作品关键词的方式如 可适用于本发明,也应包含在本发明保护范围以内,并在此以引用 方式包含于此。

装置105在所述关键词集中,确定与所述候选作品关键词的共现 率高于预定共现阈值的派生词。具体地,对于装置104所确定的对应 每个作品的候选作品关键词,装置105统计两两候选作品关键词共同 出现在一部作品对应的作品文本信息中的频次,例如,生成共现矩阵, 对每个候选作品关键词,取与之共现频次最高的预定数量个词,如按 照共现频次由高到低排列,取前N(N≥1)个词;随后,装置105计 算每个候选作品关键词所对应的N个共现词的共现率,即,该N个 词在该候选作品关键词所有共现词的频次之和中所占的比例,将比例 高于阈值的词定义为该候选作品关键词的派生词,或者,按照比例从 高到低排列,取前预定数量的词作为该候选作品关键词的派生词。

本领域技术人员应能理解,上述确定派生词的方式仅为举例,其 他现有的或今后可能出现的确定派生词的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

装置106将所述候选作品关键词与所述派生词作为对应所述每个 作品的作品关键词。具体地,装置106根据装置104所确定的候选作 品关键词,及装置105所确定的派生词,将该两者一起作为对应每个 作品的作品关键词。例如,对于每部作品,将候选作品关键词与派生 词单独标注出来,以显示为该作品对应的作品关键词。

本领域技术人员应能理解,上述确定作品关键词的方式仅为举 例,其他现有的或今后可能出现的确定作品关键词的方式如可适用 于本发明,也应包含在本发明保护范围以内,并在此以引用方式包 含于此。

与现有技术相比,本发明自动从作品文本信息中提取作品关键 词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验; 完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的 情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合 人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词, 使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预 先发现的作品关键词。

进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文 本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品 关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信 息,从而更加全面地描述作品,进一步提升了用户的使用体验。

更优选地,该设备1还包括用于根据所述词频属性,计算所述作 品关键词的权重值的装置107(未示出);和用于根据所述权重值,将 所述作品关键词提供给用户的装置108(未示出)。具体地,装置107 根据这些作品关键词的词频属性,如词汇频率、逆文档频率等词频属 性,计算这些作品关键词的权重值;例如,装置107将作品关键词的 词汇频率的值与逆文档频率的值相乘,所得的积作为该作品关键词的 权重值。

随后,装置108根据这些作品关键词的权重值,通过调用诸如 JSP、ASP或PHP等动态页面技术,将这些作品关键词提供给用户, 如,按照权重值从高到低,将这些作品关键词提供给用户。

更进一步地,本发明确定作品关键词后能根据词频等信息标注关 键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提 升了用户的使用体验。

更优选地,对于所述作品关键词所包括的派生词,所述用于计算 权重值的装置107还根据所述派生词的词频属性,并结合所述派生词 的衰减系数和派生频次,确定所述派生词的权重值。具体地,装置107 在根据派生词的词频属性计算出该派生词的权重值之后,还考虑该派 生词的衰减系数和派生频次,例如,在前述计算所得的权重值的基础 上,再乘以衰减系数和派生频次,以最终确定该派生词的权重值。

在此,派生频次指该派生词由多少候选作品关键词派生而来;衰 减系数为每派生一次,该派生词的权重值所衰减的值,其值可以是系 统预置的,也可以根据实际情况进行调整。

本领域技术人员应能理解,上述计算权重值的方式仅为举例,其 他现有的或今后可能出现的计算权重值的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

优选地,该设备1还包括用于获取所述用户所选择的作品关键词 的装置109(未示出);和用于根据所述作品关键词,将对应所述作品 关键词的作品提供给所述用户的装置110(未示出)。

具体地,用户通过与用户设备的交互,在展现的作品关键词中进 行了选择,如通过点击、长按等方式,选择了作品关键词,装置109 通过与该用户设备的交互,如通过一次或多次调用该用户设备所提供 的应用程序接口(API)或其他约定的通信方式,或者,通过调用诸 如JSP、ASP或PHP等动态页面技术,获取该用户所选择的作品关键 词。

随后,装置110根据该用户所选择的作品关键词,将该作品关键 词对应的作品提供给该用户,如,将该作品对应的作品文本信息、链 接信息、播放信息等提供给该用户。

优选地,该设备1还包括用于对所述作品文本信息进行预处理, 以获得所述作品文本信息所对应的切词的装置111(未示出);其中, 所述预处理包括以下至少任一项:

-切词处理;

-词性识别处理;

-停用词过滤处理。

具体地,对于装置101所获取的作品文本信息,如标题信息、简 介信息、图片描述信息等,装置111对这些作品文本信息进行切词处 理,以获得该作品文本信息对应的切词;或者,装置111对切词处理 后获得的词进一步进行词性识别处理,将词性满足要求的词筛选出 来,如,将名词、形容词等词筛选出来,作为该作品文本信息所对应 的切词;又或者,该装置111对切词处理后获得的词进一步进行停用 词过滤处理,将“的”、“得”、“地”等无意义的停用词进行过滤,以 最终获得该作品文本信息所对应的切词。

本领域技术人员应能理解,上述预处理的方式仅为举例,其他现 有的或今后可能出现的预处理的方式如可适用于本发明,也应包含 在本发明保护范围以内,并在此以引用方式包含于此。

优选地,该设备1还包括用于根据所述作品文本信息所对应的切 词在所述作品文本信息中的位置信息,确定所述切词的词频属性的装 置112(未示出)。

具体地,作品文本信息所对应的切词在该作品文本信息中具有位置 信息,如切词位于标题中、位于关键特征句中等。在此,关键特征句为 能表明该作品的关键特征的句子,例如,“这是一部好莱坞动作巨片” 等。装置112综合考虑该切词在作品文本信息中的位置信息,确定该切 词的词频属性。例如,对于位于标题或关键特征句中的切词,加权后确 定其词频属性。

图2示出根据本发明另一个方面的用于确定作品关键词的方法流 程图。

在步骤S201中,设备1获取至少一个作品所对应的作品文本信 息。具体地,在步骤S201中,设备1例如通过与本地或网络端的作 品库的交互,或者,通过接收网络用户等提交的作品文本信息等方式, 获取至少一个作品所对应的作品文本信息,该作品文本信息包括但不 限于该作品所对应的标题信息、简介信息、图片描述信息等。

在此,作品库中存储有大量作品所对应的作品文本信息,如作品 的标题联系、简介信息、图片信息、链接信息等,该作品库既可以位 于该设备1中,也可以位于与该设备1通过网络相连接的第三方设备 中。

本领域技术人员应能理解,上述获取作品文本信息的方式仅为举 例,其他现有的或今后可能出现的获取作品文本信息的方式如可适 用于本发明,也应包含在本发明保护范围以内,并在此以引用方式 包含于此。

在步骤S202中,设备1根据所述作品文本信息所对应的切词的 词频属性,并结合预定属性阈值,确定候选关键词;其中,所述词频 属性包括以下至少任一项:

-词汇频率;

-逆文档频率。

具体地,作品文本信息具有对应的切词,该切词例如通过对该作 品文本信息进行切词处理得到,或更优地,对该作品文本信息先进行 切词处理,再进行去除停用词等过滤处理、或词性识别处理等所得到 的切词;在步骤S202中,设备1根据该作品文本信息所对应的切词, 获得这些切词的词频属性,在此,词频属性包括但不限于词汇频率 (TF)、逆文档频率(IDF)等。词汇频率为该切词在所有作品文本信 息中出现的次数,例如,对于三个作品文本信息,切词A在该三个作 品文本信息中出现的总次数为5次,则该切词A的词汇频率则为5。 逆文档频率则可以通过总作品文本信息的数量除以出现该切词的作 品文本信息的数量,再取对数值确定。接上例,假设该切词A仅在前 两个作品文本信息中出现过,则该切词A的逆文档频率可以通过下式 计算得出:

IDF(A)=log(总作品文本信息数/出现切词A的作品文本信息 数)

即,IDF(A)=log(3/2)

接着,在步骤S202中,设备1结合预定属性阈值,在该作品文 本信息对应的切词中确定候选关键词。

例如,在步骤S202中,设备1对作品文本信息对应的切词进行 筛选,将词汇频率和逆文档频率大于预定属性阈值的切词作为候选关 键词。如假设预定属性阈值仅规定词汇频率大于4的切词作为候选关 键词,则上例中的切词A可作为候选关键词。

在此,预定属性阈值为用于根据作品文本信息对应的切词的词频 属性对这些切词进行筛选的阈值,当切词的词频属性满足该预定属性 阈值,则将其作为候选关键词,其具体还可以分为预定词汇频率属性 阈值和预定逆文档频率属性阈值。

本领域技术人员应能理解,上述确定候选关键词的方式仅为举 例,其他现有的或今后可能出现的确定候选关键词的方式如可适用 于本发明,也应包含在本发明保护范围以内,并在此以引用方式包 含于此。

本领域技术人员还应能理解,上述词频属性仅为举例,其他现有 的或今后可能出现的词频属性如可适用于本发明,也应包含在本发 明保护范围以内,并在此以引用方式包含于此。

在步骤S203中,设备1将所述候选关键词并入引导词集,以获 得关键词集,其中,所述引导词集预置有用于引导作品关键词标注的 引导词。

具体地,设备1还可以有一个引导词集,该引导词集预置有用于 引导作品关键词标注的引导词,在步骤S203中,设备1将在步骤S202 中所确定的候选关键词并入引导词集,并将该合并后的词集作为关键 词集。

在此,引导词可以有多种来源:1)基于用户标注的数据(UGC 数据),利用互联网网站提供网络用户提交“关键词”的功能,通过 技术过滤得到基于网络用户提交数据的引导词;2)基于搜索数据挖 掘的引导词,网络用户在搜索日志中会有如下行为:搜索“动作电影” 之后,再次搜索“速度与激情”,通过技术手段可挖掘出“速度与激 情”这一作品,具有“动作”引导词;3)基于互联网搜索引擎抓取。 基于上述获取引导词的方式,可以获得对应的引导词集。在步骤S203 中,设备1将在步骤S202中所确定的作品文本信息中的候选关键词, 并入该引导词集中,生成关键词集。

本领域技术人员应能理解,上述获得关键词集的方式仅为举例, 其他现有的或今后可能出现的获得关键词集的方式如可适用于本发 明,也应包含在本发明保护范围以内,并在此以引用方式包含于 此。

本领域技术人员还应能理解,上述获得引导词集的方式仅为举 例,其他现有的或今后可能出现的获得引导词集的方式如可适用于 本发明,也应包含在本发明保护范围以内,并在此以引用方式包含 于此。

在步骤S204中,设备1分别确定所述至少一个作品中每个作品 所对应的作品文本信息命中所述关键词集的候选作品关键词,以作为 分别对应所述每个作品的候选作品关键词。具体地,对于该至少一个 作品中的每个作品,在步骤S204中,设备1分别确定每个作品对应 的作品文本信息命中了关键词集中的哪些候选关键词或引导词,并将 这些命中的词作为分别对应每个作品的候选作品关键词。

例如,假设关键词集中包括切词A和引导词B,分别有三个作品, 其中,作品甲所对应的作品文本信息中包含了切词A,则该作品文本 信息命中了该关键词集,将该命中的切词A作为对应该作品甲的候选 作品关键词;作品乙所对应的作品文本信息中包含了切词B,由于该 切词B与该引导词B一致,则该作品文本信息也命中了该关键词集, 将该命中的词B作为对应该作品乙的候选作品关键词;作品丙对应的 作品文本信息中包含了切词C,则该切词C未命中该关键词集。

本领域技术人员应能理解,上述确定候选作品关键词的方式仅为 举例,其他现有的或今后可能出现的确定候选作品关键词的方式如 可适用于本发明,也应包含在本发明保护范围以内,并在此以引用 方式包含于此。

在步骤S205中,设备1在所述关键词集中,确定与所述候选作 品关键词的共现率高于预定共现阈值的派生词。具体地,对于在步骤 S204中,设备1所确定的对应每个作品的候选作品关键词,在步骤 S205中,设备1统计两两候选作品关键词共同出现在一部作品对应 的作品文本信息中的频次,例如,生成共现矩阵,对每个候选作品关 键词,取与之共现频次最高的预定数量个词,如按照共现频次由高到 低排列,取前N(N≥1)个词;随后,在步骤S205中,设备1计算每 个候选作品关键词所对应的N个共现词的共现率,即,该N个词在 该候选作品关键词所有共现词的频次之和中所占的比例,将比例高于 阈值的词定义为该候选作品关键词的派生词,或者,按照比例从高到 低排列,取前预定数量的词作为该候选作品关键词的派生词。

本领域技术人员应能理解,上述确定派生词的方式仅为举例,其 他现有的或今后可能出现的确定派生词的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

在步骤S206中,设备1将所述候选作品关键词与所述派生词作 为对应所述每个作品的作品关键词。具体地,在步骤S206中,设备 1根据在步骤S204中所确定的候选作品关键词,及在步骤S205中所 确定的派生词,将该两者一起作为对应每个作品的作品关键词。例如, 对于每部作品,将候选作品关键词与派生词单独标注出来,以显示为 该作品对应的作品关键词。

本领域技术人员应能理解,上述确定作品关键词的方式仅为举 例,其他现有的或今后可能出现的确定作品关键词的方式如可适用 于本发明,也应包含在本发明保护范围以内,并在此以引用方式包 含于此。

与现有技术相比,本发明自动从作品文本信息中提取作品关键 词,避免人工编辑,节省人力,减少主观性,提升用户的使用体验; 完全依赖作品文本信息就能生成作品关键词,在没有其他作品属性的 情况下能生成作品的关键词特征,具有一定的通用性。本发明还结合 人工先验知识标注的引导词集以及切词的词频属性筛选作品关键词, 使得作品关键词标注具有一定的目标性,而又能发现人工知识无法预 先发现的作品关键词。

进一步地,本发明采用全局关键词共现矩阵的方法派生出作品文 本信息中尚未出现的派生词,也作为该作品的作品关键词,提高作品 关键词标注的覆盖率,使得作品关键词标注不再局限于作品文本信 息,从而更加全面地描述作品,进一步提升了用户的使用体验。

更优选地,该方法还包括根据所述词频属性,计算所述作品关键 词的权重值的步骤S207(未示出);和根据所述权重值,将所述作品 关键词提供给用户的步骤S208(未示出)。具体地,在步骤S207中, 设备1根据这些作品关键词的词频属性,如词汇频率、逆文档频率等 词频属性,计算这些作品关键词的权重值;例如,在步骤S207中, 设备1将作品关键词的词汇频率的值与逆文档频率的值相乘,所得的 积作为该作品关键词的权重值。

随后,在步骤S208中,设备1根据这些作品关键词的权重值, 通过调用诸如JSP、ASP或PHP等动态页面技术,将这些作品关键词 提供给用户,如,按照权重值从高到低,将这些作品关键词提供给用 户。

更进一步地,本发明确定作品关键词后能根据词频等信息标注关 键词权重,按照权重排序使得用户能更加准确地了解作品,进一步提 升了用户的使用体验。

更优选地,对于所述作品关键词所包括的派生词,所述计算权重 值的步骤S207还根据所述派生词的词频属性,并结合所述派生词的 衰减系数和派生频次,确定所述派生词的权重值。具体地,在步骤 S207中,设备1在根据派生词的词频属性计算出该派生词的权重值 之后,还考虑该派生词的衰减系数和派生频次,例如,在前述计算所 得的权重值的基础上,再乘以衰减系数和派生频次,以最终确定该派 生词的权重值。

在此,派生频次指该派生词由多少候选作品关键词派生而来;衰 减系数为每派生一次,该派生词的权重值所衰减的值,其值可以是系 统预置的,也可以根据实际情况进行调整。

本领域技术人员应能理解,上述计算权重值的方式仅为举例,其 他现有的或今后可能出现的计算权重值的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

优选地,该方法还包括获取所述用户所选择的作品关键词的步骤 S209(未示出);和根据所述作品关键词,将对应所述作品关键词的 作品提供给所述用户的步骤S210(未示出)。

具体地,用户通过与用户设备的交互,在展现的作品关键词中进 行了选择,如通过点击、长按等方式,选择了作品关键词,在步骤 S209中,设备1通过与该用户设备的交互,如通过一次或多次调用 该用户设备所提供的应用程序接口(API)或其他约定的通信方式, 或者,通过调用诸如JSP、ASP或PHP等动态页面技术,获取该用户 所选择的作品关键词。

随后,在步骤S210中,设备1根据该用户所选择的作品关键词, 将该作品关键词对应的作品提供给该用户,如,将该作品对应的作品 文本信息、链接信息、播放信息等提供给该用户。

优选地,该方法还包括对所述作品文本信息进行预处理,以获得 所述作品文本信息所对应的切词的步骤S211(未示出);其中,所述 预处理包括以下至少任一项:

-切词处理;

-词性识别处理;

-停用词过滤处理。

具体地,对于在步骤S201中,设备1所获取的作品文本信息, 如标题信息、简介信息、图片描述信息等,在步骤S211中,设备1 对这些作品文本信息进行切词处理,以获得该作品文本信息对应的切 词;或者,在步骤S211中,设备1对切词处理后获得的词进一步进 行词性识别处理,将词性满足要求的词筛选出来,如,将名词、形容 词等词筛选出来,作为该作品文本信息所对应的切词;又或者,在步 骤S211中,设备1对切词处理后获得的词进一步进行停用词过滤处 理,将“的”、“得”、“地”等无意义的停用词进行过滤,以最终获得 该作品文本信息所对应的切词。

本领域技术人员应能理解,上述预处理的方式仅为举例,其他现 有的或今后可能出现的预处理的方式如可适用于本发明,也应包含 在本发明保护范围以内,并在此以引用方式包含于此。

优选地,该方法还包括根据所述作品文本信息所对应的切词在所 述作品文本信息中的位置信息,确定所述切词的词频属性的步骤S212 (未示出)。

具体地,作品文本信息所对应的切词在该作品文本信息中具有位置 信息,如切词位于标题中、位于关键特征句中等。在此,关键特征句为 能表明该作品的关键特征的句子,例如,“这是一部好莱坞动作巨片” 等。在步骤S212中,设备1综合考虑该切词在作品文本信息中的位置 信息,确定该切词的词频属性。例如,对于位于标题或关键特征句中的 切词,加权后确定其词频属性。

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被 实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何 其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可 以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的 软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质 中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另 外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处 理器配合从而执行各个步骤或功能的电路。

另外,本发明的一部分可被应用为计算机程序产品,例如计算 机程序指令,当其被计算机执行时,通过该计算机的操作,可以调 用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的 程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过 广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据 所述程序指令运行的计算机设备的工作存储器中。在此,根据本发 明的一个实施例包括一个装置,该装置包括用于存储计算机程序指 令的存储器和用于执行程序指令的处理器,其中,当该计算机程序 指令被该处理器执行时,触发该装置运行基于前述根据本发明的多 个实施例的方法和/或技术方案。

对于本领域技术人员而言,显然本发明不限于上述示范性实施 例的细节,而且在不背离本发明的精神或基本特征的情况下,能够 以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将 实施例看作是示范性的,而且是非限制性的,本发明的范围由所附 权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要 件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中 的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一 词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述 的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实 现。第一,第二等词语用来表示名称,而并不表示任何特定的顺 序。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号