首页> 中国专利> 标注多媒体内容的方法、生成推荐内容的方法及系统

标注多媒体内容的方法、生成推荐内容的方法及系统

摘要

提供一种标注多媒体内容的方法、生成推荐内容的方法及系统。一种标注多媒体内容的方法包括:获取包括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项目的第一标注信息。

著录项

  • 公开/公告号CN103207917A

    专利类型发明专利

  • 公开/公告日2013-07-17

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310148335.3

  • 发明设计人 李达;

    申请日2013-04-25

  • 分类号G06F17/30(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人罗延红;王彬

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-08

    授权

    授权

  • 2013-08-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130425

    实质审查的生效

  • 2013-07-17

    公开

    公开

说明书

技术领域

本申请涉及一种标注多媒体内容的方法、生成推荐内容的方法及系统, 尤其涉及一种根据收录的多媒体内容的标题对所述多媒体内容进行标注,并 且基于用户的网络访问日志个性化地生成推荐的多媒体内容的方法和系统。

背景技术

目前的多媒体内容网站(如视频网站)大多对其提供的多媒体内容进行 分类,用户根据网站上提供的分类标签或者特定的专题(如热门视频)查找 感兴趣的多媒体内容项目。多数多媒体内容网站也会根据用户的观看历史推 荐一些用户可能感兴趣的多媒体内容。

然而,多数的多媒体内容网站仅提供二级或至多三级的分类,产生有限 数量的内容主题;而基于用户的观看历史推荐内容无法解决冷启动的问题, 并且推荐的内容具有一定的局限性,不能从用户一般的网络行为产生推荐内 容。

发明内容

本发明的目的在于提供一种标注多媒体内容的方法、生成推荐内容的方 法及系统,使用具有不同粒度的兴趣实体词对多媒体内容进行标注,并且根 据用户的一般网络搜索记录来提取用户的兴趣实体词并推荐与提取的兴趣实 体词匹配的多媒体内容,从而用户可个性化地订阅多媒体内容,并且可为用 户推荐个性化的多媒体内容。

根据本发明的一方面,提供一种标注多媒体内容的方法,包括:获取包 括多媒体内容及其标题的内容项目;对所述标题进行自然语言分析,以提取 一个或多个名词;将提取的每个名词分别与包括多个实体词的实体词典进行 匹配,以产生一个或多个兴趣实体词;将所述兴趣实体词存储为所述内容项 目的第一标注信息。

优选地,所述的方法还包括:从获取的内容项目的标题切出至少一个词;

通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确 定一个或多个所述内容项目的兴趣词。

优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与 所述专名库匹配确定不同粒度的兴趣词。

优选地,所述的方法还包括:将所述兴趣词存储为所述内容项目的第二 标注信息。

优选地,获取的内容项目还包括一个或多个内容标签,并且所述方法还 包括:将所述一个或多个内容标签存储所述内容项目的第三标注信息。

优选地,将所述第一标注信息、第二标注信息以及第三标注信息一同存 储为内容项目的标注信息。

优选地,将所述多媒体内容以及其标注信息存储在多媒体库中。

根据本发明的另一方面,提供一种标注多媒体内容的系统,包括:内容 接收单元,用于获取包括多媒体内容及其标题的内容项目;自然语言分析单 元,用于对所述标题进行自然语言分析,以提取一个或多个名词,并且将提 取的每个名词分别与包括多个实体词的实体词典进行匹配,以产生一个或多 个兴趣实体词;内容收录单元,用于将所述兴趣实体词存储为所述内容项目 的第一标注信息。

优选地,所述的系统还包括:切词分析单元,用于从获取的内容项目的 标题切出至少一个词,并且通过将从所述标题切出的词与包括多种专业词语 的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。

优选地,所述专名库包括关于每个词的不同粒度的兴趣词,并且通过与 所述专名库匹配确定不同粒度的兴趣词。

优选地,内容收录单元还将所述兴趣词存储为所述内容项目的第二标注 信息。

优选地,获取的内容项目还包括一个或多个内容标签,并且内容收录单 元还将所述一个或多个内容标签存储所述内容项目的第三标注信息。

优选地,内容收录单元将所述第一标注信息、第二标注信息以及第三标 注信息一同存储为内容项目的标注信息。

优选地,内容收录单元将所述多媒体内容以及其标注信息存储在多媒体 库中。

根据本发明的另一方面,提供一种生成推荐内容的方法,包括:获取从 多条产品线采集的网络访问日志,所述网络访问日志包括各个用户的网络访 问记录;对每个用户的网络访问记录进行分析,其中,对每条网络访问记录 进行自然语言分析,从每条网络访问记录提取一个或多个名词,通过分别将 提取的每个名词与实体词典库进行匹配来确定兴趣实体词;根据为每个用户 筛选出的兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容 以及其多项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配 的多媒体内容作为推荐内容。

优选地,所述对每个用户的网络访问记录进行分析的步骤还包括:对于 多媒体内容的网络访问记录,从所述网络访问记录提取多媒体内容的内容标 签,并且为所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注 信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推荐内 容。

优选地,对每个用户的网络访问记录进行分析的步骤还包括:对每条网 络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专名库进 行匹配来确定一个或多个兴趣词。

优选地,对每个用户的网络访问记录进行分析的步骤还包括:对从每条 网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词;其 中,所述用户生成推荐内容的步骤还包括:从多媒体库分别选取标注信息与 选择的兴趣词匹配的多媒体内容添加到生成的推荐内容。

优选地,所述的方法还包括:从为每个用户生成的推荐内容筛选出预定 个数的推荐内容项目作为最终的推荐内容。

优选地,所述的方法还包括:接收用户创建的兴趣标签,并且从多媒体 库分别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。

优选地,所述的方法还包括:响应于来自用户的请求,提供从所述用户 的网络访问记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。

根据本发明的另一方面,提供一种生成推荐内容的系统,包括:日志获 取单元,用于获取从多条产品线采集的网络访问日志,所述网络访问日志包 括各个用户的网络访问记录;日志分析单元,用于对每个用户的网络访问记 录进行分析,其中,对每条网络访问记录进行自然语言分析,从每条网络访 问记录提取一个或多个名词,通过分别将提取的每个名词与实体词典库进行 匹配来确定兴趣实体词;推荐内容生成单元,用于根据为每个用户筛选出的 兴趣实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多 项标注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体 内容作为推荐内容。

优选地,日志分析单元在对每个用户的网络访问记录进行分析时,对于 多媒体内容的网络访问记录,还从所述网络访问记录提取多媒体内容的内容 标签,并且推荐内容生成单元从多媒体库分别选取标注信息与提取的多媒体 内容的内容标签匹配的多媒体内容添加到生成的推荐内容。

优选地,日志分析单元在对每个用户的网络访问记录进行分析时,还对 每条网络访问记录进行切词,将切出的至少一个词与包括多种专业词语的专 名库进行匹配来确定一个或多个兴趣词。

优选地,日志分析单元还对从每条网络访问记录确定的兴趣词加权,并 且选择预定个数的权值高的兴趣词,其中,推荐内容生成单元还从多媒体库 分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推荐内 容。

优选地,推荐内容生成单元还从为每个用户生成的推荐内容筛选出预定 个数的推荐内容项目作为最终的推荐内容。

优选地,所述的系统还包括:接收单元,用于接收用户创建的兴趣标签, 其中,推荐内容生成单元从多媒体库分别选取标注信息与接收的兴趣标签匹 配的多媒体内容作为推荐内容。

优选地,所述系统响应于来自用户的请求,提供从所述用户的网络访问 记录提取的预定个数的兴趣实体词、兴趣词以及内容标签。

附图说明

通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变 得更加清楚,其中:

图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程 图;

图2是示出根据本发明的示例性实施例的标注多媒体内容的系统的逻辑 框图;

图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程 图;

图4是示出根据本发明的示例性实施例的生成推荐内容的系统的逻辑框 图。

具体实施方式

以下,将参照附图来详细说明本发明的实施例。

本发明的总体发明构思是,在收录如视频、音乐等多媒体内容项目时, 对所述多媒体内容项目的信息(如标题、自带标签等)进行多种分析处理, 为所述多媒体内容项目产生较丰富的标注信息;当向用户提供推荐内容时, 通过对用户的网络行为进行分析来挖掘用户的兴趣点,根据提供涉及挖掘的 兴趣点的多媒体内容。

图1是示出根据本发明的示例性实施例的标注多媒体内容的方法的流程 图。

参照图1,在步骤S110,获取多媒体的内容项目。所述内容项目可以是 用户上传的一条视频或音频,也可以是自特定网站收录的多媒体内容项目。 内容项目包括多媒体内容以及其标题。根据本发明的可选实施例,所述内容 项目还可以包括一个或多个预先标注的内容标签(例如用户上传视频时标注 的关键词、视频网站对所述视频项目标注的标签等)。

在步骤S120,对获取的内容项目中的标题进行自然语言分析,以提取一 个或多个名词。可使用通常的自然语音分析算法或应用来提取所述名词。例 如,对标题“范冰冰出席戛纳国际电影节”进行自然语言分析后,可提取出 “范冰冰”以及“戛纳国际电影节”等名词;而对标题“范爷出席戛纳国际 电影节”进行自然语言分析后,可提取出“范爷”以及“戛纳国际电影节” 等名词。

在步骤S130,将提取的每个名词分别与包括多个实体词的实体词典进行 匹配,以产生一个或多个兴趣实体词。例如,将“范冰冰”以及“戛纳国际 电影节”分别与实体词典进行匹配后,可仍匹配出“范冰冰”以及“戛纳国 际电影节”两个兴趣实体词;而将从标题“范爷出席戛纳国际电影节”提取 出的“范爷”以及“戛纳国际电影节”与实体词典进行匹配后,也匹配出“范 冰冰”以及“戛纳国际电影节”两个兴趣实体词。

在步骤S140,将所述兴趣实体词存储为所述内容项目的第一标注信息。

根据本发明的优选实施例,所述标注多媒体内容的方法还包括:从获取 的内容项目的标题切出至少一个词,并且通过将从所述标题切出的词与包括 多种专业词语的专名库进行匹配来确定一个或多个所述内容项目的兴趣词。 所述专名库包括关于每个词的不同粒度的兴趣词,例如,大粒度的娱乐、体 育、汽车等,小粒度的范冰冰、屌丝、切糕等。因此,通过与所述专名库匹 配可确定不同粒度的兴趣词。例如,对标题“范冰冰出席戛纳国际电影节” 进行切词后,得到“范冰冰”、“出席”以及“戛纳国际电影节”三个词,当 将“范冰冰”与实体词典进行匹配时,可得到“娱乐”、“影星”和“范冰冰” 三个兴趣词。此后,将确定的所述兴趣词存储为所述内容项目的第二标注信 息。

前面提到,在步骤S110获取的内容项目可还包括一个或多个预先标注的 内容标签。此时,根据本发明的优选实施例,还将所述一个或多个内容标签 存储所述内容项目的第三标注信息。

根据本发明的示例性实施例,将所述第一标注信息、第二标注信息以及 第三标注信息一同存储为内容项目的标注信息,而不对这三种标注信息进行 区分。

根据本发明的示例性实施例,将所述多媒体内容以及其标注信息存储在 多媒体库中。

图2是示出根据本发明的示例性实施例的标注多媒体内容的系统的逻辑 框图。

参照图2,根据本发明的示例性实施例的标注多媒体内容的系统包括内 容接收单元210、自然语言(NLP)分析单元230和内容收录单元240。

内容接收单元210获取包括多媒体内容及其标题的内容项目。所述内容 项目可以是用户上传的一条视频或音频,也可以是自特定网站收录的内容项 目。根据本发明的可选实施例,所述内容项目还包括一个或多个预先标注的 内容标签。

NLP分析单元230通过对内容接收单元210获取的所述标题进行自然语 言分析来提取一个或多个名词,并且将提取的每个名词分别与包括多个实体 词的实体词典进行匹配,以产生一个或多个兴趣实体词。

内容收录单元240将NLP分析单元230产生的所述兴趣实体词存储为所 述内容项目的第一标注信息。

根据本发明的优选实施例,所述标注多媒体内容的系统还包括切词分析 单元220。切词分析单元220从获取的内容项目的标题切出至少一个词,并 且通过将从所述标题切出的词与包括多种专业词语的专名库进行匹配来确定 一个或多个所述内容项目的兴趣词。根据本发明的优选实施例,所述专名库 包括关于每个词的不同粒度的兴趣词,并且通过与所述专名库匹配确定不同 粒度的兴趣词。在这种情况下,内容收录单元240还将切词分析单元220确 定的所述兴趣词存储为所述内容项目的第二标注信息。

如前所述,获取的内容项目可还包括一个或多个内容标签。此时,根据 本发明的优选实施例,内容收录单元240还将所述一个或多个内容标签存储 所述内容项目的第三标注信息。

根据本发明的示例性实施例,内容收录单元240将为内容项目产生的第 一标注信息、第二标注信息以及第三标注信息一同存储为内容项目的标注信 息。

根据本发明的示例性实施例,内容收录单元240将所述多媒体内容以及 其标注信息存储在多媒体库中。

如前所述,本发明的标注多媒体内容的方法和系统通过对多媒体内容项 目的标题进行如自然语言分析和切词分析,产生规范、不同粒度的标注信息。

图3是示出根据本发明的示例性实施例的生成推荐内容的方法的流程 图。

在步骤S310,获取从多条产品线采集的网络访问日志,所述网络访问日 志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内容观 看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将网络 访问日志按照用户整理成为各个用户的网络访问记录。

步骤S320~S330是针对每个用户执行的步骤。以下描述对每个用户的网 络访问记录进行处理并生成推荐内容的操作。

在步骤S320,对每个用户的网络访问记录进行分析。其中,对用户的每 条网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名 词,并且通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体 词。例如,网络访问记录显示用户近期经常浏览有关范冰冰的娱乐新闻,则 可通过对相应的网络访问记录进行分析,挖掘出“范冰冰”的这个用户兴趣 点。

在步骤S330,根据为所述用户筛选出的兴趣实体词,为所述用户生成推 荐内容,其中,从包括多媒体内容以及其多项标注信息的多媒体库选取标注 信息与所述筛选的兴趣实体词匹配的多媒体内容作为推荐内容。这里所说标 注信息与兴趣实体词匹配是指在多项标注信息中包含所述兴趣实体词。

根据本发明的优选实施例,步骤S320还包括:如果所述网络访问记录多 媒体内容的网络访问记录,则从所述网络访问记录提取多媒体内容的内容标 签,并且步骤S330还包括:从多媒体库分别选取标注信息与提取的多媒体内 容的内容标签匹配的多媒体内容添加到生成的推荐内容。这里所说标注信息 与内容标签匹配是指在多项标注信息中包含与所述内容标签实质相似的标注 信息,可根据设计的需要确定所述实质相似的标准。

根据本发明的优选实施例,步骤S320还包括:对每条网络访问记录进行 切词,将切出的至少一个词与包括多种专业词语的专名库进行匹配来确定一 个或多个兴趣词。根据本发明的另一优选实施例,在步骤S320,还对从每条 网络访问记录确定的兴趣词加权,并且选择预定个数的权值高的兴趣词。然 后,在步骤S330,从多媒体库分别选取标注信息与选择的兴趣词匹配的多媒 体内容添加到生成的推荐内容。这里所说标注信息与兴趣词匹配是指在多项 标注信息中包含所述兴趣词。

根据本发明的优选实施例,所述生成推荐内容的方法还包括:对根据兴 趣实体词、兴趣词和/或内容标签为每个用户生成的推荐内容进行筛选,选出 预定个数的推荐内容项目作为最终的推荐内容。

根据本发明的优选实施例,所述生成推荐内容的方法还包括:接收用户 创建的兴趣标签,并且从多媒体库分别选取标注信息与接收的兴趣标签匹配 的多媒体内容作为推荐内容。这样,可根据用户提供的兴趣点来生成推荐内 容。这里所说标注信息与内容标签匹配是指在多项标注信息中包含与所述内 容标签实质相似的标注信息,可根据设计的需要确定所述实质相似的标准。

根据本发明的优选实施例,所述生成推荐内容的方法还包括:响应于来 自用户的请求(如打开特定网页的请求),提供从所述用户的网络访问记录提 取的预定个数的兴趣实体词、兴趣词以及内容标签。用户可从提供的这些兴 趣实体词、兴趣词以及内容标签选择自己感兴趣的主题,并进行多媒体内容 (如视频)的定制。

图4是示出根据本发明的示例性实施例的生成推荐内容的系统的逻辑框 图。

参照图4,根据本发明的示例性实施例的生成推荐内容的系统包括日志 获取单元410、日志分析单元420和推荐内容生成单元430。

日志获取单元410获取从多条产品线采集的网络访问日志,所述网络访 问日志包括各个用户的网络访问记录。这里的网络访问日志不限于多媒体内 容观看日志,而可以搜索日志、新闻浏览日志、社交网站活动日志等。可将 网络访问日志按照用户整理成为各个用户的网络访问记录。

日志分析单元420对每个用户的网络访问记录进行分析,其中,对每条 网络访问记录进行自然语言分析,从每条网络访问记录提取一个或多个名词, 通过分别将提取的每个名词与实体词典库进行匹配来确定兴趣实体词。

推荐内容生成单元430根据日志分析单元420为每个用户筛选出的兴趣 实体词,为所述用户生成推荐内容,其中,从包括多媒体内容以及其多项标 注信息的多媒体库选取标注信息与所述筛选的兴趣实体词匹配的多媒体内容 作为推荐内容。

根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问 记录进行分析时,对于多媒体内容的网络访问记录,还从所述网络访问记录 提取多媒体内容的内容标签;推荐内容生成单元430还从多媒体库分别选取 标注信息与提取的多媒体内容的内容标签匹配的多媒体内容添加到生成的推 荐内容。

根据本发明的优选实施例,日志分析单元420在对每个用户的网络访问 记录进行分析时,还对每条网络访问记录进行切词,将切出的至少一个词与 包括多种专业词语的专名库进行匹配来确定一个或多个兴趣词。根据本发明 的另一优选实施例,日志分析单元420还对从每条网络访问记录确定的兴趣 词加权,并且选择预定个数的权值高的兴趣词;推荐内容生成单元430从多 媒体库分别选取标注信息与选择的兴趣词匹配的多媒体内容添加到生成的推 荐内容。

根据本发明的优选实施例,推荐内容生成单元430还对根据兴趣实体2 词、兴趣词和/或内容标签生成的推荐内容进行筛选,从为每个用户生成的推 荐内容筛选出预定个数的推荐内容作为最终的推荐内容。

根据本发明的优选实施例,所述生成推荐内容的系统还包括接收单元(未 显示),用于接收用户创建的兴趣标签。推荐内容生成单元430从多媒体库分 别选取标注信息与接收的兴趣标签匹配的多媒体内容作为推荐内容。

根据本发明的优选实施例,所述生成推荐内容的系统还响应于来自用户 的请求,提供从所述用户的网络访问记录提取的预定个数的兴趣实体词、兴 趣词以及内容标签,从而用户可选择个性化地定制多媒体内容的兴趣主题。

由此可见,本发明的生成推荐内容的方法及系统可从用户的各种网络访 问记录中挖掘用户的兴趣点,并且相应地生成推荐内容。即使用户先前并未 访问过多媒体内容网站,也可通过其其他的网络行为找到其兴趣点,为其推 荐可能感兴趣的多媒体内容。

从上述参照附图对本发明的示例性实施例的描述可以看出,本发明的标 注多媒体内容的方法、生成推荐内容的方法及系统在收录多媒体内容项目(如 电影、电视剧、视频新闻、视频报道等)时,对所述多媒体内容项目的辅助 信息进行相对深度的分析,并进行准确、多粒度的丰富标注。同时,通过用 户的各种网络行为来挖掘用户的兴趣点,从而提供用户可能感兴趣的多媒体 内容推荐,增强了用户的网络体验。

需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多 步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现 本发明的目的。

上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在 记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机 代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可 读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法 可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC 或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、 微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组 件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处 理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机 访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用 于执行在此示出的处理的专用计算机。

尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理 解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些 实施例进行各种修改和变换。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号