首页> 中国专利> 额外丰富内容元数据生成器

额外丰富内容元数据生成器

摘要

本公开涉及额外丰富内容元数据生成器。在一个实施方式中,方法包括接收与由内容提供者提供的内容项相关的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的语言变化版本;将内容元数据连同额外元数据存储在存储设备中,其中内容元数据被存储为与额外元数据关联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关元数据,额外的相关元数据包括相关元数据的语言变化版本;以及增加一个或多个额外搜索项至搜索请求,一个或多个额外搜索项对应于额外相关元数据。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-07

    授权

    授权

  • 2019-01-25

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20140902

    著录事项变更

  • 2019-01-25

    专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20190107 变更前: 变更后: 申请日:20140902

    专利申请权、专利权的转移

  • 2016-08-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140902

    实质审查的生效

  • 2015-03-18

    公开

    公开

说明书

技术领域

本公开内容总体上涉及用于内容元数据生成的方法和装置。

背景技术

随着新的混合网络(除了具有广播能力(例如,地面电视(TV)、卫 星TV、电缆TV),还具有宽带因特网能力(例如,数字用户线路(DSL) 或者电缆))的迅速发展,流媒体内容变得越来越流行。现在用户可利用 和可进入包括多媒体和视听觉(AV)内容的越来越多的内容。这样大量 的增加可能随着传统的广播产业通过开发新一代的机顶盒(STB)和能够 流传送和回放此类内容的配套设备(例如,计算机、移动电话、平板电脑、 手持设备等)进入互联网电视机顶盒业务(OTT)汇聚世界而进一步增加。 TV用户现在期望TV内容搜索与它们在因特网世界中一样简单、丰富和 高效。

发明内容

因此,根据本发明的一个方面,提出一种方法,包括:接收与由内容 提供者提供的内容项有关的内容元数据;从一个或多个外部源检索额外元 数据,额外元数据包括内容元数据的语言变化版本;将内容元数据连同额 外元数据存储在存储设备中,其中,内容元数据被存储为与额外元数据关 联;接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示的 一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多个 搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关的元数 据,额外的相关的元数据包括相关元数据的语言变化版本;以及增加一个 或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外的 相关的元数据。

根据本发明的另一个方面,提出一种装置,包括:管理单元,可操作 地接收与由内容提供者提供的内容项相关的内容元数据;创建单元,可操 作地从一个或多个外部源检索额外元数据,额外元数据包括内容元数据的 语言变化版本;存储单元,可操作地存储内容元数据连同额外元数据,其 中,内容元数据被存储为与额外元数据关联;其中,管理单元被另外可操 作为:接收来自用户的搜索请求,搜索请求包括以第一语言变化版本表示 的一个或多个搜索项;在内容元数据或者额外元数据中识别匹配一个或多 个搜索项的相关元数据;识别存储为与相关元数据关联的额外的相关的元 数据,额外的相关的元数据包括相关元数据的语言变化版本;以及增加一 个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外 的相关的元数据。

根据本发明的又一方面,提出一种或多种计算机可读有形存储介质, 利用包括计算机可执行指令的软件编码并且当软件被执行时,可操作为: 接收与由内容提供者提供的内容项相关的内容元数据;从一个或多个外部 源检索额外元数据,额外元数据包括所接收的内容元数据的语言变化版 本;将所接收的内容元数据连同额外元数据存储在存储设备中,其中,所 接收的内容元数据被存储为与额外元数据关联;接收来自用户的搜索请 求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在所接 收的内容元数据或者额外元数据中识别匹配一个或多个搜索项的相关元 数据;识别存储为与所识别的相关元数据关联的额外的相关的元数据,额 外的相关的元数据包括所识别的相关元数据的语言变化版本;以及增加一 个或多个额外的搜索项至搜索请求,一个或多个额外的搜索项对应于额外 的相关的元数据。

附图说明

结合附图,从以下详细描述中将更充分地理解并领会本发明,在附图 中:

图1是根据本发明的实施方式构造和操作的系统的简化框图示图;

图2是根据本发明的实施方式构造和操作的包括额外丰富 (extra-rich,超丰富)内容元数据生成器的系统的简化框图示图;

图3是描述根据本发明的实施方式的操作额外丰富内容元数据生成 器的方法的流程图;和

图4是根据本发明的实施方式的与具体演员相关的不同的元数据之 间的关系的方框图示图。

具体实施方式

概述

在一个实施方式中,方法包括接收与由内容提供者提供的内容项相关 的内容元数据;从一个或多个外部源检索额外元数据,额外元数据包括内 容元数据的语言变化版本;将内容元数据与额外元数据存储在存储设备 中,其中,内容元数据被存储为与额外元数据关联;接收来自用户的搜索 请求,搜索请求包括以第一语言变化版本表示的一个或多个搜索项;在内 容元数据或者额外元数据中识别匹配一个或多个搜索项的相关的元数据; 识别存储为与相关的元数据关联的额外的相关的元数据,额外的相关的元 数据包括相关的元数据的语言变化版本;并且增加一个或多个额外的搜索 项至搜索请求,一个或多个额外的搜索项对应于额外的相关的元数据。

示例性实施方式

在以下描述中,阐述大量的具体细节以提供对本发明的各种原理的全 面理解。然而,本领域技术人员将理解不是所有这些细节始终必要地需要 用于实践本发明。在此情况下,为了避免不必要地使一般概念模糊,并未 详细地示出众所周知的电路、控制逻辑、和用于惯用算法和处理的计算机 程序指令的细节。

虽然本发明的原理在此被大量地描述为与电视广播和OTT环境以及 相关的电视应用有关,这个是为方便展现起见选择的示例,没有限制性。

类似地,虽然本发明的原理在此被大量地描述为与汉语语言变化版本 和格式有关,这个是为方便展现起见选择的示例,没有限制性。

在一些国家中和/或对于某些语言,使用传统的远程控制搜索内容(诸 如TV节目、与演员/导演等相关的额外的信息)不容易、不方便、和甚至 有时不可能。例如,使用通常仅支持拉丁字的传统的远程控制来输入汉字 是困难的。因此,在传统的电视广播世界的这些区域中,内容搜索不被看 做是重要的业务范围。然而,电视广播产业正在进入具有用作用于内容消 耗的新媒体的配套设备(例如,个人计算机、智能电话、平板电脑等)的 提升的多屏融合世界。这些配套设备提供包括新的和更加便利的搜索的新 的功能和语言输入能力。实际上,用户现在可以使用不同的输入类型例如, 诸如绘制或者键入字(例如,中文简体字和繁体字)的人工录入、声音录 入等搜索。因此,可靠的跨平台内容搜索支持变为此类国家和/或语言的重 要的发行物。

并且,TV用户现在期望内容搜索与他们在因特网世界中一样简单和 高效。通常,提供搜索因特网以发现包含一个或多个指定关键字的内容的 搜索引擎(软件程序),并且返回与含有关键字的内容链接的搜索结果条 目。诸如Google(www.google.com)或者Yahoo(www.yahoo.com)的广 泛搜索引擎使用网络爬虫(Web crawler)访问非常大量的内容项(例如, 网页)。然后,称为索引器的另一个程序解析这些内容项并且基于每个内 容项的元数据创建搜索索引。每个搜索引擎使用专有算法创建索引以理想 地仅返回用于每个查询的有意义的搜索结果。然而,由于某些语言的复杂 性和多样性,原始的内容元数据可能无法提供足够的信息以允许搜索引擎 返回一致的和/或精确的搜索结果。再次参考中文语言示例,不同类型的书 面中文格式在不同的区域中存在。简体中文通常在中国大陆使用,而繁体 中文在香港和台湾使用。此外,这些不同的区域也可以使用不同的方言。 事实上,普通话是中国大陆的官方语言(也被称作汉语拼音-在下文中称 为拼音),然而,广东话广泛地用于香港或者甚至在中国大陆的南部(威 妥玛式拼音法(Wade-Giles Romanization)-在下文中称作香港拼音)。并且, 台湾有其自己的稍微不同于汉语和香港拼音的语言发音(台湾通用拼音– 在下文中称作台湾拼音)。这些拼音变化版本被中国用户广泛地用作关键 字输入,因为它们被转录为拉丁字,并且因此更加便利的进行搜索(尤其 利用仅支持拉丁字输入的远程控制)。例如,如果用户搜索与“Jackie Chan” (众所周知的演员)相关的内容并且使用它的简体中文格式(“成龙”)作 为关键字,然后将仅回复包含这个具体书面格式的搜索结果。利用以另一 个格式书面的元数据的索引的内容项,诸如:

繁体中文:“成龍”;

拼音:“Cheng Long”;

香港拼音:“Sing Lung”;

台湾拼音:“Cheng Lung”;或者

甚至英语:“Jackie Chan”。

可能没有发现,并且因此没有作为搜索的结果返回至用户。为了返回 更加精确的和一致的搜索结果,用户行为也是可以被考虑的标准。利用上 文给出的示例进一步进行,观察到繁体中文用户大量使用拼音简写作为关 键字搜索。拼音简写通常对应于全部拼音的首个字母/字。以下给出“Jackie  Chan”的拼音简写:

“CL”用于大陆(Cheng Long)和台湾(Cheng Lung)拼音;和

“SL”用于香港拼音(Sing Lung)。

因此,需要能够考虑语言变化版本、用户的行为和简档,从而提供更 加准确的、个性化的和相关搜索结果的系统。例如,使用“CL”作为关键字 搜索的台湾用户应当能够接收包括“Jackie Chan”作为演员的电影的繁体中 文格式的搜索结果。

另一个挑战涉及地理的和版权限制。对于OTT平台,地理限制不再 是问题。在开放因特网世界中,用户(例如,注册消费者)可以自身位于 世界各地通过OTT消费内容。然而,在某些区域/范围中,对一些内容项 的访问可能被限制和/或不同版本的相同的内容项可以由于文化差异、版权 或者其他管制法律被广播。例如,“泰坦尼克3D”电影的定制版本在中国 大陆被特殊准备和播放–即,一些场景被去除–但是“断背山”电影没有被允 许播放。而且,电影片名在电影被播放时可以被翻译为国家语言。在中文 示例中情形甚至更加复杂,因为电影片名可以被翻译为多种中文片名。为 了阐明这个,考虑詹姆斯邦德的最后的片名为“Skyfall”的电影的示例。在 中国,“Skyfall”可以被翻译为:

中国大陆的“大破天幕杀机”;

香港(繁体中文)的“新鐵金剛:智破天凶城”;和

台湾(繁体中文)的“空降危機”。

增加拼音变化版本和简写,“Skyfall”还可以被翻译为:

大陆拼音的“Da Po Tian Mu Sha Ji”和“TMSJ”作为相应的简写,“Da  Po”通常被忽略因为其为形容词;

香港拼音的“Zhi Po Tian Xiong Cheng”和相应的简写“ZPTXC”;以及

台湾拼音的“Kong Jiang Wei Ji”和相应的简写“KJWJ”。

本领域技术人员将理解存在其他非标准的形式诸如:“詹姆斯邦德 2012”、或者“邦德23”等。因此,需要能够考虑这些限制的系统。

本发明,在其实施方式中,提供当考虑区域和/或版权限制时使用户 能够轻易地进行内容搜索并且获得准确、个性化和一致的搜索结果的改善 方法和相关的装置。

现在参考图1,它是根据本发明的实施方式构造和操作系统的简化的 方框图示图。

头端110通常通过通信网络130与多个客户端设备120通信。附带地 或可选地,多个头端110与单个的客户端设备120或者通过通信网络130 与多个客户端设备120通信。为了描绘和描述的简单性,并且不限制本发 明的一般性,在图1中示出与仅一个头端110通信的仅一个客户端设备 120。

通信网络130包括以下中至少一个:基于卫星的通讯网络;基于电缆 的通讯网络;常规地面广播电视网络;基于电话的通讯网络;基于电话的 电视广播网络;基于移动电话的电视广播网络;互联网协议(IP)电视广 播网络;以及基于计算机的通讯网络。应理解,在替换的实施方式中,通 信网络130可以,例如,通过双向混合通信网络,诸如组合电缆-电话网 络,组合卫星-电话网络,基于组合卫星-计算机通信网络,或者通过任何 其他适当的网络实现。对于本领域的一些技术人员,实现通信网络130的 其他方式将是明显的。

客户端设备120可以是能够通过通信网络130与头端110通信的任何 类型的设备。客户端设备120可以是例如(但是不限制本发明的一般性), 机顶盒(STB)、PVR(个人的视频信号记录器)、DVR(数字视频记录器)、 诸如便携式计算机、台式机或者个人计算机(PC)的配套设备、诸如iPadTM 的平板电脑、诸如个人数字助理(PDA)的可移动计算装置、移动电话、 或者任何合适的手持设备。图1示出设置在头端110和显示设备140之间 的客户端设备120。在此类情形中,客户端设备120通常通过数字AV接 口(例如,HDMI、DVI等)或者通过模拟AV接口(例如,单元(RGB、 YPbPr)、混合式(NTSC、PAL、SECAM)、S-视频、SCART、RF同轴、 D-端子(D-端子)等)操作连接至显示设备140。尽管在图1中作为分离 的实体示出,在本发明的其他实施例中,客户端设备120可以是具有显示 设备140的整体。

显示设备140通常由用户,例如通过远程控制单元(RCU)150操作。 本领域技术人员将理解可以使用诸如PC、移动电话、平板电脑或者其他 合适的手持设备的其他设备操作显示设备140。根据使用的设备,用户可 以使用包括例如,用于计算机的计算机鼠标、用于移动电话的键盘按钮、 或者甚至用于支持直接操纵的设备的用户的手指的各种方法录入搜索关 键字。通过使用一个或多个在上文作为示例给出的各种手段,用户可以搜 索、浏览、请求、和选择AV内容以观看(诸如实时事件广播、视频点播 (VOD)资产、记录事件等)或者任何合适的信息和/或元数据。客户端 设备120内的操作系统软件监测与显示设备140和/或客户端设备120的用 户交互。

此外,通常位于头端侧110的额外丰富内容元数据生成器160 (ERCMG)可操作地通过通信网络130与搜索引擎170和客户端设备120 通信。图1仅示出一个通信网络130。尽管在图1中示出为被嵌入头端110, 本领域技术人员将理解在本发明的进一步实施方式中,ERCMG 160可以 是可操作与头端110通信的分离的实体。

最后,提供搜索引擎170(作为头端110的单元示出)。当用户操作 RCU 150和选择菜单时,输入一个或多个搜索项诸如字和/或数量或者通 过在显示设备140(嵌入和/或相关于客户端设备120)上显示的应用进行 动作,可以通过通信网络130将请求发送至头端110并且由搜索引擎170 接收。请求可以是对元数据、TV节目或者内容、或者任何其他额外的信 息的请求。然后,搜索引擎170可以将请求传递/转发至ERCMG 160。作 为响应,ERCMG 160返回包括原始的搜索请求的不同的语言变化版本的 相关的额外丰富元数据至搜索引擎170,并且通过增加这个相关的额外丰 富元数据至原始的搜索请求来更新请求。然后,搜索引擎使用更新的搜索 请求进行搜索并且一组相关的搜索结果在显示在显示设备140上之前被发 送回至客户端设备120。ERCMG 160还能够通过考虑与用户相关的有用 的情境信息诸如,例如(但是不限制本发明的一般性),地理位置、初始 语言输入、简档、优选、搜索历史等适应搜索结果的相关性/排列。这样做, 定义如何排列和显示搜索结果的权重规则由ERCMG 160使用所述情境信 息创建并然后应用在通过搜索引擎170获得的搜索结果上。

现在参考图2,图2是根据本发明的实施方式的包括额外丰富内容元 数据生成器(ERCMG)的系统的简化框图示图。以下将详细地描述与图 3的方法有关的图2的系统的操作。

过程在步骤300开始,并且在步骤301,内容提供者202(例如,TV 操作员)发送与内容项(例如,构成TV时间表或者VOD目录的部分的 程序)相关的内容元数据至ERCMG 260。通常,内容元数据可以被通过 资产分配接口(ADI)、使用元数据描述(例如,电缆实验室ADI规格描 述资源(诸如TV节目和商业广告)如何可以从内容源极分配至TV广播 员)定义资源如何标记和分类的产业方针、或者线性业务量信息接口(例 如,XML流量接口(XTI),其为用于输入XML格式化流量数据至流动 数据库服务器和从流动数据库服务器输出XML格式化流量数据的基于 Java的应用)被接收和摄入。本领域技术人员将理解可以使用任何其他合 适的用于元数据摄入的格式。一旦摄入,内容元数据被存储和索引在 ERCM数据库266中从而对用户可用。在摄入期间或者摄入之后,一些或 者所有摄入内容元数据被转发至ERCMG 260和由ERCM管理单元261接 收。通常,在内容制备平台期间,这个内容元数据摄入操作预先在内容提 供者/TV操作者的控制下进行。

在步骤302,ERCM创建子单元262检查ERCM管理单元261接收 的内容元数据并且然后使用一个或多个网络爬虫来检索额外元数据从而 使内容提供者提供的原始的内容元数据丰富。通常,网络爬虫被用于访问、 解析和从外源诸如(但是不限制本发明的一般性),由内容提供者指定的 网站入口提取元数据。本领域技术人员将理解,任何其他合适的网络来源 可以被访问,只要网络爬虫能够解析和提取来自该网络源的元数据。在本 发明的一个实施方式中,网络爬虫被用于搜索与原始的内容元数据的子集 相关的额外元数据。例如,由内容提供者提供的原始的内容元数据可以包 括用于每个TV或者VOD节目的一个或多个图像、类型和/或次类型、片 名、开始和结束时间、持续时间、一个或多个视频、摘录、不同演员的名 字、导演的名字等。因此,网络爬虫可以检索在TV或者VOD节目中呈 现的与片名或者演员相关的额外元数据。这些额外元数据通常包括对应于 原始的内容元数据的区域或者语言变化版本的演员/导演/标题的额外的名 字,版权信息和区域限制等。

在中文语言和区域变化版本的背景下,网络爬虫可以访问不同的门户 网络诸如例如(但是不限制本发明的一般性),时光网(中国大陆的内容 元数据门户网络)、香港雅虎电影、或者True电影(台湾)并且提取以书 面的汉字表示的额外元数据。在包括原始的内容元数据的情形中,例如:

“Jackie Chan”作为演员,网络爬虫可以能够检索以下对应于其区域和 /或语言变化版本以及社交共用名字的额外元数据中至少一个:

简体中文的“成龙”;

繁体中文的“成龍”;和/或

Jackie Chan的中文原名“陈港生”。

“Skyfall”作为电影片名,网络爬虫可以能够检索以下对应于其区域和 /或语言变化版本以及社交共用名称的额外元数据中至少一个:

中国大陆的“大破天幕杀机”;

香港(繁体中文)的“新鐵金剛:智破天凶城”;

台湾(繁体中文)的“空降危機”;和/或

作为社交共用名字的“詹姆斯邦德2012”或者“邦德23”。

对本领域中的技术人员显而易见的是原始的内容元数据可以被以任 何合适的格式设置并且网络爬虫被配置为检索缺失的额外元数据。

在步骤303,确定是否网络爬虫没有发现一个或多个额外元数据。如 果成功地检索所有的额外元数据,然后过程直接进行至步骤305。相反地, 在缺失一个或多个额外元数据的情形中,创建子单元262的ERCM可以 在移动至步骤305之前在步骤304通过词典检查来检索缺失的额外元数 据。

一旦被网络爬虫检索到,额外元数据被集中并且可以被存储为与原始 的内容元数据在多个索引中关联或者在ERCM数据库266的表267和268 中。通常,原始的内容元数据利用它们相应的额外元数据,即,对应于原 始内容元数据的语言变化版本的额外元数据相关联和存储。并且,创建子 单元262的ERCM还可以进行以汉字书面的原始内容元数据和以汉字书 面相应的额外元数据的拼音映射。因此,在包括原始内容元数据和额外元 数据的情形中,例如:简体中文的“成龙”;繁体中文的“成龍”;和作为Jackie Chan的中文原名的“陈港生”,进行以下拼音映射:

大陆拼音的“Cheng Long”;

香港拼音的“Sing Lung”;和/或

台湾拼音的“Cheng Lung”。

并且,可以为Skyfall样本进行以下拼音映射:

大陆拼音的“Da Po Tian Mu Sha Ji”;

香港拼音的“Zhi Po Tian Xiong Cheng”;和/或

台湾拼音的“Kong Jiang Wei Ji”。

在步骤306,ERCM创建子单元262进一步创建拼音简写。通常, 采用拼音格式的每个单词的首个字母以创建拼音简写。因此,拼音简写被 表示为以下:

对于“Jackie Chan”:

“CL”用于大陆和台湾拼音;和/或

“SL”用于香港拼音。

对于“Skyfall”:

“TMSJ”用于大陆拼音;

“ZPTXC”用于香港拼音;和/或

“KJWJ”用于台湾拼音。

一旦被处理,原始内容元数据和关联的额外元数据,拼音和拼音简写 被在ERCM管理单元261的控制下进一步相关联地存储在存储单元266– 在下文中称作ERCM数据库266–(步骤307)。虽然仅在图2中示出一个 ERCM存储单元266,本领域技术人员将理解可以采用单个或者多个存储 器单元、数据库等作为存储手段。原始内容元数据和关联的额外元数据以 及它们的拼音和拼音简写可以被存储在多个索引或者表中。图2示出两个 表267和268。表267是通常包括大陆中文(即,简体中文)、大陆汉语拼 音和TV操作员直接保持或者更新的相同的元数据的英语语言变化版本的 元数据表。为了说明,以下表1示出包括用于在上文给出的两个示例的元 数据变化版本的元数据表267:

表1–元数据表267

大陆中文(简体中文) 大陆汉语拼音 英语 成龙 Cheng Long Jackie Chan 大破天幕杀机 Da Po Tian Mu Sha Ji Skyfall

元数据表268是通常包括所有可能的区域和/或语言变化版本以及社 交共用名字的表。为了说明,以下表2示出包括用于在上文给出的两个示 例的元数据变化版本的元数据表268:

表2–元数据表268

本领域技术人员将理解,可以被索引的元数据不局限于表2中所示 的。事实上,另外的语言或者区域变化版本以及其他社交共用名字被本发 明包括并且因此可以被作为条目包括在表2中。此外,本领域技术人员将 理解,虽然存储在两个分离的表中,但是额外丰富元数据可以被存储在单 个或者多个表中。当包括原始内容元数据、它们的关联的额外元数据、拼 音和拼音简写的额外丰富元数据被索引和存储在ERCM数据库266中时, 过程在步骤308结束。

当用户201操作远程控制150时,他可以通过输入诸如以任何类型的 书面语言变化版本的字、数字或者关键字的一个或多个搜索项发起搜索请 求,任何类型的书面语言变化版本包括诸如拉丁字或者简体/繁体中文的传 统书面格式、诸如中国大陆、香港或者台湾拼音的发音格式;或者甚至拼 音简写。然后,请求可能被客户端设备220发送至搜索引擎270。请求可 以是对内容、元数据、或者任何其他额外信息的请求。搜索引擎270通常 传递/转发以第一语言变化版本表示的搜索请求的搜索项至ERCMG 260 的ERCM管理单元261。ERCM管理单元261搜索ERCM数据库266和 表267和268以识别匹配用户201输入的搜索项的第一语言变化版本的额 外丰富元数据中的相关的元数据。如在上文解释的,表267和268包括相 同元数据的多个不同的语言变化版本。因此,基于识别在表267和268中 匹配用户以第一语言变化版本录入的搜索项的相关的元数据,ERCM管理 单元261能够识别对应于所识别的相关的元数据的不同的语言变化版本的 额外的相关元数据。最后,ERCM 260返回额外的相关元数据至搜索引擎 270和通过增加额外的搜索项(对应于额外的相关的元数据)至用户以第 一语言变化版本输入的初始一个或多个搜索项更新初始搜索请求。通过提 供额外的相关的元数据至搜索引擎270,搜索不局限于精确的用户的初始 输入。为了阐明这个,考虑输入“成龙”(简体中文的“Jackie Chan”)作为 关键字至搜索引擎270的用户201的示例。没有ERCMG 260,搜索引擎 270仅可以向用户201返回精确匹配这个具体的书面格式的搜索结果。利 用ERCMG 260,搜索引擎270通常能够识别ERCM数据库266中的这个 具体书面格式并且检索:

来自元数据表267的大陆拼音“Cheng Long”和英语名字格式;和

来自元数据表268的香港(“成龍”、“Sing Lung”、和“SL”)和台湾(“成 龍”和“Cheng Lung”和“CL”)语言变化版本以及大陆中文拼音简写“CL”和 社交共用名字“陈港生”。

ERCMG 260还包括与两个数据库(用户搜索历史数据库264和用户 简档数据库265)关联的ERCM权重子单元263。在本发明的一个实施方 式中,ERCM权重子单元263能够通过考虑与用户201相关的有用的情境 信息诸如,例如(但是不限制本发明的一般性),地理位置、初始语言输 入、用户简档、优选、搜索历史等适应搜索结果的相关性/排列。

以下将描述与图4有关的ERCM权重子单元263的操作,图4是根 据本发明的实施方式的与具体演员有关的不同的元数据之间的关系的方 框图示图。通常,当用户201发起搜索请求时,搜索引擎270接收并且转 发搜索请求至ERCMG 260。请求被ERCM管理单元261接收。由用户201 输入的初始输入通常至ERCM权重子单元263。此外,在ERCMG 260没 有识别初始输入或者在数据库266中没有发现的情形中,初始输入被发送 至ERCM创建子单元262用于进一步处理。这个处理与摄入流程的描述 类似并且输入被作为从内容提供者202接收的内容元数据处理。在该情形 中,可以如在图3中示出的方法中的描述来处理初始输入。基于初始输入 的接收,ERCM权重子单元263分析输入以确定使用的是哪个区域和/或 语言变化版本或者拼音格式。ERCM权重子单元263可以在该点上检测输 入是否为简体或者繁体中文或者输入是否对应于具体的拼音格式。并且, ERCM权重子单元263能够翻译用户201使用的简写以进行搜索。基于分 析的结果,ERCM权重子单元263可以提供权重规则至搜索引擎270以在 搜索结果被显示时应用。为了阐明这个,考虑在图4中给出的示例。如果 用户201在搜索引擎270中输入“成龙”以获得与“Jackie Chan”相关的信息, ERCM权重子单元263通常检测作为简体中文提供的输入。因此,ERCM 权重子单元263可以发送具体的权重规则至搜索引擎270以影响搜索结果 的排列。例如,其可以通过在屏幕上作为第一搜索结果和/或利用具体直观 指示显示它们给予简体中文书写的或者包括演员的名字的这个书面形式 和/或包括大陆拼音演员的名字的搜索结果更多重要性。本领域技术人员将 理解可以使用任何合适的显示形式或者指示以具体地表示权重的搜索结 果。类似地,如果用户201在搜索引擎270中输入“成龍”以获得与“Jackie  Chan”相关的信息,ERCM权重子单元263通常检测作为繁体中文提供的 输入并且可以发送具体的权重规则给予以繁体中文书写的或者包括演员 名字的这个书面形式和/或拼音形式的搜索结果更多重要性。

在本发明的另一个实施方式中,进一步进行分析以精细权重规则。这 样做,ERCM权重子单元263可以从用户搜索历史264和用户简档265数 据库检索进一步信息。通常,用户搜索历史数据库264包括与用户201之 前请求的搜索相关的和/或搜索引擎270进行的信息。并且,用户简档数据 库265包括与系统的不同用户相关的信息并且可以包括用户的优选、地理 位置(例如,注册的家庭位置、当前位置等)、具体家庭的不同的简档、 设备、订阅等。该额外的信息可以用于提供搜索引擎270精细后的权重规 则以在搜索结果返回至用户201时应用。此外,在图4的示例中,如果用 户201在搜索引擎270中输入“CL”以获得与“Jackie Chan”相关的信息, ERCM权重子单元263通常检测涉及“Cheng Long”(大陆汉语拼音)和/ 或“Cheng Lung”(台湾通用拼音)的请求。在该情形中,即使在这时候一 些权重规则可以被应用并且发送至搜索引擎270,那么其可以对获得关于 用户201的更多信息有用。ERCM权重子单元263可以检索与用户201相 关的情境信息诸如,例如(但是不限制本发明的范围),他的地理位置和/ 或用户201还使用简体中文用于之前搜索。因此,较高的权重可以给予以 简体中文或者包括演员的名字的书面的和/或大陆汉语拼音形式提供的搜 索结果。本领域技术人员将理解可以使用与存储在数据库264和265中的 用户201相关的任何类型的情境信息以精细权重规则。

在本发明的进一步实施方式中,ERCM权重子单元263能够通过进 一步考虑区域版权和内容分配规章定制搜索结果。如在上文中解释的,在 某些区域/范围中,对一些内容项的访问可能被限制和/或不同版本的相同 的内容项可以由于文化差异、版权或者其他管制法律被广播。例如,“泰 坦尼克3D”电影的定制版本在中国大陆被特殊准备和播放–即,一些场景 被去除–但是“断背山”电影没有被允许播放。而且,电影片名在电影被播 放时可以被翻译为国家语言。搜索结果的定制可以包括去除一些搜索结果 使得用户201不可以访问内容;和/或替换一些搜索结果;和/或对一些内 容增加一些具体的权重规则。这样做,ERCM权重子单元263检查当前用 户的地理位置和区域版权和内容分配规章。通常,GPS(全球定位卫星) 数据被用于建立当前用户的地理位置。本领域技术人员将理解可以使用任 何其他合适的手段用于检索当前地理位置。因此,搜索“泰坦尼克”电影的 台湾用户201可以根据他的地理位置接收,例如,不同的搜索结果。如果 他当前位于台湾,他可以接收作为搜索结果之一的台湾版本的电影,但是 如果他在中国大陆,该版本可以被简单地除去和/或通过中文版本替换。并 且,在后者情况下,虽然“泰坦尼克”电影的其他中文版本被设置为简体中 文,但是台湾用户201可以接收“泰坦尼克”电影的中文版本连同友好的繁 体中文。

虽然本发明的原理在此被大量地描述为与电视广播环境以及相关的 电视应用有关,这个是为方便展现起见选择的示例,没有限制性。

类似地,虽然本发明的原理在此被大量地描述为与汉语语言变化版本 和格式有关,这个是为方便展现起见选择的示例,没有限制性。

虽然上述实施方式已经描述为在头端侧上执行,本领域的一些技术人 员将理解本发明的各种特征可以在中间网络单元中和/或在客户端设备侧 上实现。

应理解,为清晰起见,在单独的实施方式的上下文中描述的本发明的 各个特征也可在单个实施方式中以组合的形式来提供。相反,为简便起见, 在单个实施方式的上下文中描述的本发明的各个特征也可单独地或者以 任何适合的子组合来提供。

本领域技术人员将理解,本发明不由上文具体示出和描述的内容来限 制。而是由所附权利要求及其等价物来限定本发明的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号