首页> 中国专利> 面向三网融合的电视节目内容搜索与推荐方法

面向三网融合的电视节目内容搜索与推荐方法

摘要

本发明公开了一种面向三网融合的电视节目内容搜索与推荐方法。包括:提出同义词标签丰富、评论标签丰富和视频相似度标签丰富三种视频标签自丰富方法生成能详细描述海量电视节目内容的标签描述文件;设计接口完整收集电视节目观众的显式和隐式行为信息,并分别提出了显式和隐式偏好权重计算方法构建基于标签的用户偏好模型,同时考虑了用户偏好随时间的变化;提出基于标签满足关系的相似度计算方法,实现三网融合环境下海量电视节目内容的个性化搜索与主动推荐服务。本方法解决了三网融合环境下海量电视节目内容详细描述的需求,同时为用户提供了更好体验的电视节目个性化服务,从而减少了用户的浏览时间,提高了用户的检索效率。

著录项

  • 公开/公告号CN105142028A

    专利类型发明专利

  • 公开/公告日2015-12-09

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201510455189.8

  • 申请日2015-07-29

  • 分类号H04N21/466(20110101);H04N21/462(20110101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人廖盈春

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-12-18 12:40:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-27

    授权

    授权

  • 2016-01-06

    实质审查的生效 IPC(主分类):H04N21/466 申请日:20150729

    实质审查的生效

  • 2015-12-09

    公开

    公开

说明书

技术领域

本发明属于计算机应用技术领域,更具体地,涉及一种面向三网融合 的电视节目内容搜索与推荐方法,通过视频标签自丰富实现对海量电视节 目内容的详细描述,详细收集用户行为信息并挖掘用户偏好,根据得到的 用户偏好信息为用户提供电视节目个性化搜索和主动推荐两种个性化服务。

背景技术

“三网融合”是指互联网、广播电视网和电信网三网相互渗透、互相 兼容并逐步发展成为资源共享,能为用户提供数据、广播电视和数字语音 等多种服务的统一信息网络。近年来,随着我国数字电视的改造、“三网 融合”业务的不断发展以及多媒体技术的持续进步,电视频道越来越多, 视频数据的生成和处理变得很方便,视频的数量呈现爆炸性的增长,用户 获取这些视频数据的途径也更多。例如,用户可以快速地在优酷土豆、 YouTube、腾讯等平台上传和分享自己喜爱的视频;与此同时,相较于传统 的线性接收有线电视节目,如今的用户可以随时随地通过互联网观看相应 的有线电视节目。然而,虽然用户获取视频数据的方式很多,但一方面视 频数据的增长太快,另一方面人们的工作生活节奏越来越快,真正用于观 看视频的时间越来越少,越来越零散。面对大量的电视频道和海量的互联 网视频内容,用户往往无所适从,仅有的一点娱乐时间往往消耗在视频的 搜索和选择上。因此随着电视频道的增加、视频内容的海量增长、用户生 活节奏的加快,如何有效组织、管理和获取这些视频节目,使电视节目观 众能够方便有效地在海量电视节目中获得自己感兴趣的视频内容即为用户 提供个性化视频服务已经成为一种需要。

虽然在个性化服务方面国内外学者已经进行了大量的研究,但是三网 融合环境下电视节目内容个性化服务(个性化搜索和主动推荐)仍然面临 如下几个问题:

1.三网融合环境下电视节目数据量呈现海量性,仅靠节目提供者一一 对视频内容进行详细描述是不现实的,必须依靠其他力量实现对视频内容 的详细描述。

2.个性化服务对实时性要求很高,如何完整收集用户行为信息,如何 快速且准确地构建用户偏好模型,实现对偏好模型的实时更新以及提供高 效的个性化服务仍然面临着挑战。

3.目前已有的个性化服务只关注点播视频,或者只关注直播电视节目, 缺少同时对这两类电视节目考虑的个性化服务即三网融合环境下电视节目 的个性化服务。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种面向三网融 合的电视节目内容搜索与推荐方法,其目的在于自动生成能详细描述海量 电视节目内容的标签描述文件,详细收集用户显式和隐式行为信息挖掘用 户偏好,并通过改进的相似度计算方法,实现三网融合环境下海量电视节 目内容的个性化搜索与主动推荐服务,能有效提高用户的检索效率,减少 用户的浏览时间。

为实现上述目的,本发明提供了一种面向三网融合的电视节目内容搜 索与推荐方法,其特征在于,包括如下步骤:

(1)生成视频描述标签;

(2)收集用户的显式行为信息和隐式行为信息;

其中,显式行为信息包括用户密码保护问题答案和个性化签名;隐式 行为信息包括用户播放的点播视频和直播电视节目名,播放开始、暂停和 结束信息,检索关键词,视频评论信息,以及网页浏览信息;

(3)挖掘用户偏好,进一步包括如下步骤:

(3-1)从用户的显式行为信息和隐式行为信息中提取显式偏好标签和 隐式偏好标签;

(3-2)计算显式偏好标签的权重和隐式偏好标签的权重;

(3-3)用逻辑回归衰减函数对显式偏好标签的权重和 隐式偏好标签的权重进行衰减,其中,T(i)为用户ui的偏好的全衰期,t为 时间;

(4)计算用户的偏好标签与视频描述标签的相似度,为用户提供视频 搜索结果重排序和视频主动推荐两种个性化服务;

其中,视频搜索结果重排序是指:读取点播视频的检索结果,根据用 户的偏好标签与视频描述标签的相似度对检索结果进行重排序后展示给观 众;视频主动推荐是指:读取待推荐视频的描述标签,将描述标签与用户 的偏好标签的相似度最大的预定个数的视频推荐给观众。

优选地,所述步骤(1)进一步包括如下步骤:(1-1)对视频初始描述 文本进行分词和过滤,提取有效的分词结果作为视频初始标签;(1-2)由 视频初始标签从同义词标签集中得到同义词标签,从用户对视频的评论信 息中提取视频评论标签,根据用户的视频搜索和播放记录信息计算视频之 间的相似度得到视频相似度标签;(1-3)得到包括视频初始标签、同义词 标签、视频评论标签和视频相似度标签在内的能详细描述视频内容的视频 描述标签。

优选地,所述步骤(3-1)进一步包括如下步骤:(3-1-1)对用户的行 为信息进行过滤,去除无效的行为信息,得到有效的用户的行为信息;(3-1-2) 将相同连接会话内同一个视频的所有播放记录中的播放时间叠加,得到该 视频的累积播放时间,进而将任一视频的播放记录整合为一条,得到视频 播放行为描述标签;(3-1-3)对有效的用户的显式行为信息进行分词,提 取关键词信息得到显式偏好标签;对除已生成描述标签的视频播放行为信 息之外的有效的用户的隐式行为信息进行分词,提取关键词信息,将提取 的关键词信息与视频播放行为描述标签一起作为隐式偏好标签。

优选地,所述步骤(3-2)中,用户的隐式偏好标签的权重用该隐式偏 好标签出现的次数与该用户的所有有效的行为信息的条数之商表示;其中, 用户对同一对象的一次检索、浏览和评论行为算一条行为信息;对于整合 后的视频播放记录,计算总播放时长与视频总时长的比例ρ,当比例ρ>=0.8 时,该条播放记录的权重为1,否则为ρ,在视频播放记录参与隐式偏好标 签的权值的计算时另乘以对应的权重。

优选地,所述步骤(3-2)中,显式偏好标签的权重的计算方法具体为: 设置所有显式偏好标签的权重为1;对任一显式偏好标签,若其未出现在当 前连接会话中,则根据其最近一次出现的连接会话距离当前连接会话的次 数n对其权重进行n次减半操作。

优选地,所述步骤(3-3)中,用户ui的偏好的全衰期T(i)通过如下方 法得到:

(A1)计算用户ui的偏好标签tx对其偏好挖掘的影响:

MAEx=Σj=1,jxNi|pj-qj|Ni-1,

其中,pj为删除偏好标签tx后用户ui的偏好全衰期为T(i)时偏好标签tj的预 测权重,qj为偏好标签tj的真实权重,Ni为用户ui的偏好标签的个数;

(A2)将用户ui的平均绝对误差表示为:

MAE(T(i))=ΣMAExNi;

(A3)为所有用户的偏好的全衰期预设一个范围[Tmin,Tmax],在该范围 内计算用户ui的偏好的全衰期T(i),使得MAE(T(i))的值最小。

优选地,所述步骤(4)中,用户ui的偏好标签与视频vr的描述标签的 相似度其中,wix表示用户ui的偏好标 签tx的权重,wrx表示用户ui的偏好标签tx作为视频vr的描述标签时的权重, 当视频vr的描述标签中不存在偏好标签tx时,wrx=0,Ni为用户ui的偏好 标签的个数,l表示视频vr的描述标签中包含用户ui的偏好标签的个数,α是 相似度调节参数。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有 以下有益效果:

1.本发明实现了一种视频标签描述文件自动生成方案,解决了三网融 合环境下海量电视节目内容详细描述的问题。

2.本发明详细收集了用户在三网融合环境下的显式和隐式行为信息, 分别提出了显式偏好权值和隐式偏好权值的计算方法,同时考虑了用户偏 好随时间的变化,快速且准确地构建了用户偏好模型。

3.本发明提出了一种基于标签满足关系的相似度计算方法,同时为电 视节目观众提供点播视频和直播电视节目的个性化服务,包括个性化视频 搜索和主动推荐服务。

附图说明

图1是本发明实施例的面向三网融合的电视节目内容搜索与推荐方法 的总体设计框图;

图2是生成视频标签描述文件的流程图;

图3是生成视频初始标签的流程图;

图4是co-click相似度矩阵示意图;

图5是个性化搜索的流程图;

图6是主动推荐的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。

如图1所示,电视节目搜索引擎为用户接口部分,提供点播视频、直 播电视节目的搜索和播放,与此同时包含用户行为信息收集接口和点播、 直播视频资源的更新。个性化推荐服务器负责个性化服务的数据计算部分, 包括对用户行为信息进行分析并构建用户偏好模型,为电视节目资源生成 标签描述文件,提供直播和点播电视节目推荐、搜索结果个性化重排序和 相关视频推荐等个性化服务。

本发明实施例的面向三网融合的电视节目内容搜索与推荐方法通过三 种视频标签自丰富方法生成能详细描述海量电视节目内容的视频标签描述 文件,并通过详细收集用户的显式和隐式行为信息挖掘用户的偏好,进而 为电视节目观众提供个性化视频搜索和主动推荐两种个性化服务,具体包 括如下步骤:

(1)生成视频描述标签

如图2所示,使用同义词标签丰富、评论标签丰富和视频相似度标签 丰富三种视频标签丰富方式生成视频描述标签;包括如下步骤:

(1-1)对视频初始描述文本进行分词(即将长段句子分成单独的词) 和过滤,提取有效的分词结果作为视频初始标签;

如图3所示,使用中科院分词工具NLPIR导入特定领域词典,使用该 工具对视频初始描述文本进行分词;根据导入的领域词典对分词结果进行 过滤,提取有效的分词结果作为初始标签,并设置其标签权值为1。

(1-2)由视频初始标签从同义词标签集中得到同义词标签,从用户对 视频的评论信息中提取视频评论标签,根据用户的视频搜索和播放记录信 息计算视频之间的相似度得到视频相似度标签;

对于同义词标签集中的标签ty,如果存在标签tz∈vinitialSet且标签ty和 tz互为同义词标签,则标签ty的权重wvy=1,其中,vinitialSet为视频v的初 始标签集。

对于评论标签tp,如果tp∈vtrueSet或者∝vp≥θ,则标签tp的权重 wvp=1,否则wvp=∝vp,其中vtrueSet为视频v的真实标签集即权重为1 的标签集合,∝vp即为评论标签tp在视频v的所有评论中的比例,θ为阈值 变量。

如图4所示,根据所有用户的查询和播放记录构造co-click二维矩阵, 其中,Cr表示视频vr被点击播放的次数,Cs表示视频vs被点击播放的次数, Crs表示视频vr和vs在相同的检索词query下播放的次数;根据co-click二 维矩阵计算视频vr和vs的相似度:

由此视频vr由co-click相似度丰富得到的视频相似度标签tc的权重为:

wrc=ω(vr,vs)*wsc

其中,wsc为标签tc在视频vs中的权重。

(1-3)得到包括视频初始标签、同义词标签、视频评论标签和视频相 似度标签在内的能详细描述视频内容的视频描述标签。

(2)收集用户的行为信息

用户的行为信息是对用户行为的记录,包括用户的显式行为信息和隐 式行为信息。前者包括用户的注册信息(例如在网站注册时提供的姓名、 性别、年龄、爱好、密码保护问题答案、个性化签名等主动提交的信息), 后者包括视频(点播视频和直播电视节目)播放记录(例如节目名、播放 开始、暂停和结束信息)、视频评论信息、网页浏览信息、检索信息等隐 式的由网站后台自动为用户记录的信息。用户的行为信息是用户偏好挖掘 的数据来源,在个性化服务的提供中起着重要作用,本实施例的方法在对 用户行为信息进行收集时分别按显式行为信息和隐式行为信息进行收集。

显式行为信息由用户主动提供,故能够很好地反应用户的真实信息, 对用户偏好挖掘来说是一个很重要的参考。

用户愿意主动提交个人信息一般在设置搜索引擎个人文档时,如用户 注册和更改个性化签名时。考虑到多数搜索引擎为提高用户帐户安全性均 会提供密码保护功能,即向用户提供几个简单但又与其自身相关的问题, 用户为保证在丢失密码时能正常找回,在提供密码保护问题答案时一般愿 意提供真实的个人信息。基于此,实施例设计了相应的密码保护问题供用 户选择。通过分析用户密保问题的答案,能很容易地获取用户的显式偏好。 除了对用户密码保护问题答案显式行为信息的收集,实施例还提供了个性 化签名信息收集接口,当用户添加或更改搜索引擎个性签名时,后台能自 动记录用户最新的个性签名并将这一显式反馈信息发送到个性化推荐服务 器。

本实施例的方法收集的用户的隐式行为信息有:用户对点播视频和直 播电视节目的检索关键词、用户对球员球队联赛信息的检索关键词、用户 观看点播视频记录、用户观看直播视频记录、用户对观看视频的评论信息、 用户网页浏览信息和用户加入专区信息。

(3)挖掘用户偏好

挖掘用户偏好是指对收集的用户行为信息进行分析、提取反馈特征、 设计偏好模型和计算偏好权值的过程。本实施例的方法的个性化推荐服务 器负责用户偏好的挖掘,首先对从电视节目搜索引擎接收到的用户行为信 息进行预处理,过滤掉无效的行为信息,对各类行为信息进行分词并提取 标签,同时根据连接会话对点播视频和电视直播播放记录进行整合,分析 用户对播放电视节目的喜爱程度。从这些经过预处理的各类用户行为信息 中提取出有效的用户偏好标签后,计算偏好标签对应的权值同时使用逻辑 时间衰减函数模拟用户偏好随时间的变化,由此根据提取出的用户偏好标 签和计算得到的偏好权值创建或者更新用户的偏好文件。

包括如下步骤:

(3-1)从用户的显式行为信息和隐式行为信息中提取显式偏好标签和 隐式偏好标签。

进一步包括如下步骤:

(3-1-1)对用户的行为信息进行过滤,去除无效的行为信息,得到有 效的用户的行为信息。

无效的用户行为信息会影响用户偏好的挖掘,必须要进行清除。例如 用户更改个性化签名时,对于以前的个性化签名就应该进行过滤;用户刷 新网页时,产生的重复行为信息同样要进行过滤。

(3-1-2)将相同连接会话内同一个视频的所有播放记录中的播放时间 叠加,得到该视频的累积播放时间,进而将任一视频的播放记录整合为一 条,得到视频播放行为描述标签,为后续计算用户对该视频的喜爱程度提 供依据。

在同一个连接会话中,用户可能会对相同电视节目进行多次操作如播 放、暂停、快进、后退、关闭一段时间后又重新观看等,每个操作均会产 生一条视频播放反馈记录,为了方便对同一个视频的播放记录进行处理, 本方法对相同连接会话内同一个视频的所有播放记录进行了合并。

(3-1-3)对有效的用户的显式行为信息进行分词,提取关键词信息得 到显式偏好标签;对除已生成描述标签的视频播放行为信息之外的有效的 用户的隐式行为信息进行分词,提取关键词信息,将提取的关键词信息与 视频播放行为描述标签一起作为隐式偏好标签。

对于有效的用户的行为信息,在进行偏好挖掘时均是利用其关键词信 息,因此除了已经生成描述标签的视频播放行为信息外,其他类型的行为 信息均需要进行分词,提取关键词信息即标签。记录用户对视频的评论信 息使得通过评论标签丰富方式获取描述视频内容的评论标签;记录新用户 的用户名信息便于统一管理;对用户的已播放视频id进行记录,防止在主 动推荐时向用户推荐已看过的视频内容。

用户的行为信息类型不一,为了能够完整地利用其中每一条用户的行 为信息,同时考虑到每条行为信息均可以表示成标签集,因此本方法在对 不同类型的用户的行为信息进行利用时提取共同的反馈特征即标签来表示 用户的偏好。对于具体的用户偏好模型则使用由<tagLabel,tagWeight>组成 的标签向量进行表示,其中tagLabel表示标签文本,tagWeight表示标签权 重,即用户对该标签的喜爱程度。使用标签向量表示用户的偏好模型,一 方面能直观表现出用户的偏好信息,另一方面与视频资源的标签描述文件 格式保持一致,使得用户偏好模型能够更方便地参与到个性化服务的计算 中去。

(3-2)计算显式偏好标签的权重和隐式偏好标签的权重

其中,显式偏好标签从用户的显式行为信息中提取出来,其权重的计 算方法具体为:设置所有显式偏好标签的权重为1;对任一显式偏好标签, 若其未出现在当前连接会话中,则根据其最近一次出现的连接会话距离当 前连接会话的次数n对其权重进行n次减半操作。

隐式偏好标签从用户的隐式行为信息中提取出来,并不能显式地表示 用户的偏好,因此不能简单地设置其权值为1或根据连接会话对权值进行 减半操作。目前隐式偏好标签权值的计算方法主要有TF和TF-IUF两种。

TF即词频,使用标签出现的次数表示其权值,此种方式不利于区分用 户在不同时刻的偏好,同样对于非活跃用户简单地使用TF也不能反映其对 偏好标签的喜好程度;TF-IUF是词频-反用户,即使用标签出现的次数与包 含该标签的用户数之商作为偏好标签的权值,TF-IUF考虑了偏好标签对于 不同用户的区分度,认为包含于多数用户的偏好标签权值应较低,然而对 于用户来说,其兴趣的高低程度应与其他用户无关,因此TF-IUF也不合理。

本方法使用标准化词频从各类隐式行为信息中计算隐式偏好标签的权 重,具体为:用户的隐式偏好标签的权重用该隐式偏好标签出现的次数与 该用户的所有有效的行为信息的条数之商表示,其中,用户对同一对象的 一次检索行为、浏览行为、评论行为等算一条行为信息。对于整合后的视 频播放记录,计算总播放时长与视频总时长的比例ρ,当比例ρ>=0.8时,该 条播放记录的权重为1,否则为ρ,即在参与上述隐式偏好标签的权值的计 算时另乘以对应的权重。

(3-3)用逻辑回归衰减函数对显式偏好标签的权重和隐式偏好标签的 权重进行衰减。

本方法在挖掘用户偏好时考虑到用户偏好不是一成不变的,时间较久 的用户行为信息的权重应该相对较低,故使用逻辑回归衰减函数对用户行 为信息的权重进行衰减,函数公式为:

f(t)=11+e12T(i)t-6

其中,T(i)为用户ui的偏好的全衰期,t为时间。由于每位用户的偏好不同, 因此全衰期也不同。

用户偏好的全衰期T(i)的确定使用leave-one-out策略,即从用户ui偏好 标签集中删除一个偏好标签tx,然后只根据不包含标签tx的用户ui的行为信 息计算用户ui的其他偏好标签的权重,使用平均绝对误差(MeanAbsolute Error,MAE)计算用户ui的偏好标签tx对其偏好挖掘的影响:

MAEx=Σj=1,jxNi|pj-qj|Ni-1

其中,pj为删除偏好标签tx后用户ui的偏好全衰期为T(i)时偏好标签集中的 偏好标签tj的预测权重,qj为偏好标签tj的真实权重即用户ui的偏好的全衰 期为T(i)时计算的权重,Ni为用户ui的偏好标签的个数。用户ui的MAE为:

MAE(T(i))=ΣMAExNi

为所有用户的偏好的全衰期预设一个范围[Tmin,Tmax],在该范围内计算 用户ui的偏好的全衰期T(i),使得MAE(T(i))的值最小。

(4)为用户提供个性化服务

进一步包括如下步骤:

(4-1)计算用户的偏好标签(包括显式偏好标签和隐式偏好标签)与 视频描述标签的相似度。

在根据用户偏好模型为用户提供个性化视频搜索和主动推荐服务时, 提出基于标签满足关系的相似度计算用户偏好标签与视频描述标签之间的 相似度,该相似度认为视频资源描述标签文件中包含用户的偏好标签越多, 该视频资源与用户的相似度越高。

具体地,用户ui的偏好标签与视频vr的描述标签的相似度:

sim(ui,vr)=Σ(wix*wrx)m*(lm)α

其中,wix表示用户ui的偏好标签tx的权重,wrx表示用户ui的偏好标签tx作 为视频vr的描述标签时的权重,当视频vr的描述标签中不存在偏好标签tx时, wrx=0,Ni为用户ui的偏好标签的个数,l表示视频vr的描述标签中包含 用户ui的偏好标签的个数,α则是相似度调节参数,α越大表示相似度计算 越注重视频资源中包含用户偏好标签的个数,实际计算时可以根据满足条 件重视程度进行调节。满足相似度计算方法避免了主流余弦相似度在视频 资源标签丰富时会降低相似度的值使得原本相似度较低、标签较稀疏的视 频反而能获得较高的排序位置或者推荐度的不足。

(4-2)提供视频搜索结果重排序和视频主动推荐两种个性化服务。

其中,视频搜索结果重排序是指:读取点播视频的检索结果,根据用 户的偏好标签与视频描述标签的相似度对视频检索结果进行重排序后展示 给观众(如图5所示)。通常按相似度由大到小的顺序排序,优先将相似 度大的视频展示给观众。

视频主动推荐是指:读取待推荐视频的描述标签,将描述标签与用户 的偏好标签的相似度最大的预定个数的视频推荐给观众(如图6所示)。 本方法提供的主动推荐包含三种,点播视频推荐、直播电视节目推荐和相 关视频推荐,其中直播电视节目推荐只推荐当前正在播放或者还未播放的 直播电视节目,相关视频推荐根据当前正在播放的视频内容为其推荐相似 的视频,故在按图6计算电视节目推荐度时使用当前正在播放的视频描述 标签代替用户的偏好标签。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号