首页> 中国专利> 一种电视平台上基于语义链接的异构资源推荐方法和装置

一种电视平台上基于语义链接的异构资源推荐方法和装置

摘要

本发明公开了一种电视平台上基于语义链接的资源推荐方法和装置,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。

著录项

  • 公开/公告号CN104408115A

    专利类型发明专利

  • 公开/公告日2015-03-11

    原文格式PDF

  • 申请/专利号CN201410687895.0

  • 发明设计人 郑玄;陈洁;

    申请日2014-11-25

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京德琦知识产权代理有限公司;

  • 代理人谢安昆

  • 地址 210061 江苏省南京市高新区高新研发大厦9~12层

  • 入库时间 2023-12-17 04:27:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-22

    授权

    授权

  • 2015-04-08

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141125

    实质审查的生效

  • 2015-03-11

    公开

    公开

说明书

技术领域

本发明涉及多媒体技术领域,特别是一种电视平台上基于语义链接的异构 资源推荐方法和装置。

背景技术

用户在电视平台上观看电视节目的时候,通常会对当前节目的某些信息感 兴趣,想要进一步观看跟当前节目相关的其它媒体资源。针对用户的这一心理, 目前出现了一些媒体资源间的推荐方法,一般为根据用户观看的当前资源,获 取当前资源的关键词来表征用户特征,使用获得的关键词作为表征用户特征的 向量,将与当前资源相似度高的资源推荐给用户。

然而目前存在的这些媒体资源间的推荐方法存在很多弊端,例如:多为同 类资源间的推荐,异构资源间的推荐应用较少;为数不多的异构资源推荐多为 单向推荐,即某种资源到另一种资源,如与电视节目关联的视频源推荐方法、 与电视节目关联的产品推荐方法等,多种资源间相互推荐的方法较少;资源推 荐方法中起到重要作用的词,部分可识别,部分不能识别需要手工构造,操作 起来较为繁琐;局限于词形信息,缺少语义信息;依赖于人工标注,缺少对用 户反馈的利用,其推荐结果对用户来说并不十分理想。

发明内容

有鉴于此,本发明提出了一种电视平台上基于语义链接的异构资源推荐方 法和装置,能够根据用户当前观看的资源,无需用户额外操作从而自动、智能 推荐异构资源。

本发明提出的技术方案是:

一种电视平台上基于语义链接的异构资源推荐方法,包括:

提取后台媒体资源库所有媒体资源的文本信息;

根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候 选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成 后台媒体资源库的特征词权值矩阵T;

如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采 用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体 资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成 媒体资源推荐列表,所述L为大于0的整数。

一种电视平台上基于语义链接的异构资源推荐装置,包括:

文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;

特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特 征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤 得到特征词,生成后台媒体资源库的特征词权值矩阵T;

媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒 体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所 述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相 似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。

综上,本发明提出的电视平台上基于语义链接的异构资源推荐方法和装置, 依托于海量数据资源,将各类异构资源映射到同一语义空间中,自动构建异构 资源间语义关系,生成文本到视频、视频到文本等异构资源之间的语义链接关 系,从而产生异构资源推荐列表,该方法有效避免了传统推荐中仅仅局限于词 形信息的现象,满足用户对相关性和多样性的要求。

附图说明

图1为本发明方法实施例一的流程图;

图2为本发明方法实施例二的流程图;

图3为本发明实施例中的装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点表达的更加清楚明白,下面结合附 图及具体实施例对本发明再作进一步详细的说明。

用户在电视平台上观看当前媒体资源时,本发明提出的电视平台上基于语 义链接的异构资源推荐方法,可以根据后台媒体资源库中的各类异构资源与用 户观看的当前媒体资源的聚类相似度,为用户提供与当前媒体资源相关度较高 的L个后台媒体资源,便于用户观看与当前媒体资源相关的后台媒体资源。

方法实施例一

图1为本发明实施例的流程图,如图1所示,包括以下步骤:

步骤101:提取后台媒体资源库所有媒体资源的文本信息。

本步骤中,首先对后台媒体资源库的所有媒体资源进行文本信息的提取。 将后台媒体资源库中每个媒体资源用Di表示,其中i为正整数,且1≤i≤N,N为 后台媒体资源库包含的媒体资源的个数。

后台媒体资源库的所有媒体资源可以分为两大类:新闻文本和视频资源。 对于新闻文本,直接提取文本信息;对于视频资源,文本信息位于视频标题和 字幕内容,视频标题相对容易获取,字幕内容的识别方法有两种:一种是播放 流中自带字幕,可以从播放流中提取字幕;另一种是通过对图像进行处理,通 过定位字幕在图像中的位置完成字幕提取,并整合成相应的视频描述文本。

经过对后台媒体资源库中所有媒体资源的文本信息提取,将每个媒体资源 用文本的形式表示出来。

步骤102:提取后台媒体资源库每个媒体资源的候选特征词。

步骤101中获得了后台媒体资源库中每个媒体资源的文本信息,本步骤对 步骤101中获取的文本信息进行进一步处理,得到每个媒体资源的候选特征词, 媒体资源的候选特征词从一定程度上能够有代表性的表示该媒体资源的内容。

首先利用词法分析工具根据词性的不同,将每个媒体资源的文本信息切分 为若干个分词,得到每个媒体资源的分词序列。由于词法分析工具仅是根据词 性的判断对文本信息进行切分,并没有考虑切分后的分词对表征该媒体资源的 重要程度、以及各分词在该媒体资源的文本信息中上下文之间的语义关系,因 此这一切分过程可能会得到一些没有实际意义的分词,例如“在”、“把”等, 还可能将原本是一个整体的词串切分成两个甚至多个分词,例如将“搜狐视频” 切分为“搜”、“狐”、“视频”三个分词,而原本“搜狐视频”应该作为一个整 体词串来表征媒体资源的。

针对词法分析工具的这一弊端,不能直接将上述得到的分词作为每个媒体 资源的候选特征词,需要将上述得到的分词和热词词典进行匹配,用热词词典 对上述得到的分词进行修正,将热词词典中包含关系的多个分词按照最长词串 进行合并,合并后的分词作为该媒体资源的候选特征词。例如,某媒体资源的 分词序列包括“搜”、“狐”、“视频”三个分词,热词词典中包含“搜”、“狐”、 “视频”以及“搜狐视频”四个热词,则将该媒体资源中的“搜”、“狐”、“视 频”三个分词按照热词词典中的最长词串“搜狐视频”进行合并,得到该媒体 资源的一个候选特征词“搜狐视频”。具体实施时可以采用字典树的方法将每个 媒体资源的分词序列与热词词典进行匹配。用热词词典对上述得到的分词进行 修正后,能够使修正后的分词更加符合人们的阅读习惯。

这里的热词词典是一个热词的集合,热词词典里的热词能够有代表性的表 征后台媒体资源库的语义信息,其构建方法为:

(1)根据后台媒体资源库中所有媒体资源的文本信息的语言类型,选用特 定语言类型中的分隔符将后台媒体资源库中所有媒体资源的文本信息拆分成子 句,例如中文中的“。”、“!”、“?”等中文标点符号,或者英文中的“,”、“?”、 “.”等英文标点符号。

(2)计算后台媒体资源库中各个重复词串的词频,重复词串的词频定义为 该重复词串在后台媒体资源库多少个子句中出现,将每个词频大于词频阈值的 重复词串作为候选词串,构建候选词串集合。

(3)对候选词串进行过滤,过滤后保留下的候选词串作为热词,构建热词 词典。

具体过滤方法可以通过下面三个步骤实现:

a.收集停用词表,并利用停用词表对候选词串进行过滤,即将出现在停用 词表中的候选词串从候选词串集合中删除。

b.计算每个候选词串的权值,该权值用词频(TF,Term Frequency)-逆文 档频率(IDF,Inverse Document Frequency)表示,将权值低于权值阈值的候选 词串从候选词串集合中删除,TF-IDF的计算方法为现有技术,在此不再赘述。

c.根据候选词串中噪声数据的类型制定先验知识,如文本信息中常会出现 时间信息、数字与量词等构成的噪声串,将该类噪声串从候选词串集合中删除。

步骤103:进一步提取后台媒体资源库每个媒体资源的特征词。

本步骤通过提取后台媒体资源库每个媒体资源的特征词,将每个媒体资源 用至少一个特征词表示。提取媒体资源特征词的方法为:

计算步骤102中得到的后台媒体资源库每个媒体资源的候选特征词的权 值,仍以候选特征词的TF-IDF值表示权值,将权值小于权值阈值的候选特征 词删除,将权值不小于权值阈值的候选特征词进一步通过停用表进行过滤,最 终保留下来的媒体资源的候选特征词作为该媒体资源的特征词。

将后台媒体资源库所有媒体资源的特征词定义为后台媒体资源库的特征 词,后台媒体资源库的特征词向量表示为C=[c1,…,cj,,…,cM],其中,cj为后台媒 体资源库的第j个特征词,M为后台媒体资源库的特征词数量,后台媒体资源 库的特征词包含了每个媒体资源的特征词,且后台媒体资源库的任意两个特征 词不相同。

设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的 特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权 值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资 源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是 媒体资源Di的特征词时,tji=0。

步骤104:将特征词权值矩阵T进行奇异值分解。

为了挖掘后台媒体资源库各个特征词之间的语义关系,将特征词权值矩阵 T进行奇异值分解,奇异值分解后得到包含语义关系的三个矩阵S、V、UT, 且T=SVUT。其中,UT为特征词权值矩阵T经过奇异值分解降维后的特征词权 值矩阵,奇异值分解能够实现主题抽取,相同主题的词的权重会在一定范围内 较一致,由此奇异值分解可以发现特征词权值矩阵T中特征词与特征词之间隐 含的语义关系。

步骤105:判断用户观看的当前媒体资源是否为后台媒体资源库的媒体资 源,如果不是,执行步骤106,如果是,执行步骤107。

步骤106:计算当前媒体资源的权值向量。

本步骤中,首先获取用户观看的当前媒体资源的文本信息,获取方法与步 骤101中获取后台媒体资源库每个媒体资源文本信息的方法相同,在此不再赘 述。获取当前媒体资源的文本信息后,提取当前媒体资源的候选特征词(提取 方法与步骤102中获取后台媒体资源库的候选特征词的方法相同),之后,将当 前媒体资源的候选特征词与特征词向量C进行匹配,如果当前媒体资源的某个 候选特征词不是特征词向量C的元素,则将当前媒体资源的该候选特征词删除, 保留下来的候选特征词进一步进行权值计算,仍以TF-IDF值表示权值,将权 值小于权值阈值的候选特征词删除,将权值不小于权值阈值的候选特征词进一 步通过停用表进行过滤,最终保留下来的候选特征词作为当前媒体资源的特征 词。

构建当前媒体资源的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为 特征词cj在当前媒体资源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特 征词时,yj=0。

将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的 逆矩阵。

步骤107:采用聚类的方法生成媒体资源推荐列表。

为了使得媒体推荐列表更加准确的捕捉用户的兴趣,本发明采用聚类的方 法生成媒体资源推荐列表,满足用户对多样性和相关性的要求。

本步骤中,将当前媒体资源的特征词定义为特定特征词,将后台媒体资源 库中在所有特定特征词上权值均不为0的媒体资源构成后台媒体资源集合

采用K-means算法对后台媒体资源集合进行聚类,其中K-means算 法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类

遍历中每个后台媒体资源与当前媒体资源的聚类相似度, 中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公 式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相 似度进行计算:

Sim(Dj,D)=Σk(ujk×yk)Σkujk2Σkyk2

其中,如果当前媒体资源D'不是后台媒体资源库中的资源,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k列元素;如果当前媒体 资源D'是后台媒体资源库中的资源,即D'=Dd,其中d≠j且1≤d≤N,则ujk为Dj在UT中对应的第j行第k列元素,yk为D'在UT中对应的第d行第k列元素。

根据聚类相似度对中各个后台媒体资源进行排序,选取前L个后台媒 体资源构成推荐列表返给用户,作为向用户推荐的与当前媒体资源相关性最大 的L个后台媒体资源,L为大于0的整数。

步骤108:更新后台媒体资源库。

本步骤中,如果用户观看的当前媒体资源是后台媒体资源库中的媒体资源, 则后台媒体资源库不需更新,后台媒体资源库的特征词权值矩阵T不变;如果 用户观看的当前媒体资源不是后台媒体资源库中的媒体资源,则将该当前媒体 资源D'作为DN+1加入后台媒体资源库中,更新后的后台媒体资源库包含N+1个 媒体资源,且相应更新后台媒体资源库的特征词权值矩阵T,将T更新为 M×(N+1)维矩阵,即将原特征词权值矩阵T增加一列,增加的该列元素为步骤 105中的Y。后续为该用户再次生成其他当前媒体资源的媒体资源推荐列表时, 后台媒体资源库即包含有N+1个媒体资源,不需再次执行步骤101~步骤103, 直接执行步骤104。

通过上述方法完成了对用户在电视平台上观看的当前媒体资源进行的异构 资源推荐,通过上述方案得到的推荐列表满足了用户对信息多样化的要求。

方法实施例二

更进一步的,为了使向用户推荐的异构资源与当前媒体资源的语义相关性 更高,本申请还结合不同用户对媒体资源推荐列表中媒体资源的点击量、点击 顺序等隐式用户反馈信息对媒体资源推荐列表中被点击的媒体资源特征词权值 进一步调整,进而使得后续再次为用户计算媒体资源推荐列表时,更能接近用 户的兴趣。图2为本实施例的流程图,本实施例以调整媒体资源推荐列表中的 媒体资源Rl的特征词权值为例进行说明,其中l为正整数,且1≤l≤L,如图2 所示,用户每点击一个媒体资源推荐列表中的媒体资源都执行以下步骤:

步骤201:计算单个用户对媒体资源的评分。

用户对给出的媒体资源推荐列表会根据自己的兴趣选择其中的一个或几个 进行点击观看,当用户点击某个推荐列表中的媒体资源时,会对该被点击的媒 体资源产生一个点击顺序。将用户对媒体资源Rl的点击顺序记为rank(Rl),由于 Rl为含有L个媒体资源的推荐列表中的一个媒体资源,因此其点击顺序必然满 足1≤rank(Rl)≤L。根据该点击顺序应用公式计算单个用户对Rl评分,其中,Score_max为常数,用于限定单个用户对媒体资 源评分的最大值。

步骤202:计算媒体资源当前总评分。

媒体资源Rl当前的总评分定义为当前所有用户对媒体资源Rl的评分之和。 假设当前共有P个用户点击媒体资源Rl,每个用户都会对媒体资源Rl产生一个 评分,则则为媒体资源Rl当前的总评分。

步骤203:判断媒体资源当前总评分是否大于评分阈值,如果否,执行步 骤204,如果是,执行步骤205。

本步骤中,P为当前点击媒体资源的Rl用户数量,如果媒体资源Rl当前的 总评分不大于评分阈值则说明点击媒体资源Rl的用户数量较少, 和/或用户点击媒体资源Rl的顺序较靠后,反映出的信息即为媒体资源Rl对广泛 用户来说吸引力不高,则只对该Rl的特征词权值进行微调;如果媒体资源Rl当 前的总评分大于评分阈值则说明点击媒体资源Rl的用户数量较 多,和/或用户点击媒体资源Rl的顺序较靠前,反映出的信息即为媒体资源Rl对 广泛用户来说吸引力较高,则对该Rl的特征词权值进行较大程度的调整。

步骤204:对媒体资源的每个特征词权值进行微调。

本步骤中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T 中媒体资源Rl对应的元素;其中α为权值调整参数,是一个经验常数,且 根据该公式计算媒体资源Rl的每个特征词权值后, 更新后台媒体资源数据库的特征词权值矩阵T。

步骤205:将媒体资源的所有特征词加入高频特征词集合中,并对媒体资 源的每个特征词权值进行调整。

本步骤中,由于媒体资源Rl当前的总评分大于评分阈值说 明媒体资源Rl对用户的吸引力普遍较高,则将媒体资源Rl的所有特征词添加到 高频特征词集合中,且中的特征词存在互异性,即不包含重复的特 征词。然后根据公式f(tj)=tj×(1+Score(Rl)/(β+1))对媒体资源Rl的每个特征词权 值进行调整,其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩 阵T中媒体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权 值;β为权值调整参数,是一个经验常数,且X为中包含的特征词数量。根据该公式计算媒体资源Rl的每个特征词权值后,更新 后台媒体资源数据库的特征词权值矩阵T。

上述为根据用户的点击量和点击顺序针对不同用户对特征词权值矩阵T进 行调整的过程,该方法能够根据用户的点击反馈信息对后台媒体资源的特征词 权值进行调整,能够为用户提供更合理的热点媒体资源排序,使得推荐性能更 优。

本发明还公开一种电视平台上基于语义链接的资源推荐方法的装置,图3 为该装置的结构图,如图3所示,该装置包括:

文本信息提取模块310,用于提取后台媒体资源库所有媒体资源的文本信 息;

特征词提取模块320,根据每个媒体资源的文本信息提取该媒体资源的候 选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行 过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;

媒体资源推荐列表生成模块330,如果用户观看的当前媒体资源是所述后 台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计 算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚 类相似度最高的L个媒体资源生成媒体资源推荐列表。

特征词提取模块320进一步包括:

分词序列子模块321,用于针对所述后台媒体资源库的每个媒体资源,利 用词法分析工具根据词性的不同,将所述每个媒体资源的文本信息切分为分词 序列;

候选特征词提取子模块322,用于将每个媒体资源的分词序列和热词词典 进行匹配,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后 的分词作为该媒体资源的候选特征词;

特征词权值矩阵生成子模块323,用于计算所述候选特征词的权值,所述 权值为所述候选特征词的词频-逆文档频率值,将权值不小于权值阈值的候选特 征词通过停用表进行过滤,过滤通过的候选特征词为该媒体资源的特征词;

利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征 词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量, 后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且 任意两个后台媒体资源库的特征词不相同;

设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的 特征词cj,列数N表示后台媒体资源库的媒体资源Di,特征词权值矩阵T的元 素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资源Di的特征词 时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是媒体资源Di的 特征词时,tji=0。

特征词权值矩阵生成子模块323进一步用于:

将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的 三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值 分解降维后的特征词权值矩阵。

如果用户观看的当前媒体资源不是所述后台媒体资源库中的媒体资源,该 装置还包括当前媒体资源特征词权值计算模块340,用于获取用户观看的当前 媒体资源的文本信息,根据所述当前媒体的文本信息提取所述当前媒体资源的 特征词,计算每一特征词的权值,构建当前媒体资源的权值向量Y,Y为M×1 矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资源中的权值,当特征词cj是 当前媒体资源的特征词时,yj为特征词cj在当前媒体资源中的TF-IDF值;当特 征词cj不是当前媒体资源的特征词时,yj=0。

当前媒体资源特征词权值计算模块340还用于:

将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的 逆矩阵。

媒体资源推荐列表生成模块330进一步包括:

后台媒体资源集合生成子模块331,用于将当前媒体资源的特征词定义为 特定特征词,将后台媒体资源库中在所有特定特征词上权值均不为0的媒体资 源构成后台媒体资源集合

相似度计算子模块332,用于采用K-means算法对后台媒体资源集合进行聚类,其中K-means算法中的K取特定特征词的个数,将后台媒体资源集 合划分为K个类

遍历中每个后台媒体资源与当前媒体资源的聚类相似度, 中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公 式进行计算:

其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相 似度进行计算:

Sim(Dj,D)=Σk(ujk×yk)Σkujk2Σkyk2;

其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k 列元素。

该装置进一步包括权值学习模块340,用于针对用户点击媒体资源推荐列 表中的媒体资源的点击顺序和点击量,对后台媒体资源库的特征词权值矩阵T 进行权值调整,所述权值学习模块340还包括:

媒体资源评分计算模块341,用于根据计算单个用户对媒体资源Rl的评分,其中Rl为媒体资源推荐列表中被用户当前 点击观看的媒体资源,rank(Rl)为用户对媒体资源Rl的点击顺序,且 1≤rank(Rl)≤L,Score_max为限定单个用户对媒体资源评分的最大值得常数;

媒体资源总评分计算模块342,用于根据计算媒体资源Rl当前的 总评分,其中P为当前点击媒体资源Rl的用户数量;

权值调整模块343,用于如果媒体资源Rl当前的总评分不大于评分阈值 根据公式f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征 词权值进行调整;

如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1)) 对媒体资源Rl的每个特征词权值进行调整;

其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒 体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为 权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本 发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号