法律状态公告日
法律状态信息
法律状态
2012-03-21
授权
授权
2010-05-26
实质审查的生效 IPC(主分类):G06F17/30 申请日:20091020
实质审查的生效
2010-04-14
公开
公开
技术领域
本发明涉及一种新闻的网络推送方法,特别是一种基于多主题追踪的个性化新闻网络推送方法。
背景技术
随着信息传播技术的迅猛发展,尤其是因特网的不断发展和日益普及,人类社会所面对的信息量正在以惊人的速度增长,人们对于能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。于是,各种各样的新闻推荐系统层出不穷。
新闻推荐系统是近年来互联网上发展起来的一种新兴软件系统,它能够将最新的新闻资讯以主动展现的方式推送给用户。而且,系统给出的推荐是实时更新的,即随着时间推移,给出的推荐新闻会自动改变成当前最新的信息。此类的新闻推荐系统在即时通讯软件、网络博客和论坛中有广泛的应用。
然而,对于某一个用户而言,他感兴趣的新闻报道只占少数。当用户在为频繁收到无用新闻信息而苦恼,而又不希望错过自己感兴趣的话题时,如何在庞大的新闻信息量中找到感兴趣的新闻,便成为用户迫切需要解决的问题。因此,用户对于新闻推荐系统推荐的准确度有了越来越高的要求。这也是用户个性化的新闻推荐系统产生的一个原因。
目前,针对用户个性化的新闻推荐系统层出不穷,但因为用户所感兴趣的新闻报道不可能是单一的类别或主题,而往往是分布广泛、涉及多个主题。因此,若将表示用户特性的信息都包含在同一个用户模型中的方法,则导致用户模型过于概化,无法很好地体现用户的特征,系统的推荐效果差。而若采用多个用户模型,又无法很好的解决模型集合的维护管理问题,降低采用多个用户模型的推荐效果。
发明内容
为克服现有技术采用一个用户模型导致无法体现用户特征,采用多个用户模型又导致数据维护管理困难的缺点,本发明提供了一种能涵盖用户的多种兴趣特征,消除采用多个用户模型带来的数据维护困难,推荐效果好的基于多主题追踪的个性化新闻网络推送方法。
基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的的第i个关键词的权重信息;若第i个关键词在多篇新闻报道中出现过,则为第i个关键词在各篇新闻报道中的权重信息之和;
所述的新闻报道为由该新闻报道的关键词信息组成的向量对应的关键词与其所属的子兴趣模型中的关键词一致;若新闻报道中具有第i个关键词,则为此关键词的权重信息;若新闻报道中不具有第i个关键词,则为0;
所有的子兴趣模型构成用户的多主题兴趣模型;
2、根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;
3、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:
3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数,precision(p),精确度参数值越大,则精确性越高,其中really(p)为用户实际浏览的由子兴趣模型推荐的新闻的数量,total(p)为子兴趣模型总共推荐的新闻的数量;
3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;
3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(p)·e-α·t,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型。
4、计算待推送的新闻与所有子兴趣模型之间的相似度W,找出最高相似度Wmax;所述的相似度W用新闻报道与子兴趣模型之间的夹角来表征,所述的夹角越小,相似度越高;
5、计算新闻报道的排序值score(d),所述的排序值score(d)=Wmax·precision(p)·e-αt,将排序值从大到小进行排序,将排序后的新闻列表推送给用户。
进一步,所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值,所述的TF为第i个关键词在新闻报道中的词频,其计算公式为:其中dj(i)为在新闻报道中,关键词i的个数,total(words)为新闻报道中的单词个数;
所述的IDF为第i个关键词的逆向文件频率,其计算公式为:其中total(documents)为子兴趣模型中的新闻报道总数,documents(i)为含有关键词i的新闻报道的数目;
则第i个关键词在新闻报道中的TF-IDF值为:ai,j=TFi,j·IDFi。
进一步,所述的步骤(2)中,若用户阅读了由子兴趣模型推荐的新闻报道,则认为推动有效;若用户未阅读由子兴趣模型推荐的新闻报道,则认为推送无效;所述的动态更新包括以下步骤:
(2.1)判断用户是否阅读由子兴趣模型推荐的新闻报道;
(2.2)若用户阅读了由子兴趣模型推荐的新闻报道,则推送有效,子兴趣模型的更新方程为:
(2.3)若用户未阅读由子兴趣模型推荐的新闻报道,则推送无效,子兴趣模型的更新方程为:其中,γ为根据经验设定、代表对的影响度的一个数值。
进一步,所述的步骤(4)中,相似度的计算方法为:
其中aij为第i个关键词在第j篇新闻报道中的TF-IDF值,dik为第i个关键词在第k个子兴趣模型中的TF-IDF值。
本发明的技术构思是:采用多个子兴趣模型构成用户多主题兴趣模型,能够涵盖用户的多种兴趣特征。根据持续的用户反馈,不断的更新用户子兴趣模型,保留用户最感兴趣的几个子兴趣模型,将偏离用户兴趣子兴趣模型删除,在不影响用户的个性化需求的同时,减轻了系统后续维护的负担消除了多个子兴趣模型的维护问题对推荐效果造成的负面影响,提高个性化推荐的准确率。
本发明采用表示关键词权重的TF-IDF值来表示新闻报道矢量,从而实现利用数学方法对新闻报道之间的相互关系进行量化计算。采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度,可以消除相似向量在幅度变化上的影响,更加精确。
本发明具有能够涵盖用户的多种兴趣特征,推荐准确率高,系统后续维护负担较轻的优点。
附图说明
图1为本发明的流程图
图2为寻找最偏离用户兴趣的子兴趣模型的流程图
具体实施方式
参照附图,进一步说明本发明:
基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的的第i个关键词的权重信息;若第i个关键词在多篇新闻报道中出现过,则为第i个关键词在各篇新闻报道中的权重信息之和;
所述的新闻报道为由该新闻报道的关键词信息组成的向量对应的关键词与其所属的子兴趣模型中的关键词一致;若新闻报道中具有第i个关键词,则为此关键词的权重信息;若新闻报道中不具有第i个关键词,则为0;
所有的子兴趣模型构成用户的多主题兴趣模型;
2、根据用户是否阅读由子兴趣模型推荐的新闻报道对用户的多主题兴趣模型进行动态更新;
3、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:
3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(p),精确度参数值越大,则精确性越高,其中really(p)为用户实际浏览的由子兴趣模型推荐的新闻的数量,total(p)为子兴趣模型总共推荐的新闻的数量;
3.2)根据经验设定一个表示用户对新闻的兴趣随时问衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;
3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(p)·e-α·t,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型。
4、计算待推送的新闻与所有子兴趣模型之间的相似度W,找出最高相似度Wmax;所述的相似度W用新闻报道与子兴趣模型之间的夹角来表征,所述的夹角越小,相似度越高;
相似度的计算方法为:
其中aij为第i个关键词在第j篇新闻报道中的TF-IDF值,dik为第i个关键词在第k个子兴趣模型中的TF-IDF值。
5、计算新闻报道的排序值score(d),所述的排序值score(d)=Wmax·precision(p)·e-αt,将排序值从大到小进行排序,将排序后的新闻列表推送给用户。
所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值,所述的TF为第i个关键词在新闻报道中的词频,其计算公式为:其中dj(i)为在新闻报道中,关键词i的个数,total(words)为新闻报道中的单词个数;
所述的IDF为第i个关键词的逆向文件频率,其计算公式为:其中total(documents)为子兴趣模型中的新闻报道总数,documents(i)为含有关键词i的新闻报道的数目;
则第i个关键词在新闻报道中的TF-IDF值为:ai,j=TFi,j·IDFi。
所述的步骤(2)中,若用户阅读了由子兴趣模型推荐的新闻报道,则认为推动有效;若用户未阅读由子兴趣模型推荐的新闻报道,则认为推送无效;所述的动态更新包括以下步骤:
(2.1)判断用户是否阅读由子兴趣模型推荐的新闻报道;
(2.2)若用户阅读了由子兴趣模型推荐的新闻报道,则推送有效,子兴趣模型的更新方程为:
(2.3)若用户未阅读由子兴趣模型推荐的新闻报道,则推送无效,子兴趣模型的更新方程为:其中,γ为根据经验设定、代表对的影响度的一个数值。
本发明的技术构思是:采用由多个子兴趣模型构成的用户多主题兴趣模型来表示用户兴趣,能够涵盖用户的多种兴趣特征。设定子兴趣模型的个数阈值,只保留用户最感兴趣的几个兴趣模型,在不影响用户的个性化需求的同时,减轻了系统后续维护的负担。
根据持续的用户反馈,不断的更新用户子兴趣模型,引入子兴趣模型对用户兴趣表征的精确度和对新闻随时间衰退的衰减函数,消除了多个子兴趣模型的维护问题对推荐效果造成的负面影响,提高个性化推荐的准确率。
采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度,可以消除相似向量在幅度变化上的影响,更加精确。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
机译: 基于跟踪的个性化健康信息的个性化健康追踪器和目的地选择方法
机译: 基于触摸屏的透明控制区域和手势信息的多主题装置及使用该主题的多主题方法
机译: 基于车辆位置的个性化信息推送方法及系统