首页> 中国专利> 采用元推荐引擎的门户个性化推荐服务方法和系统

采用元推荐引擎的门户个性化推荐服务方法和系统

摘要

本发明公开了一种采用元推荐引擎的门户个性化推荐服务方法和系统,提出了门户用户兴趣模型的构建,包括门户用户兴趣模型的初始创建和后续更新;提出采用元推荐引擎的独立于门户平台的个性化推荐服务体系架构,元推荐引擎能够分析用户及用户群的关联及个性化兴趣变化,将信息资源和推荐算法统一组织并合理选择控制,优化推送产生更全面多样的个性化推荐结果;在资源展现方面,实现门户个性化推荐服务的系统能够将预测推荐的多种Web资源内容对象封装为门户组件,向门户用户进行生动直观的个性化显示,提供一种更高层的个性化控制。综合利用门户平台已有的个性化资源和技术手段,提供独立灵活的服务中间件或服务代理,以完成个性化推荐服务。

著录项

  • 公开/公告号CN1967533A

    专利类型发明专利

  • 公开/公告日2007-05-23

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN200610098867.0

  • 发明设计人 熊璋;吴晶;刘永利;李超;

    申请日2006-07-17

  • 分类号G06F17/30(20060101);G06Q30/00(20060101);H04L29/06(20060101);

  • 代理机构11291 北京同达信恒知识产权代理有限公司;

  • 代理人黄志华

  • 地址 100083 北京市海淀区学院路37号

  • 入库时间 2023-12-17 18:33:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-09-19

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20080820 终止日期:20110717 申请日:20060717

    专利权的终止

  • 2008-08-20

    授权

    授权

  • 2007-07-18

    实质审查的生效

    实质审查的生效

  • 2007-05-23

    公开

    公开

说明书

技术领域

本发明涉及门户(Portal)技术,特别是指一种采用元推荐引擎的门户个性化推荐服务方法和系统。

背景技术

个性化推荐服务能够主动地为互联网(Internet)用户提供多样化、智能化的个性化服务,以最快捷的方式展现出来,协助用户高效全面地获取有用的环球网(Web)资源信息。目前,能够实现个性化推荐服务的系统已经成为网络信息系统的重要组成部分,尤其是在电子商务、数字图书馆、远程教育等大型门户应用领域中的作用更为突出。随着Web 2.0时代的到来,资源整合及基于门户平台的个性化服务手段正愈发丰富。目前,有方法采用中央数据库存储所有基于规则的推荐算法,为用户动态灵活选择进行推荐,但这种方案在兴趣挖掘和应用扩展方面的分析根本没有或较为简单,主要应用于电子商务等简单Web推荐系统中,不能提供门户应用的支持。由于门户平台所支持的服务和架构各异、适应需求不灵活等问题,门户个性化推荐服务领域存在着很多问题。

首先,当前门户所提供的个性化推荐服务机制对平台自身的依赖性都很大,需加载定制或二次开发相同系列的服务构件才能完成,与平台的耦合非常紧密;同时,利用门户技术进行个性化兴趣挖掘和推荐服务的综合应用方案还根本没有,无法提供较完备灵活的、面向门户的个性化推荐服务体系架构,还需要对系统架构集成、相关算法策略和接口设计方面进行更深入的研究。

其次,近年来的个性化推荐服务的技术方案多关注于将各种成熟推荐算法综合利用的组合推荐方式,但如何根据复杂情况,向用户提供灵活、全面且高质量的推荐结果,一直是讨论热点问题。虽然已有一些组合推荐系统在元推荐模式方面进行了尝试性研究,但未能综合考虑用户兴趣模型的作用及在门户个性化实现中的应用特点。用户兴趣模型主要用于个性化服务应用中对用户兴趣的描述,也作为推荐服务的计算对象,前期在Web系统中研究较多,也包括结合Web的使用挖掘,目前门户平台中的用户兴趣模型创建方法较少有涉及。元推荐是指综合多种预测分析算法,进行更全面准确的推荐计算。目前已有的采用中央数据库存储所有推荐算法,为用户动态灵活选择进行推荐的方法中,其元推荐系统架构模式一般强调数据层集成各种推荐系统的异构性处理,即将分散独立的推荐系统整合在一起,相对都是不透明的,因此仍倾向于系统整合,未考虑推荐算法组合选择策略细节,不适用于易于部署、不受平台和资源牵制的轻量级通用需求。

再次,为满足更多应用场景,重点不应仅仅在于如何提升推荐算法的性能或伸缩性,而是应该通过创新模式和途径辅助用户进行高效便利的门户个性化应用。例如,将推荐控制模式从传统的向用户推荐什么扩展为如何向用户及该用户的相似兴趣用户群推荐不重复的、有意义的内容,并能够生动、直观、快捷地展现出来。

综上所述,基于门户平台,将个性化兴趣挖掘和推荐服务相结合,向用户提供灵活、全面且高质量的推荐结果,成为亟待解决的问题。

发明内容

有鉴于此,本发明一个目的在于提供一种采用元推荐引擎的门户个性化推荐服务系统,本发明的另一个目的在于提供一种采用元推荐引擎的门户个性化推荐服务方法,将个性化兴趣挖掘和推荐服务相结合,向用户提供灵活、全面且高质量的推荐结果。

为了达到上述目的,本发明提供的采用元推荐引擎的门户个性化推荐服务系统包括:数据管理单元、数据存储单元、兴趣挖掘单元、兴趣模型构建单元、训练分类单元、相似性计算单元、元推荐引擎和WWW资源索引存储单元,

数据管理单元,用于辅助管理训练分类单元、或相似性计算单元与数据存储单元的数据通信和调用;

数据存储单元,用于存储门户用户和/或门户用户群的兴趣模型库,该兴趣模型库包括门户用户和/或门户用户群的兴趣度模型库和访问事务集,数据存储单元中进一步存储有推荐算法集;

兴趣挖掘单元,位于门户平台中,用于获取门户用户的个性化描述文件,隐式跟踪并捕获登录门户用户的兴趣内容和访问行为模式,并将获取到的信息提供给兴趣模型构建单元;

兴趣模型构建单元,用于对获取的兴趣数据进行规范化处理,根据处理后的信息构建门户用户的兴趣模型,并将构建的门户用户兴趣模型提供给训练分类单元和相似性计算单元;

训练分类单元,用于通过数据管理单元调用数据存储单元中存储的兴趣模型,将来自兴趣模型构建单元的兴趣模型与来自数据存储单元的兴趣模型进行近邻聚类的反馈学习,然后将反馈学习结果通过数据管理单元更新数据存储单元中存储的门户用户兴趣模型并提供给相似性计算单元;

相似性计算单元,用于通过数据管理单元调用数据存储单元中存储的兴趣模型,根据来自兴趣模型构建单元的兴趣模型、来自训练分类单元的反馈学习更新结果及其他来自数据存储单元的兴趣模型进行更精确的相似性计算,然后将相似性计算结果提供给元推荐引擎;

元推荐引擎,用于通过数据管理单元调用数据存储单元中存储的兴趣模型,根据来自数据存储单元的兴趣模型和来自相似性计算单元的相似性计算结果,确定推荐控制策略及推荐算法的选择和组合,然后根据来自相似性计算单元的相似性计算结果进行预测过滤分析,并根据预测分析结果和推荐控制策略及推荐算法,执行计算确定推荐结果,根据确定的推荐结果调用万维网WWW资源索引存储单元中存储的WWW资源索引,将WWW资源封装为含Web页面内容的门户组件,并推送给门户用户;

WWW资源索引存储单元,用于存储WWW资源索引。

所述元推荐引擎包括:推荐选择器、预测分析单元和推荐资源展现单元,

推荐选择器,用于通过数据管理单元调用数据存储单元中存储的兴趣模型,根据来自数据存储单元的兴趣模型和来自相似性计算单元的相似性计算结果,确定推荐控制策略及推荐算法的选择和组合,然后提供给预测分析单元,并向预测分析单元提供来自相似性计算单元的相似性计算结果;

预测分析单元,用于根据来自相似性计算单元的相似性计算结果进行预测过滤分析,并根据预测分析结果和来自推荐选择器的推荐控制策略及推荐算法,执行计算确定推荐结果,确定的推荐结果通过调用WWW资源索引存储单元中存储的WWW资源索引提供给推荐资源展现单元;

推荐资源展现单元,用于将来自预测分析单元的WWW资源封装为含Web页面内容的门户组件,并推送给门户用户。

所述推荐资源展现单元,包括:门户组件Portlet配置管理单元、Portlet会话管理单元、请求命令分析单元、Web页面获取单元、响应标记处理单元和WSRP接口封装单元,

Portlet配置管理单元,用于维护当前环球网Web应用封装为符合远程门户组件Web服务Portlet的封装机制WA2WP提供的所有Portlet的元数据;

Portlet会话管理单元,用于实现对会话对象的整个生命周期进行管理;

请求命令分析单元,用于接收推荐结果所包含的资源链接的封装展现请求以及访问资源用户请求,分析请求参数和会话数据确定所要访问的目标资源,定位目标统一资源定位符URL,获取和准备访问目标资源所需的请求参数和会话数据;

Web页面获取单元,用于根据来自请求命令分析单元的目标URL、请求参数和会话数据,访问Web应用,获得返回的页面标记内容及Cookie数据,并提供给响应标记处理单元;

响应标记处理单元,用于对Web页面获取单元返回的超文本标记信息进行封装前的预处理,得到Web资源页面片断,然后提供给WSRP接口封装单元;

WSRP接口封装单元,用于将Web资源页面片断封装为门户组件显示在门户个性化桌面上。

训练分类单元进一步用于:对已建立兴趣模型的用户或用户群标识进行存储,如果没有存储用户或用户群标识,则通过数据管理单元将训练分类后的兴趣模型提供给数据存储单元进行存储。

实现门户个性化推荐服务的系统进一步包括:隐私保护单元;兴趣挖掘单元,用于将获取到的信息提供给隐私保护单元;隐私保护单元,用于对来自兴趣挖掘单元的信息嵌入安全标记,以进行私有化过滤保护,然后提供给兴趣模型构建单元。

本发明提供的采用元推荐引擎的门户个性化推荐服务方法包括:

A、对门户用户的兴趣进行挖掘,获取门户用户的个性化描述文件,隐式跟踪并捕获登录门户用户的兴趣内容和访问行为模式;

B、进行规范化处理,抽取与门户用户兴趣相关的信息,并判断是否创建新的门户用户的兴趣模型,如果是,则创建新的门户用户兴趣模型,否则,对已有门户用户兴趣模型进行更新;

C、将构建的门户用户兴趣模型与存储的门户用户兴趣模型进行训练分类;

D、根据构建的门户用户兴趣模型、存储的门户用户兴趣模型以及反馈学习结果,进行更精确的相似性计算;

E、根据存储的兴趣模型和相似性计算结果,确定推荐控制策略及推荐算法的选择和组合,根据相似性计算结果进行预测过滤分析,然后根据预测分析结果和确定的推荐控制策略及推荐算法,执行计算确定推荐结果,并根据确定的推荐结果调用存储的WWW资源索引;

F、将调用的WWW资源索引封装为含Web页面内容的门户组件,并推送给门户用户。

所述步骤A与步骤B之间,进一步包括:对获取到的信息嵌入安全标记。

所述步骤C为:根据构建的门户用户兴趣模型进行特征训练,提取兴趣内容、行为特征初步划分兴趣模型的类别以及兴趣资源内容的类别,并不断对门户用户兴趣模型进行更新。

所述步骤D为:在已有分类的基础上进行用户兴趣模型间的相似匹配和比较,产生目标门户用户的近邻集。

步骤E中所述预测过滤分析,为:在选定目标门户用户近邻集的基础之上,对该目标门户用户未浏览或未知兴趣的资源进行预测。

本发明中,提出了门户用户兴趣模型的构建,包括初始创建门户用户兴趣模型和后续对门户用户兴趣模型的更新;提出采用元推荐引擎的独立于门户平台的个性化推荐服务体系架构,元推荐引擎能够分析用户及用户群的关联及个性化兴趣变化,将信息资源和推荐算法统一组织并合理选择控制,优化推送产生更全面多样的个性化推荐结果;在资源展现方面,实现门户个性化推荐服务的系统能够将预测推荐的多种Web资源内容对象封装为门户组件,向门户用户进行生动直观的个性化显示,提供一种更高层的个性化控制。综合利用门户平台已有的个性化资源和技术手段,提供独立灵活的服务中间件或服务代理,以完成个性化推荐服务。

附图说明

图1示出了本发明中实现门户个性化推荐服务的系统结构示意图;

图2示出了本发明中实现门户个性化推荐服务的流程图;

图3示出了本发明中门户用户兴趣模型构建过程示意图;

图4示出了本发明中数据集的数据结构示意图;

图5示出了本发明中元推荐控制策略示意图;

图6示出了本发明中推荐资源展现机制示意图;

图7示出了本发明中推荐资源展现实现流程图。

具体实施方式

本发明中,提出了门户用户兴趣模型的构建,包括初始创建门户用户兴趣模型和后续对门户用户兴趣模型的更新;提出采用元推荐引擎的独立于门户平台的个性化推荐服务体系架构,元推荐引擎能够分析用户及用户群的关联及个性化兴趣变化,将信息资源和推荐算法统一组织并合理选择控制,优化推送产生更全面多样的个性化推荐结果;在资源展现方面,实现门户个性化推荐服务的系统能够将预测推荐的多种Web资源内容对象封装为门户组件,向门户用户进行生动直观的个性化显示,提供一种更高层的个性化控制。

通过离线处理过程为在线处理过程提供前期数据维护保障,降低在线计算的复杂度,可由训练分类单元、数据管理单元和数据存储单元三部分构成。基于门户用户兴趣内容模型和历史访问事务的信息进行近邻聚类和训练学习,将数据按照与各种兴趣相关的信息进行分类,存储于数据集的兴趣度模型库和访问事务集中,在进行训练分类和相似性计算时,对这些数据进行调用。数据集选用轻量级数据组织方式,复杂的非结构化数据可采用配置连接方式进行数据通信,便于服务的灵活部署和应用。此外,门户个性化推荐服务所需的推荐算法集也集中存放于数据集中。轻量级数据组织方式是指仅保留存储读取功能的小型数据库,尽量不采用资源占用率较大的专门大型数据库。

在线处理过程包括对门户用户的兴趣挖掘、兴趣构型的创建及更新、以及元推荐引擎推送推荐内容的三个步骤。

首先,对门户用户的兴趣进行挖掘,获取门户用户的个性化描述文件,隐式跟踪并捕获登录门户用户的兴趣内容和访问行为模式。由于是隐式获取门户用户的兴趣信息,应该在获取后到规范化处理的过程中,保证用户隐私的安全性,可通过对获取到的信息嵌入安全标记来进行私有化过滤保护。

其次,对门户用户的个性化描述文件和访问事务集进行规范化处理,构建门户用户及其所属用户群的兴趣模型,对门户用户每次的兴趣衰减变化进行动态调整更新,并不断用于进行训练分类的反馈学习,并且基于数据集中的兴趣模型库进行更精确的用户或用户群的聚类以及兴趣的相似性计算。

继而,获取门户用户的兴趣模型和相似性分类后,通过门户用户及门户用户群的推荐控制策略动态进行推荐算法的选择和组合,然后进行相应的预测过滤计算,推荐结果的具体内容来源于通过万维网(World Wide Web,WWW)资源检索得到的分类索引库,并最终转化封装为含Web页面内容的门户组件推送给门户用户。

图1示出了本发明中实现门户个性化推荐服务的系统结构示意图,如图1所示,实现门户个性化推荐服务的系统包括兴趣挖掘单元101、兴趣模型构建单元103、训练分类单元104、数据管理单元105、相似性计算单元106、推荐选择器107、数据存储单元108、预测分析单元109、WWW资源索引存储单元110和推荐资源展现单元111。

数据管理单元105用于辅助管理训练分类单元104、或相似性计算单元106与数据存储单元108的数据通信和调用。

数据存储单元108用于存储门户用户和/或门户用户群的兴趣模型库,该兴趣模型库包括门户用户和/或门户用户群的兴趣度模型库和访问事务集,数据存储单元108中进一步存储有推荐算法集。

兴趣挖掘单元101位于门户平台中,用于获取门户用户的个性化描述文件,隐式跟踪并捕获登录门户用户的兴趣内容和访问行为模式,并将获取到的信息提供给兴趣模型构建单元103。

兴趣模型构建单元103用于对获取的兴趣数据进行规范化处理,根据处理后的信息构建门户用户的兴趣模型,并将构建的门户用户兴趣模型提供给训练分类单元104和相似性计算单元106。

如果门户用户的兴趣模型还不存在,则训练分类单元104首先用于通过数据管理单元105将训练分类后的兴趣模型提供给数据存储单元108进行存储;无论门户用户的兴趣模型是否已经存在,训练分类单元104均用于通过数据管理单元105调用数据存储单元108中存储的兴趣模型,将来自兴趣模型构建单元103的兴趣模型与来自数据存储单元108的兴趣模型进行近邻聚类的反馈学习,然后将反馈学习结果通过数据管理单元105更新数据存储单元108中存储的门户用户兴趣模型并提供给相似性计算单元106。训练分类单元104可对已建立兴趣模型的用户或用户群标识进行存储,这样,训练分类单元104可通过存储的标识确定来自兴趣模型构建单元103的兴趣模型是否已经存在。

相似性计算单元106用于通过数据管理单元105调用数据存储单元108中存储的兴趣模型,根据来自兴趣模型构建单元103的兴趣模型、来自训练分类单元104的反馈学习更新结果及其他来自数据存储单元108的兴趣模型进行更精确的相似性计算,然后将相似性计算结果提供给推荐选择器107。

推荐选择器107用于通过数据管理单元105调用数据存储单元108中存储的兴趣模型,根据来自数据存储单元108的兴趣模型和来自相似性计算单元106的相似性计算结果,确定推荐控制策略及推荐算法的选择和组合,然后提供给预测分析单元109,并向预测分析单元109提供来自相似性计算单元106的相似性计算结果。

预测分析单元109用于根据来自相似性计算单元106的相似性计算结果进行预测过滤分析,并根据预测分析结果和来自推荐选择器107的推荐控制策略及推荐算法,执行计算确定推荐结果,确定的推荐结果通过调用WWW资源索引存储单元110中存储的WWW资源索引提供给推荐资源展现单元111。

WWW资源索引存储单元110用于存储WWW资源索引。

推荐资源展现单元111用于将来自预测分析单元109的WWW资源封装为含Web页面内容的门户组件,并推送给门户用户。

以上所述推荐选择器107、预测分析单元109和推荐资源展现单元111组成了元推荐引擎。

兴趣挖掘单元101与兴趣模型构建单元103之间可进一步包括隐私保护单元102,兴趣挖掘单元101用于将获取到的信息提供给隐私保护单元102;隐私保护单元102用于对来自兴趣挖掘单元101的信息嵌入安全标记,以进行私有化过滤保护,然后提供给兴趣模型构建单元103。

图2示出了本发明中实现门户个性化推荐服务的流程图,如图2所示,实现门户个性化推荐服务的具体过程包括以下步骤:

步骤201:对门户用户的兴趣进行挖掘,获取门户用户的个性化描述文件,隐式跟踪并捕获登录门户用户的兴趣内容和访问行为模式。

步骤202:由于是隐式获取门户用户的兴趣信息,应该在获取后到规范化处理的过程中,保证用户隐私的安全性,可通过对获取到的信息嵌入安全标记来进行私有化过滤保护。

步骤203:对进行了私有化过滤保护的信息进行规范化处理,抽取与门户用户兴趣相关的信息。

步骤204:判断是否创建新的门户用户的兴趣模型,如果是,则执行步骤205;否则,执行步骤206。可对已创建过兴趣模型的门户用户的标识进行存储,这样,如果已经存储有当前门户用户的标识,则表示已经针对相应门户用户创建过兴趣模型,不需要创建新的门户用户的兴趣模型;如果未存储当前门户用户的标识,则表示还未针对相应门户用户创建兴趣模型,需要创建新的门户用户的兴趣模型。

步骤205:创建新的门户用户兴趣模型,然后继续执行步骤207。

步骤206:对已有门户用户兴趣模型进行更新,然后继续执行步骤207。

门户用户兴趣模型是关于门户用户兴趣偏好、使用行为模式的可计算描述,描述对象是指登录门户的具有个性化服务权限的各类用户、登录的已注册用户,结构上可考虑门户用户个体及门户用户群两种。本发明中所描述的门户用户群是一种区别于门户用户所属组织结构的、更灵活动态的虚拟概念,根据门户用户实际的兴趣相似度进行聚类。随着门户用户的兴趣衰减变化,其所属的门户用户群也会随之变化。相对地,门户用户群保持的兴趣比单一的门户用户更为稳定持久,因此也可作为元推荐引擎在预测计算时的参考依据。

针对于步骤201~步骤206,创建和更新门户用户兴趣模型的过程即是隐式实现将门户用户感兴趣内容和访问行为相结合的动态兴趣挖掘过程,包括如图3所示的以下几个环节,首先,获取门户用户的门户平台兴趣描述文件(UserProfile,UP),然后对UP进行隐私保护,进行私有化过滤保护,将安全标记嵌入UP;其次,对UP进行数据预处理,进行特征扩充、挖掘兴趣类、规范化访问事务集;再次,构建门户用户兴趣模型,将UP扩展为UP′,建立多元组<U,I(A+C),G>;最后,进行降维的规范化处理,降低计算复杂度,生成门户用户兴趣模型。

下面对图3所述的具体操作进行更为详细的描述。

如果门户用户u在T时间段内对其个性化桌面依次进行了设置和访问操作,并浏览了M个各不相同页面的Tab集合{t1,t2…,tM}以及N个门户组件Portlet集合{p1,p2…,pN}。

一方面,广度优先提取相应的兴趣内容主题进行特征描述和扩充,设置InterestContent(p,t)用于描述门户用户兴趣内容的兴趣度函数,则InterestContent(p,t)可表示为

InterestContent(p,t)=F((Feature(p,t),Weight(p,t)),FeatureExpand(p,t))(1)

其中,Feature()和Weight()分别为提取特征函数和权重函数,提取特征是指提取内容的主题、关键词等;FeatureExpand()则用于扩充对相关主题特征的描述。加权过程是对提取的特征按照兴趣重要程度和关联度分别进行加权重的,通常可分等级表示。

另一方面,将门户用户的行为模式和访问过程进行规范化处理,可重点针对点击、布局、编辑和引用等几种行为操作进行动态跟踪和捕获,近似反映典型的门户用户兴趣行为。设置InterestAction(u,p,t)为描述门户用户行为的兴趣度函数,则InterestAction(u,p,t)可表示为

InterestAction(u,p,t)=G(u,Click(p),Arrange(p),Edit(p),Quate(p),Freq(t),Duration(t))(2)

其中,Click(p)、Arrange(p)、Edit(p)和Quate(p)分别用于描述门户用户点击、布局、编辑和引用门户组件的行为,Freq()为返回访问的次数,Duration()为返回访问的驻留时间。

考虑到门户用户行为与内容间兴趣改变的交互适应性,可利用图论定义生成访问事务序列,定义每个门户用户的访问事务是门户用户对门户的一条访问路径as=(p,t,Feature(p,t),InterestAction(u,p,t)},门户用户访问事务集是每个门户用户在不同时间段里对门户的访问路径集AS={u,{as},T},进而综合比较门户用户间的兴趣内容、兴趣行为及访问事务的相似性,设定门户用户所属的门户用户群UserGroup类别。

将获取到的UP进行私有化过滤保护和数据清洗预处理后,进行兴趣内容与行为相结合、稳定与突出兴趣相结合的兴趣扩展描述。基于语义结构建立较完备的适用于门户用户的兴趣描述文件UP′,UP或UP′多为基于可扩展标记语言(Extensible Markup Language,XML)的资源定义框架(Resource DefinitionFramework,RDF)文件,抽取特征多元组<User,<InterestContent,InterestAction>,UserGroup>构建门户用户兴趣的矢量模型。

此外,引入菲波那契数列(The Fibonacci Numbers)描述函数Fibo(),采用将渐进遗忘和滑动窗口相结合的方式,解决因门户用户兴趣漂移的模型更新问题。限定用户兴趣类别的窗口数L,并且选定门户用户访问同一相关内容的时间间隔,如天数,动态将门户用户关注度最小的一个兴趣移出窗口,以保证门户用户兴趣模型及时有效的更新。定义针对某一路径的q=Interval(as,as′),并获取门户用户的访问时间间隔,权重更新关系可表示为

      Weight′(p,t)=Weight(p,t)+Feedback(q)/Fibo(L)(3)

其中,Feedback( )为描述门户用户兴趣漂移的反馈函数,表示为

>>Feedback>>(>q>)>>=> >>>0>>>if q>=>0> >>>->Fibo>>(>q>)>>>>if>1>≤>q>≤>L>,>q>∈>N> > >>>

所有兴趣度模型库和访问事务集都通过训练分类模块加载到数据集中进行集中维护,其中,描述门户用户兴趣内容的兴趣度函数InterestContent(p,t)和描述门户用户行为的兴趣度函数InterestAction(u,p,t)可存储于兴趣度模型库中,描述门户用户访问路径的函数as和描述门户用户访问路径集的函数AS可存储于访问事务集中。这种数据处理的粒度和方式,充分考虑了用户兴趣模型的完备性以及门户特点,因此易于扩展,既便于进行门户用户相似度比较计算,同时又有利于与门户整合的兼容和扩展。

步骤207:将构建的门户用户兴趣模型与存储的门户用户兴趣模型进行训练分类。所述构建的门户用户兴趣模型包括初始创建的门户用户兴趣模型和经过更新的门户用户兴趣模型。训练分类是根据构建的门户用户兴趣模型进行特征训练,提取兴趣内容、行为特征等初步划分兴趣模型的类别以及兴趣资源内容的类别,并不断对门户用户兴趣模型进行更新。其中划分方法包括门户用户兴趣模型间、资源间的相似性比较。需要综合考虑门户用户兴趣模型在兴趣内容、行为以及初步用户群等方面的描述。

步骤208:根据构建的门户用户兴趣模型、存储的门户用户兴趣模型以及反馈学习结果,进行更精确的相似性计算。进行步骤210中的预测过滤的近邻计算依据就是相似性计算算法,即在已有分类的基础上进行用户兴趣模型间的相似匹配和比较。相似性越高,产生近邻的概率就越大,因此是一个聚类过程。同时由于考虑了前端返回的门户用户兴趣模型漂移更新结果,因此本步骤的相似性计算过程更加精确和充分。最后产生目标门户用户的近邻集。

步骤209:根据存储的兴趣模型和相似性计算结果,确定推荐控制策略及推荐算法的选择和组合。

步骤210:根据相似性计算结果进行预测过滤分析,然后根据预测分析结果和确定的推荐控制策略及推荐算法,执行计算确定推荐结果,并根据确定的推荐结果调用存储的WWW资源索引,具体是指预测过程是在选定目标门户用户u近邻集的基础之上,对该目标门户用户未浏览或未知兴趣的资源进行预测,通常是基于近邻的相关兴趣历史或相似兴趣内容规则,然后从预测的结果中选出系统认为目标门户用户会感兴趣的资源推荐给该目标门户用户。

步骤211:将调用的WWW资源索引封装为含Web页面内容的门户组件,并推送给门户用户。

本发明中,个性化推荐服务中的元推荐是指通过综合考虑门户用户个性化兴趣的各种需求,将信息资源和推荐算法统一组织控制并选择推送的过程,实现数据和计算的高度管理控制。不同的推荐算法模型可互为其它推荐模型的输入,不同于组合推荐中特征互为输入的概念,也就是说不再以每次的计算结果作为下一次的输入,而是直接将算法模型整体作为输入,最后综合考虑计算结果。

数据集统一存储和维护元推荐服务相关的属性集变量,并利用数据管理模块统一操作调用,基本数据结构的接口如图4所示。包括兴趣模型库、访问事务集、推荐算法集、推荐记录、推荐内容索引、用户索引和资源展现记录等,并引入上下文三元组<Content,User,TimeStamp>,以保证元推荐引擎的灵活选择。

表兴趣内容模型(InterestModel)和访问序列(AccessSquence)分别对应兴趣内容模型库和访问事务集。表用户(User)维护门户用户的基本信息,作为更新及相似计算的参考。表推荐记录(RecomRecord)用于记录每次推荐过程的算法选择和预测推送结果,其中,属性用户名(User)、推荐算法(RecomAlgorithem)、用户推荐内容(UserContent)和用户群推荐内容(UserGroupContent)都是辅助上下文的外键标识,即作为数据库的外键,时间戳(TimeStamp)记录推荐时间戳,是否推荐(IfPresented)标识是否将资源展现在门户上。表推荐内容(Content)是作为WWW资源索引库的同步映射,预测分析后提取资源链接等信息作为推荐资源展现模块的配置参数,并记录在表(推荐展示)Presentation中。

推荐算法是实现推荐服务功能的特定计算方法的逻辑结构,是推荐任务的核心。根据兴趣挖掘的输入,通过相应预测分析计算出推荐结果。本文的元推荐服务架构中并未限制推荐算法的类别和数目,每种算法的初始键值用于启动相关推荐算法,表RecomAlgorithem中最大键值(MaxKey)设定该初始键值的最大阈值,最大阈值用于区分各算法的级别。在原型中,通过综合考虑对门户用户/门户用户群兴趣内容和行为的特点分析,定义推荐算法如下几种。

基于内容的过滤:不直接对页面进行聚类,抽取门户组件内容特征进行聚类。其中内容特征权重一致化处理的计算方法如下:

>>Weight>>(>p>,>t>)>>=>>>>Σ>>j>=>1>>M>>Weight>>(>p>,>>t>j>>)>>>>>Σ>>i>=>1>>M>>>Σ>>j>=>1>>M>>Weight>>(>>p>i>>,>>t>j>>)>>>>->->->>(>4>)>>>>

权重的设定方法、即初始键值根据WWW资源内容的索引间的相似性计算并获得,然后设定等级,便于数值的选定。

基于访问事务模式匹配:通过访问事务的序列特征进行检索、匹配路径的过程,与基于规则的预测计算相类似。同一事务聚类内用户之间的访问模式相似,不同事务聚类中用户间的访问模式不同。其中访问事务序列特征权重表示访问力度,与相关序列特征有关,计算方法如下:

>>Weight>>(>as>)>>=>>1>>|>as>|>>>>Σ>>i>∈>|>as>|>>>Weight>>(>InterestAction>>(>u>,>p>,>t>)>>,>Feature>>(>p>,>t>)>>)>>->->->>(>5>)>>>>

基于项目的协同过滤:基于相似项目兴趣,构造k近邻集合{UserGroup}k,并根据k的互邻关系发现兴趣的自然聚类,依据最近邻居评分向目标门户用户产生参考推荐。定义Rate(u,p,t)=R(InterestAction(u,p,t)),通过隐式获取门户用户行为反馈映射表示评分,则门户用户u通过最近邻居集得到的对于内容的协同预测算法如下:

>>>P>>u>,>p>,>t>>>=ver>>>Rate>>(>u>)>>>‾>>+>>>>Σ>>v>∈>{>UserGroup>>}>k>>>>Sim>>(>u>,>v>)>>*>>(>Rate>>(>v>,>p>,>t>)>>-ver>>>Rate>>(>v>)>>>‾>>)>>>>>Σ>>v>∈>{>UserGroup>>}>k>>>>|>Sim>>(>u>,>v>)>>|>>>->->->>(>6>)>>>>

其中,v是属于门户用户u的近邻集合,即门户用户u的相似用户;Sim()表示门户用户u与v之间的相似性,Rate()表示门户用户评分的平均值。可结合兴趣内容的联合出现频率,定义初始键值。

综合过滤排序(Top-N):综合考虑门户用户及所属门户用户群的兴趣相互作用,按照全面优先化原则进行过滤筛选,并按Top-N方式分类排序。

元推荐控制策略是推荐选择器107的核心,通过策略配置建立门户用户兴趣模型与推荐算法的连接组合,包括门户用户/门户用户群推荐控制和推荐算法组合控制两方面的策略,通过如图5所示的并行组合调度方式提供灵活控制和全面新颖的资源预测,其中,①表示基于内容的过滤和/或基于访问事务模式的匹配,②表示基于团体的部分匹配,③表示基于项目的协同过滤,④表示综合过滤排序。本文原型采用的组合思路方式包括混合(mixed)、层叠(cascade)和特征扩充(feature augmentation)。其中,混合是指同时采用多种技术给出多种推荐结果;层叠是指由一种推荐技术先产生粗糙算法,另一种推荐技术在此基础上进行进一步精确计算;特征扩充是指一种推荐技术获得结果附加上特征嵌入另一种推荐技术作为输入。

门户用户/门户用户群推荐控制策略将门户用户兴趣模型先分解为作用于门户用户私有和门户用户群的两个子部分,进而分别提取门户用户突出的、变化的个性化兴趣以及代表门户用户群的稳定的、持久的个性化兴趣,最后合并作用于预测分析的参考。对于门户用户兴趣模型的优化处理,可分步采用特征扩充和层叠方式进行,简化单值分解(Singular Value Decomposition,SVD),由粗糙到精确获取邻居集,降低计算复杂度,解决稀疏性和扩展性问题。

推荐算法组合控制策略用于在各环节自动选取适当的推荐算法进行预测分析,各自产生推荐结果作为下一步的输入,最终获得门户用户的突出兴趣预测结果和门户用户群的兴趣预测结果,再混合过滤不相关且无意义的推荐,可引入限定优先级的选择键值控制优先级,得到门户用户的个性化兴趣预测结果。其中,为扩展门户用户群的兴趣内容,可改进优化分类方式,采用基于团体的部分相似性匹配方法,增大项目选取的广度和未知内容的新意,解决奇异发现问题,以推荐更精确全面的邻居预测推荐集,推荐结果可用于其他相似用户群。

综合过滤排序选取预测结果的基本思想是:引入阈值Threshold作为保证推荐效率辅助门限,过滤时以用户类别、时间条件、是否展示等作为判定条件,滤除无意义或权重不在兴趣范围内的内容,并按照键值KeyValue进行Top-N方式的排序推选,成功推送后应将IfPresented标志位置为TURE。

不同的元推荐控制策略采用不同的模型和推荐算法提供不同的推荐服务,并由元推荐引擎推动。为满足不同的推荐需求,元推荐引擎可同时启动多个元推荐控制策略,通过加载策略配置,启动不同的推荐过程。元推荐引擎的控制过程包括引擎的启动或停止、推荐算法的启动或停止。

预测分析单元109作为推荐算法的执行体,遵循推荐控制器107的调用策略运行相关推荐算法。采用前面所述的优化改进策略解决稀疏性、可扩展性、冷开始以及奇异发现等热点问题。

由于预测需要考虑结果的新颖程度和推荐时机,不可重复和影响其它推荐的呈现,因此,可引入基于更新的门户用户兴趣模型的学习反馈机制进行适当的动态调整。原则是内容和权重优于时间因素。

由于推荐资源多为普通的Web应用,因此,面向门户的推荐资源转化表达是一个较为关键的问题。本发明的推荐资源展现单元111可采用一种将Web应用封装为符合远程门户组件Web服务(Web Services for Remote Portlets,WSRP)Portlet的封装机制(Web Application to WSRP Portlet,WA2WP),如图6所示。通过实现一个独立于门户平台的WSRP生产者代理服务,将推荐目标资源映射并封装为相应的Portlet,并以符合WSRP接口规范的方式发布,从而实现与Portal的无缝集成和直观展现。

WA2WP由Portlet配置管理单元、Portlet会话管理单元、WSRP接口封装单元、请求命令分析单元、Web页面获取单元和响应标记处理单元。其中,Portlet配置管理单元用于维护当前WA2WP提供的所有Portlet的元数据,可从数据集表Presentation中提取相应资源参数,采用XML格式的文件进行动态配置,如图所示;Portlet会话管理单元用于实现对会话对象的整个生命周期进行管理;请求命令分析单元用于分析收到的、推荐结果所包含的资源链接的封装展现请求以及访问资源用户请求,定位目标Portlet,进而定位目标统一资源定位符(Uniform Resource Locator,URL),获取和准备访问目标资源所需的请求参数和会话数据;Web页面获取单元用于根据来自请求命令分析单元的目标URL、请求参数和会话数据,访问Web应用,获得返回的页面标记内容及Cookie数据,并提供给响应标记处理单元;响应标记处理单元用于对获取的页面标记内容进行处理,使其成为符合WSRP规范的合法有效的Portlet标记片断;WSRP接口封装单元用于实现提供Portal或其他聚合程序访问的、符合WSRP规范的服务接口。

基本工作流程及数据交互过程如图7所示:请求命令分析单元接收推荐结果所包含的资源链接的封装展现请求以及访问资源用户请求,分析请求参数和会话数据确定所要访问的目标资源,通过Web页面获取单元访问并获得Web资源页面,可包括页面标记内容及Cookie数据,响应标记处理单元对Web页面获取单元返回的超文本标记信息进行封装前的预处理,得到Web资源页面片断,然后提供给WSRP接口封装单元,WSRP接口封装单元最后将处理结果即Web资源页面片断封装为门户组件显示在门户个性化桌面上,Web资源页面片断为符合WSRP规范的合法有效的Portlet标记片断。

在资源展现的更新方面,考虑用户的个性化兴趣差异和使用习惯,组织形式基本依据推送权重分布进行,推送权重可以依据时间重要性、新颖程度等进行加权得到,通过推荐栏目频道并标识更新时间信息的方式逐步推送。如果门户用户修改布局或删除项目,根据用户兴趣模型的更新反馈可以动态调整适应。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号