法律状态公告日
法律状态信息
法律状态
2018-06-15
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20180528 变更前: 变更后: 申请日:20131218
专利申请权、专利权的转移
2017-07-04
授权
授权
2014-04-16
实质审查的生效 IPC(主分类):G06F17/30 申请日:20131218
实质审查的生效
2014-03-19
公开
公开
技术领域
本发明涉及一种基于用户参与的搜索引擎排序方法,属于软件技术领域。
背景技术
中国互联网络信息中心调查报告指出,有82.5%的网民经常使用搜索引擎,83.4% 的用户通过搜索引擎得知新网站。可见,搜索引擎在大家日常的网络生活中发挥了重要 作用。一个优秀的搜索引擎能从巨量的、形如垃圾的信息中发现真正的知识,通过对信 息的甄别、加工、提纯,带来信息价值的提升。然而由于当今搜索引擎相关性排序算法 并不完善,用户通常需要从大量的返回结果中手工挑选相关网页,搜索引擎的导航功能 没有发挥明显优势。
在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在数据库中找到匹配网 页的先后次序,不保证排在前面的网页与用户查询的相关性更大,因此不能帮助用户从 过载的海量信息中快速地选取真正相关的信息。目前搜索引擎访问的网页数量已达到上 十亿的规模,通常搜索结果包含成千上万的网页,即便这些网页都是用户所需要的,用 户也不可能浏览所有的网页。如何将更相关的网页排在前面,减少用户浏览网页的数目, 帮助其快速找到需要的信息,是一项很有意义且富有挑战性的工作。用户通常只关心搜 索引擎返回的排在前面的文档。因此研究搜索引擎的相关性排序算法,将用户期望的结 果排列在前面,显得越来越重要。
搜索引擎不仅需要返回检索结果,而且应该对这些结果进行再加工,判断哪些更符 合用户搜索意图,将用户最感兴趣的文档排列在前面,方便用户在最短时间内找到需要 的信息,提高搜索引擎的用户满意度。这便是搜索引擎的相关性原则,已被作为搜索引 擎最基本原则之一。搜索引擎的相关性排序模型包含布尔模型,向量空间模型,概率模 型,超链接模型,自学习排序模型。布尔模型建立在经典集合论和布尔代数的基础上, 根据文档中是否出现关键词来判断文档是否相关,所有相关文档与查询的相关程度都是 一样的,所以不支持相关性排序。向量空间模型将文档和用户查询分别转化为向量形式, 计算两个向量的夹角余弦,并按照递减的顺序排列文档。概率模型通过估计文档与查询 相关联的概率,根据关联概率对所有文档进行排序。超链接模型根据网页之间相互的超 链接计算网页排名,从链接数目和链接页面的质量判断网页的级别。自学习排序模型将 机器学习的方法运用到搜索引擎相关性排序问题,解决了以往模型的许多不足之处。它 根据训练样本学习排序模型,再将排序模型预测与查询相关的文档排序。
目前,不同的搜索引擎使用了不同的相关度排序方法。比较流行的有两类:超链接 分析法,即一个网页被链接的次数越多而且链接的站点越权威就说明此网页的质量越 高;词频统计法,即网页文档中出现查询词的频率越高,其排序就越靠前。此外,还有 点击率法,即网页被点击的次数越多,相关度越高。任何一个搜索引擎的目的就是更快 速地响应用户搜索,把满足用户需求的搜索结果反馈给搜索用户。能否把与用户检索需 求最相关的高质量文档纳入结果排序的前面是衡量搜索引擎性能的关键技术之一。
发明内容
本发明的目的在于提供一种基于用户参与的搜索引擎排序方法,依据用户参与对搜 索列表的评价,并对评价结果打分评比参与排序,方便根据用户参与评价的结果查找相 应的结果,方便人们根据需要使用。
为了实现上述目的,本发明的技术方案如下。
一种基于用户参与的搜索引擎排序方法,该方法基于搜索引擎排序系统,搜索结果 的显示列表上用户通过表达赞同、喜欢、不赞同、反对等意见针对全部的信息及检索结 果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序, 分数高的排在前面,并设置有防止恶意评分程序。该方法实施所建立的系统包括用户、 搜索引擎排序系统、模型处理系统和输出系统,其中,
(1)用户分别为注册用户和非注册用户,个性化服务主要针对注册用户,非注册 用户具有搜索引擎排序功能。搜索引擎排序系统本身较为复杂性,为保证搜索引擎排序 质量和实时性,要求构建合理的搜索引擎排序系统。
(2)搜索引擎排序系统采用基于用户参与的方法,属于完全个性化搜索引擎排序, 为用户提供个性化的服务。其中,搜索引擎排序系统需要管理网站信息、用户注册信息、 评分等数据以及搜索引擎排序方法、模型、结果等内容。考虑到搜索引擎排序方法运行 效率和搜索引擎排序实时性的要求,系统包括在线实时搜索引擎排序和模型处理两部 分。在线是对于访问用户而言。模型处理不实时进行,从而有利于提高搜索引擎排序系 统的执行效率。搜索引擎排序系统适用于一般网站,根据客户注册信息采集用户个人信 息,根据用户对不同显示列表评价,预测其感兴趣的列表内容。搜索引擎排序系统目的 是方便用户选择评价,促进搜索选择。由于不同的搜索引擎排序技术在特定类型的搜索 引擎排序系统中,会获得较好的效果,具有一定的适用性范围。对于搜索结果的显示列 表来说,一般不能通过规范的形式全面描述出,而是需要依据用户感受描述。用户选择 一种搜索结果的显示列表后,根据用户一系列信息,用户可以表达赞同、喜欢、不赞同、 反对等意见。
(3)模型处理系统主要根据搜索引擎排序方法处理数据得到模型,当用户浏览网 页时,在线搜索引擎排序会依据模型结果实时输出搜索引擎排序列表反馈给用户。在线 搜索引擎排序部分根据不同的情况,执行不同的搜索引擎排序策略。特别是对于新用户 采用不同搜索引擎排序方法,在一定程度上解决冷启动问题,提高搜索引擎排序质量。
(4)输入输出系统:个性化搜索引擎排序系统主要的功能是收集用户信息、网站 信息以及对网站的评价信息,经过模型处理,为用户提供搜索引擎排序列表。
上述系统需要管理的数据如下:系统需要搜索结果的显示列表中存在的大量数据进 行分析,系统管理的数据主要包括输入数据、模型数据与输出数据。
(1)输入数据:系统的输入包括用户信息、显示列表信息、用户评价信息。其中, 用户信息数据是通过收集用户登录系统后填写的个人信息获得的。用户信息包括:用户 标示、登录密码、年龄、性别、职业、住址、电子邮件。搜索引擎排序系统需要为用户 搜索引擎排序其可能感兴趣的显示列表信息,同时根据感兴趣的信息和相应的搜索引擎 排序算法预测用户兴趣度。该系统针对显示列表的搜索引擎排序,因此信息主要包括: 列表编号、列表名称、日期、类型。搜索引擎排序系统的采集用户对列表信息评价的数 据信息,作为搜索引擎排序算法的重要输入内容。用户对列表信息的评价可以是多种类 型的,如文字形式的描述、模糊评价(赞同、喜欢、不赞同、反对)或直接评分的形式。 用户对列表信息的评分方法。评价信息包括:用户标示、列表编号、评分、时间标示。
(2)模型数据包括两种:
①模型输入数据:搜索引擎排序系统的核心是搜索引擎排序算法模型,但由于不同 算法要求输入数据不同,因此在进行计算时需要将系统的输入数据进行预处理,整理为 模型输入数据。主要包括:用户、列表信息、评分数据。其中,用户数据,将用户信息 转化为算法模型需要的形式,具体包括:用户标示、年龄段、性别标示、职业标示;其 中年龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形式。列表数据: 将列表信息转化为模型要求的形式,包括:列表编号、类型1、类型2、…类型M。其中 类型是根据列表信息转化而来,将不同的类型表现为不同的字段,每部列表类型表现为 一行0-1向量的形式。评分数据:用户评分数据需要进行处理成为评分矩阵的形式, 包括用户编号、列表1评分、列表评分2…评分K。其中每位用户的评分数据表示成行 向量的形式。
②模型输出数据:模型结构数据:搜索引擎排序系统利用搜索引擎排序算法计算输 入数据,得出算法模型的结构组成数据,作为预测的依据,包括模型标示、基于算法的 权重、模型参数;用户分类数据:模型输入数据经过算法处理后,得到分类结果。包括 两部分内容,一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号。另 一部分是分类的评分结果,包括模型编号、分类编号、列表1评分、列表2评分…列表 K评分。
(3)输出数据:
根据搜索引擎排序系统的应用不同,采用不同的模型,主要产生三种输出结果:
①用户预测评分数据:搜索引擎排序系统的输出是应用模型进行用户预测后,输出 搜索引擎排序结果。根据搜索引擎排序系统的输入数据和模型数据,计算得到预测用户 的搜索引擎排序结果,包括用户编号、模型标示、分类编号、列表编号、评分。预测新 列表用户数据:根据新列表的特征和用户评分信息,预测可能感兴趣的用户类。
②新用户评分数据:根据新用户以及原有用户数据,预测用户评分结果,包括新用 户编号、模型编号、列表编号、评分。如果用户对所有的搜索结果都不满意,或者没有 他想要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一 页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结 果同样参与其他用户的评分。分值决定其排列顺序
上述模型处理部分工作过程如下:
搜索引擎排序系统的模型处理部分对于访问用户是不可见的。由于列表网站的数据 量庞大、增长迅速,使得算法模型在处理上会耗费较长时间。系统资源消耗很大,严重 影响了搜索引擎排序的实时性。因此,搜索引擎排序系统采用离线计算模型,产生模型 输出结果。在线搜索引擎排序时利用模型结果和系统输入数据,返回给用户搜索引擎排 序结果。模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的 限制值时,需要重新处理模型,其具体步骤为:
(1)数据预处理:根据不同算法的要求处理数据,将系统输入数据处理为模型输入 数据。
(2)模型计算搜索引擎排序系统根据数据量的变动,定期运行模型,计算更新数据, 修改模型输出结果,保证搜索引擎排序质量。
在线搜索引擎排序过程如下:
个性化列表搜索引擎排序系统的主要任务是根据用户的个人喜好,搜索引擎排序列 表。在线推荐主要的功能是分析搜索引擎排序的类型,选择相应的算法模型的输出结果 与输入数据结合预测出搜索引擎排序结果,并反馈给用户。
(1)选择模型:搜索引擎排序系统根据搜索引擎排序的类型,选择不同模型,主要 包括三种搜索引擎排序:
①评分用户的搜索引擎排序:如果是系统中已存在评分的用户,根据其评分数据、 列表数据以及用户数据选择用于分类的模型。
②新列表搜索引擎排序:新列表是指原有搜索引擎排序系统不存在有关该列表的任 何用户评分数据以及列表特征数据。对于新列表的搜索引擎排序根据输入的列表特征运 用基于内容的分类模型进行分析。如果用户对所有的搜索结果都不满意,或者没有他想 要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一页面 位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同 样参与其他用户的评分。分值决定其排列顺序。
③新用户搜索引擎排序:新用户是指搜索引擎排序系统中不存在其任何评分数据, 包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户。 对于新用户的搜索引擎排序采用依据用户信息的模型。
(2)预测搜索引擎排序:
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排序结果。在线搜索引 擎排序采用的是实时搜索引擎排序模式的进行搜索引擎排序。当用户登录搜索引擎排序 系统网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的列表,直接反馈给 用户其最可能感兴趣的列表。
结合基于用户信息的混合搜索引擎排序算法可以实现两种类型的搜索引擎排序。其 中,近邻聚类结合基于内容和用户信息的混合搜索引擎排序是根据列表信息和用户评分 数据,形成用户偏好,然后进行近邻聚类,将相似用户进行聚类。然后结合测试用户信 息预测,产生用户搜索引擎排序列表。另一种是基于用户信息的搜索引擎排序算法实现 对新用户的搜索引擎排序,根据新用户信息和原有用户信息加权使用支持向量机预测新 用户评分,产生新用户列表搜索引擎排序列表,供用户使用。
该发明的有益效果在于:本发明方法可以加强用户的参与,针对搜索信息进行意见 表达,并供其他用户参考,从而能够有效地提高搜索质量,便于用户参考意见进行选择, 从而有效地减少了用户的搜索查找时间,提高了办事效率和获知信息的能力。
附图说明
图1是本发明实施例中所使用搜索引擎基本框架图。
图2是本发明实施例中搜索引擎中在线评分流程图。
图3是本发明实施例中结合列表和用户评分流程图。
图4是本发明实施例中结合列表和新用户评分流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式进行描述,以便更好的理解本发 明。
实施例
基于用户参与的搜索引擎排序方法,该方法基于搜索引擎排序系统,该系统的基本 框架见图1,以某搜索引擎网站为例,搜索结果的显示列表上用户可以表达赞同、喜欢、 不赞同、反对等意见针对全部的信息及检索结果评分,依据搜索结果的分值,在下一次 搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面。同时有专门的防止 恶意评分程序。如图1所示,该系统包括用户、搜索引擎排序系统、模型处理系统和输 出系统,其中,用户分别为注册用户和非注册用户,个性化服务主要针对注册用户,非 注册用户具有搜索引擎排序功能。搜索引擎排序系统本身较为复杂性,为保证搜索引擎 排序质量和实时性,要求构建合理的搜索引擎排序系统。基于用户参与的搜索引擎排序 系统属于完全个性化搜索引擎排序,采用合理算法,为注册用户提供个性化的服务。其 中,搜索引擎排序系统需要管理网站信息、用户注册信息、评分等数据以及搜索引擎排 序方法、模型、结果等内容。考虑到搜索引擎排序方法运行效率和搜索引擎排序实时性 的要求,系统包括在线实时搜索引擎排序和模型处理两部分。在线是对于访问用户而言。 模型处理可以不实时进行,从而有利于提高搜索引擎排序系统的执行效率。模型处理部 分主要根据搜索引擎排序方法处理数据得到模型,当用户浏览网页时,在线搜索引擎排 序会依据模型结果实时输出搜索引擎排序列表反馈给用户。在线搜索引擎排序部分根据 不同的情况,执行不同的搜索引擎排序策略。特别是对于新用户采用不同搜索引擎排序 方法,在一定程度上解决冷启动问题,提高搜索引擎排序质量。图2是本发明实施例中 搜索引擎中在线评分流程图。
搜索引擎排序系统的适用性:
输入输出系统:个性化搜索引擎排序系统主要的功能是收集用户信息、网站信息以 及对网站的评价信息,经过模型处理,为用户提供搜索引擎排序列表。搜索引擎排序系 统适用于一般网站,根据客户注册信息采集用户个人信息,根据用户对不同显示列表评 价,预测其感兴趣的列表内容。搜索引擎排序系统目的是方便用户选择评价,促进搜索 选择。由于不同的搜索引擎排序技术在特定类型的搜索引擎排序系统中,会获得较好的 效果,具有一定的适用性范围。对于搜索结果的显示列表来说,一般不能通过规范的形 式全面描述出,而是需要依据用户感受描述。用户选择一种搜索结果的显示列表后,根 据用户一系列信息,用户可以表达赞同、喜欢、不赞同、反对等意见。图3是本发明实 施例中结合列表和用户评分流程图。
该系统需要管理的数据以及运行过程如下:系统需要搜索结果的显示列表中存在的 大量数据进行分析,系统管理的数据主要包括输入数据、模型数据与输出数据。
(1)输入数据:系统的输入包括用户信息、显示列表信息、用户评价信息。其中, 用户信息数据是通过收集用户登录系统后填写的个人信息获得的。用户信息包括:用户 标示、登录密码、年龄、性别、职业、住址、电子邮件。显示列表信息:搜索引擎排序 系统需要为用户搜索引擎排序其可能感兴趣的显示列表信息,同时根据感兴趣的信息和 相应的搜索引擎排序算法预测用户兴趣度。该系统针对显示列表的搜索引擎排序,因此 信息主要包括:列表编号、列表名称、日期、类型。所述用户评价信息:搜索引擎排序 系统的采集用户对列表信息评价的数据信息,作为搜索引擎排序算法的重要输入内容。 用户对列表信息的评价可以是多种类型的,如文字形式的描述、模糊评价(赞同、喜欢、 不赞同、反对)或直接评分的形式。用户对列表信息的评分方法。评价信息包括:用户 标示、列表编号、评分、时间标示。
(2)模型数据包括两种:
①模型输入数据:搜索引擎排序系统的核心是搜索引擎排序算法模型,但由于不同 算法要求输入数据不同,因此在进行计算时需要将系统的输入数据进行预处理,整理为 模型输入数据。主要包括:用户、列表信息、评分数据。其中,用户数据,将用户信息 转化为算法模型需要的形式,具体包括:用户标示、年龄段、性别标示、职业标示;其 中年龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形式。列表数据: 将列表信息转化为模型要求的形式,包括:列表编号、类型1、类型2、…类型M。其中 类型是根据列表信息转化而来,将不同的类型表现为不同的字段,每部列表类型表现为 一行0-1向量的形式。评分数据:用户评分数据需要进行处理成为评分矩阵的形式, 包括用户编号、列表1评分、列表评分2…评分K。其中每位用户的评分数据表示成行 向量的形式。
②模型输出数据:模型结构数据:搜索引擎排序系统利用搜索引擎排序算法计算输 入数据,得出算法模型的结构组成数据,作为预测的依据。模型标示、基于算法的权重、 模型参数;用户分类数据:模型输入数据经过算法处理后,得到分类结果。包括两部分 内容,一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号。另一部分 是分类的评分结果,包括模型编号、分类编号、列表1评分、列表2评分…列表K评分。
(3)输出数据:
根据搜索引擎排序系统的应用不同,采用不同的模型,主要产生三种输出结果:
①用户预测评分数据:搜索引擎排序系统的输出是应用模型进行用户预测后,输出 搜索引擎排序结果。根据搜索引擎排序系统的输入数据和模型数据,计算得到预测用户 的搜索引擎排序结果。用户编号、模型标示、分类编号、列表编号、评分。预测新列表 用户数据:根据新列表的特征和用户评分信息,预测可能感兴趣的用户类。
②新用户评分数据:根据新用户以及原有用户数据,预测用户评分结果。包括新用 户编号、模型编号、列表编号、评分。如果用户对所有的搜索结果都不满意,或者没有 他想要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一 页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结 果同样参与其他用户的评分。分值决定其排列顺序。图4是本发明实施例中结合列表和 新用户评分流程图。
模型处理部分:
搜索引擎排序系统的模型处理部分对于访问用户是不可见的。由于列表网站的数据 量庞大、增长迅速,使得算法模型在处理上会耗费较长时间。系统资源消耗很大,严重 影响了搜索引擎排序的实时性。因此,搜索引擎排序系统采用离线计算模型,产生模型 输出结果。在线搜索引擎排序时利用模型结果和系统输入数据,返回给用户搜索引擎排 序结果。模型的计算是根据输入数据增量进行更新,当新增加用户评分数据达到一定的 限制值时,需要重新处理模型,其具体步骤为:
(1)数据预处理:根据不同算法的要求处理数据,将系统输入数据处理为模型输入 数据。
(2)模型计算搜索引擎排序系统根据数据量的变动,定期运行模型,计算更新数据, 修改模型输出结果,保证搜索引擎排序质量。
在线搜索引擎排序部分:
个性化列表搜索引擎排序系统的主要任务是根据用户的个人喜好,搜索引擎排序列 表。在线推荐主要的功能是分析搜索引擎排序的类型,选择相应的算法模型的输出结果 与输入数据结合预测出搜索引擎排序结果,并反馈给用户。主要过程如图3、图4所示。
(1)选择模型:搜索引擎排序系统根据搜索引擎排序的类型,选择不同模型,主要 包括三种搜索引擎排序:
①评分用户的搜索引擎排序:如果是系统中已存在评分的用户,根据其评分数据、 列表数据以及用户数据选择用于分类的模型。
②新列表搜索引擎排序:新列表是指原有搜索引擎排序系统不存在有关该列表的任 何用户评分数据以及列表特征数据。对于新列表的搜索引擎排序根据输入的列表特征运 用基于内容的分类模型进行分析。如果用户对所有的搜索结果都不满意,或者没有他想 要的信息,用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某一页面 位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表出来,同时此添加结果同 样参与其他用户的评分。分值决定其排列顺序。
③新用户搜索引擎排序:新用户是指搜索引擎排序系统中不存在其任何评分数据, 包括有两种类型的用户,一种是新注册的用户,另一种是注册但没有进行过评分的用户。 对于新用户的搜索引擎排序采用依据用户信息的模型。
(2)预测搜索引擎排序
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排序结果。在线搜索引 擎排序采用的是实时搜索引擎排序模式的进行搜索引擎排序。当用户登录搜索引擎排序 系统网站,浏览页面时,直接读取用户评分数据,预测用户感兴趣的列表,直接反馈给 用户其最可能感兴趣的列表。
结合基于用户信息的混合搜索引擎排序算法可以实现两种类型的搜索引擎排序。其 中,近邻聚类结合基于内容和用户信息的混合搜索引擎排序是根据列表信息和用户评分 数据,形成用户偏好,然后进行近邻聚类,将相似用户进行聚类。然后结合测试用户信 息预测,产生用户搜索引擎排序列表。另一种是基于用户信息的搜索引擎排序算法实现 对新用户的搜索引擎排序,根据新用户信息和原有用户信息加权使用支持向量机预测新 用户评分,产生新用户列表搜索引擎排序列表,供用户使用。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来 说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视 为本发明的保护范围。
机译: 根据用户参与度的搜索引擎排序方法
机译: 基于用户参与信号的内容项排序方法和系统
机译: 基于用户参与度的搜索引擎排名方法