首页> 中国专利> 互联网站内信息的搜索方法和搜索系统

互联网站内信息的搜索方法和搜索系统

摘要

本发明公开了一种互联网站内信息的搜索方法和系统。所述方法包括:搜索引擎获取互联网站点更新的数据,搜索引擎根据同步得到的站内数据建立索引并存入索引数据库;所述搜索引擎接收到互联网站点搜索请求,搜索引擎根据收到的搜索请求从索引数据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。所述系统包括:独立于互联网站点的搜索引擎、以及设置在互联网站点侧的第一同步模块和搜索收发模块;所述搜索引擎包括:第二同步模块、索引建立模块、索引数据库、以及检索模块。利用本发明,可以提高站内信息搜索的搜索效率、精确度以及时效性。

著录项

  • 公开/公告号CN102982034A

    专利类型发明专利

  • 公开/公告日2013-03-20

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201110260130.5

  • 发明设计人 胡文翠;张耀杰;

    申请日2011-09-05

  • 分类号G06F17/30;

  • 代理机构北京德琦知识产权代理有限公司;

  • 代理人谢安昆

  • 地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2024-02-19 17:42:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-23

    授权

    授权

  • 2014-04-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110905

    实质审查的生效

  • 2013-03-20

    公开

    公开

说明书

技术领域

本发明涉及互联网信息处理技术领域,尤其涉及一种互联网站内信息的 搜索方法和搜索系统。

背景技术

目前,互联网站点的搭建方式主要有两种,一种是自行编写代码搭建站 点;另一种是利用成形的互联网站点系统搭建站点。例如,互联网社区软件 系统就是一种成形的互联网站点系统,互联网社区站点的拥有者不需要自行 开发一套社区软件系统,而是直接安装标准化、产品化的社区软件系统,然 后配置自己的社区配置信息,即可搭建一个互联网社区站点,网友可以利用 各种数据处理设备(如计算机、智能手机、平板电脑等)连接登录该互联网 社区站点查看或发布信息,并与其它网友进行交流互动。

目前比较流行的互联网社区软件系统主要有Discuz!社区软件系统,已 经有超过140万家互联网社区站点使用Discuz!社区软件系统进行搭建,这 些互联网社区站点提供的数据量已超过50亿。面对如此大巨量的数据,互联 网社区站点迫切需要提供高效的站内搜索服务。

现有技术中,互联网站点(包括互联网社区软件系统)的站内搜索技术 主要有两种:

现有技术一:通过数据库自带的文本检索实现搜索功能。例如Discuz! 社区软件系统的基础架构采用的是PHP语言+MySQL数据库这种比较流行的 网络编程组合实现,因此其社区站内搜索功能主要是通过MySQL数据库自 带的文本检索实现。

现有技术一的缺点是:由于数据库安装在互联网站点的本地服务器上, 执行搜索操作需要占用本地各种资源,因此总体效率不高、服务性能低,且 磁盘空间的占用量大、带宽消耗大、数据更新速度慢,索引膨胀快,难以稳 定支撑大规模数据量的查询服务。而且,MySQL数据库检索只能实现对帖子 标题的搜索,且是完全匹配,搜索结果只能按时间排序,无法按结果质量和 相关性排序。

现有技术二:通过外部专有的网络搜索引擎提供对应的搜索服务。目前 的专有搜索引擎通常采用网页抓取程序顺着网页中的超链接抓取网页信息, 然后提取网页信息中的关键数据并建立索引,当某个互联网社区站点发出搜 索请求后,该搜索请求会发送给外部搜索引擎,外部搜索引擎会从具有该社 区站点信息的索引中搜索出搜索结果,返回给该社区站点进行展示。

现有技术二的缺点是:外部搜索引擎目前都是基于全网网页抓取方式抓 取网页信息再建索引,因此针对某一社区站点内的信息,所抓取的信息量不 大、也比较粗略,而且信息时效性较差,比较迟后,因此通过这种方式进行 的互联网社区站内搜索的精确度不高,时效性差。

发明内容

有鉴于此,本发明提供一种互联网站内信息的搜索方法和搜索系统,以提 高站内信息搜索的搜索效率、精确度以及时效性。

本发明的技术方案是这样实现的:

一种互联网站内信息的搜索方法,该方法包括:

搜索引擎获取互联网站点的数据,根据获取的数据建立索引并存入索引数 据库;

搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索请求从索引数 据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。 优选的,所述搜索引擎获取互联网站点更新的数据的具体方式为:

在所述搜索引擎收到所述互联网站点更新数据主动通知后,所述搜索引擎从 所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网 站点的站内更新数据;

或者,所述搜索引擎定期从所述互联网站点指定存放全量数据及实时更新 数据列表地址处获取所述互联网站点的站内更新数据。

优选的,所述搜索引擎在同步得到互联网站点的数据之后、建立索引之前, 进一步对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,之后只对 过滤后的数据建立索引并存入索引数据库。

优选的,该方法进一步在搜索引擎中存储检索权限信息;所述来自互联网 站点的搜索请求中进一步包括用户信息;所述搜索引擎收到搜索请求后,进一 步根据用户信息和存储的检索权限信息识别该用户的检索权限,从索引数据库 中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述 互联网站点进行展示。

优选的,所述用户信息为用户的登录信息或用户的来源信息。

优选的,所述搜索引擎进一步从互联网站点同步本站内更新的用户权限信 息。

优选的,所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜 索引擎在检索出对应的搜索结果之后、返回给所述互联网站点之前,进一步根 据搜索请求中提供的用户信息对该搜索结果进行排序,将排序后的搜索结果返 回给互联网站点进行展示。

一种互联网站内信息的搜索系统,包括独立于互联网站点的搜索引擎、以 及设置在互联网站点侧的第一同步模块和搜索收发模块;所述搜索引擎包括: 第二同步模块、索引建立模块、索引数据库、以及检索模块;其中:

所述第一同步模块和第二同步模块协同工作,用于将互联网站点站内更新 的数据同步给所述搜索引擎;

所述索引建立模块用于根据第二同步模块同步得到的站内数据建立索引并 存入索引数据库;

所述搜索收发模块用于在互联网站点收到搜索请求后向所述搜索引擎发起 搜索请求,并接收搜索引擎返回的搜索结果供互联网站点展示;

所述检索模块用于根据来自互联网站点的搜索请求从索引数据库中检索出 对应的搜索结果,并将搜索结果返回给互联网站点。

优选的,所述搜索引擎中进一步包括过滤模块,设置在所述第二同步模块 和索引建立模块之间,用于对同步得到的数据进行过滤,过滤掉不符合指定条 件的数据,将过滤后的数据发送给索引建立模块建立索引并存入索引数据库。

优选的,所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添 加用户信息;所述搜索引擎中进一步包括权限信息模块,用于存储检索权限信 息;所述检索模块进一步用于根据来自互联网站点的搜索请求中的用户信息和 权限信息模块中存储的检索权限信息识别该用户的检索权限,从索引数据库中 符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互 联网站点。

优选的,所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添 加用户信息;所述检索模块内进一步包括排序模块,用于根据所述搜索请求中 提供的用户信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。

优选的,所述搜索引擎为云计算搜索引擎。

与现有技术一相比,本发明所采用与互联网站点系统(如Discuz!)相独立 的专用搜索引擎提供站内搜索,因此搜索效率高,服务性能高,不必占用站点 本地的各种资源,例如磁盘资源,带宽资源,而且数据更新速度快,索引膨胀 慢,可以支持大规模数据量的查询服务。并且,可以克服数据库检索只能提供 标题搜索的缺陷,可以提供各个字段的搜索结果。

与现有技术二相比,本发明不是采用全网抓取的方式建立数据索引,而是 与互联网站点保持了一种通信机制,即互联网站点将本站内的更新数据实时同 步给搜索引擎,所述更新数据的数据量大而且全面,搜索引擎实时或定时建立 所述站内数据的索引,因此搜索结果不但准确性高,而且时效性好,搜索结果 可以及时地反映最新的数据更新内容。

此外,由于本发明采用独立于站点的专用搜索引擎甚至云搜索引擎,因此 可以实现通过搜索帖子标题、正文、主题中的关键字信息搜索站内帖子,可以 “按时间”或者“按相关性”对搜索结果进行排序,并可以根据搜索结果的某 一属性进行筛选、过滤,例如:是否精华帖、是否置顶帖、来自某个版块、是 否需要登录后才有权限访问等。

本发明还可以根据用户的登录信息、来源信息及相对应的访问权限,为其 展示权限内的搜索结果,从而进一步提高了搜索的精准度。

附图说明

图1为本发明所述的互联网站内信息的搜索方法的示意图;

图2为互联网社区站点利用本发明所述方法进行搜索的一种实施流程 图;

图3为一种搜索会话框的界面图;

图4为一种搜索结果界面图;

图5为本发明所述的互联网站内信息搜索系统的第一实施例的示意图;

图6为本发明所述的互联网站内信息搜索系统的第二实施例的示意图;

图7为本发明所述的互联网站内信息搜索系统的第三实施例的示意图;

图8为本发明所述的互联网站内信息搜索系统的第四实施例的示意图;

图9为本发明所述的互联网站内信息搜索系统的第五实施例的示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明所述适用的互联网站点可以是自行编写搭建的互联网站点,也可 以是成形的互联网站点系统例如互联网社区软件系统(如Discuz!)搭建的 互联网站点。本发明所述的搜索引擎可以是云计算搜索引擎或非云计算搜索 引擎。

图1为本发明所述的互联网站内信息的搜索方法的示意图。参见图1, 该方法包括信息同步过程101和响应搜索过程102,其中:

信息同步过程101包括:

步骤111、搜索引擎获取互联网站点同步更新的数据。

步骤112、搜索引擎根据同步得到的站内数据实时建立索引并存入索引 数据库。

响应搜索过程102包括:

步骤121、互联网站点在收到搜索请求后向所述搜索引擎发起搜索请求。

步骤122、搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索 请求从索引数据库中检索出对应的搜索结果。

步骤123、搜索引擎将搜索结果返回给所述互联网站点

步骤124、所述互联网站点展示所收到的搜索结果。

所述信息同步过程可以具体为主动通知同步方式和定时同步方式,其中:

主动通知同步方式为:所述互联网站点将本站内的全量数据及实时更新 的数据列表存放到指定地址,并在更新数据后主动通知所述搜索引擎,所述 搜索引擎收到通知后到所述指定地址获取所述互联网站点的站内数据。

定时同步方式为:所述互联网站点将本站内的全量数据及实时更新的数 据列表存放到指定地址,所述搜索引擎定期到所述指定地址抓取所述互联网 站点的站内数据。

在一种优选的实施例中,所述搜索引擎在同步得到互联网站点的数据之 后、建立索引之前,还可以进一步对同步得到的数据进行过滤,过滤掉不符 合指定条件的数据,之后只对过滤后的数据建立索引并存入索引数据库。例 如针对互联网社区站点,所述指定条件是指不能包含明显无实质内容的帖子, 例如不能包含“顶”、“赞”、“沙发”等明显无实质内容的帖子,具体的 过滤条件可以根据互联网信息的变化在搜索引擎中进行设定,在建立索引之 前,搜索引擎需要将这些内容过滤掉。

在一种优选的实施例中,本发明还可以在搜索引擎中存储检索权限信息。 例如一般的互联网站点对站内用户权限有所划分,不同的用户对站内版块的 访问权限是不同的,因此可以在搜索引擎中存储站点内不同版块的用户访问 权限信息(比如哪一类型的用户可以访问,哪一类型的用户不可以访问等等); 再例如,对于不同站点的用户其访问其他站点信息的权限也不同,有些联盟 站点之间的用户可以相互访问对方站点内的内容,因此搜索引擎也可以将这 些站点间用户访问的权限信息存储起来。所述互联网站点向搜索引擎发送的 搜索请求中可以进一步包括用户信息,例如用户的登录信息(该用户的登录 等级、登录权限等信息)以及用户来源信息等。所述搜索引擎收到搜索请求 后,进一步根据用户信息和存储的检索权限信息识别该用户的检索权限,从 索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结 果返回给所述互联网站点进行展示。

例如,如果用户信息是用户的登录等级信息,则搜索引擎根据检索权限 信息确定该用户的登录等级可以访问哪些站内版块,从用户有权访问的这些 站内版块数据内检索出符合所述搜索请求的搜索结果。再例如,如果用户信 息包括用户来源信息(如该用户来自于A站点),则搜索引擎根据所述检索 权限信息确定来自与A站点的用户可以访问的站点都有哪些,例如B站点和 C站点,那么搜索引擎从B站点和C站点中检索出对应的内容,作为搜索结 果返回。

所述搜索引擎中存储的检索权限信息可以预先设置存储,也可以根据互联 网站点的用户权限信息的改变进行动态同步更新,具体的同步方式也可以采用 上述主动通知同步方式和定时同步方式。

在一种优选的实施例中,本发明所述搜索引擎在检索出对应的搜索结果之 后、返回给所述互联网站点之前,进一步根据搜索请求中提供的用户信息对该 搜索结果进行排序,将排序后的搜索结果返回给互联网站点进行展示。例如如 果用户信息表明该用户是某一版块的版主,则在搜索结果中会将该版块的搜索 结果信息排在前面。

图2为互联网社区站点利用本发明所述方法进行搜索的一种实施流程 图。参见图2,假设此处的互联网社区站点为一论坛站点(如利用Discuz! 社区软件系统搭建的论坛站点),该论坛站点中,Discuz!社区软件系统(下 面简称Discuz!)为论坛提供功能支持。其搜索流程包括:

步骤201、论坛通过Discuz!将论坛内全量的文本信息及用户权限信息 实时同步给搜索引擎,搜索引擎通过实时索引技术对符合条件的数据建立索 引,过滤掉垃圾及不符合条件的数据。

步骤202、用户登录论坛,打开搜索会话框,例如打开图3所示的一种 搜索会话框,在搜索框内输入关键词,点击“搜索”发起搜索请求;Discuz! 将用户的搜索请求、以及用户来源(即用户所属的论坛)、用户登录信息(体 现了会话对象权限)等相关信息一起发送给搜索引擎。

步骤203、搜索引擎根据接收到的信息、以及存储的检索权限信息(例 如合作伙伴相关数据库的内容),根据用户在该论坛内的访问权限从索引数 据库中检索出相应的搜索结果,并根据用户信息等条件对搜索结果进行排序。

步骤204、搜索引擎返回排序后的搜索结果给Discuz!;Discuz!将搜 索结果展示给用户,例如图4所示的搜索结果。

本发明在搜索结果页面还可以进一步展示检索条件供用户选择,如图4 所示的搜索结果界面中,左侧的“所有版块列表”部分401就列出了若干个 检索条件,每条检索条件都对应本论坛中的一个版块。用户可以点击其中的 一个检索条件,例如点击“建站交流”402,则互联网站点会重新发送一条搜 索请求给搜索引擎,该搜索请求中包括所点击的检索条件信息,该检索条件 信息指定了所点击的版块信息,搜索引擎在接收到包含检索条件的搜索请求 后,进一步根据所述检索条件从前次搜索结果中检索出对应的搜索结果,例 如从前次搜索结果中检索出“建站交流”版块中包含的搜索结果,并将搜索 结果返回给所述互联网站点进行展示。

图5为本发明所述的互联网站内信息搜索系统的第一实施例的示意图。 参见图5,该搜索系统包括独立于互联网站点的搜索引擎500、以及设置在互 联网站点侧的第一同步模块501和搜索收发模块502;所述搜索引擎500为 云计算搜索引擎或非云计算搜索引擎,包括:第二同步模块503、索引建立 模块504、索引数据库505、以及检索模块506;其中:

所述第一同步模块501和第二同步模块503协同工作,用于将互联网站 点站内更新的数据同步给所述搜索引擎500;

所述索引建立模块504用于根据第二同步模块503同步得到的站内数据 建立索引并存入索引数据库505;

所述搜索收发模块502用于在互联网站点收到搜索请求后向所述搜索引 擎500发起搜索请求,并接收搜索引擎500返回的搜索结果供互联网站点展 示;

所述检索模块506用于根据来自互联网站点的搜索请求从索引数据库 505中检索出对应的搜索结果,并将搜索结果返回给互联网站点。

图6为本发明所述的互联网站内信息搜索系统的第二实施例的示意图。 参见图6,该第二实施例中,除了包括图5所示的模块,还进一步包括过滤 模块507,设置在所述第二同步模块503和索引建立模块504之间,用于对 同步得到的数据进行过滤,过滤掉不符合指定条件的数据,将过滤后的数据 发送给索引建立模块504建立索引并存入索引数据库505。

图7为本发明所述的互联网站内信息搜索系统的第三实施例的示意图。 参见图7,该第三实施例中,除了包括图5所示的模块,所述搜索收发模块 502进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述搜索引 擎中进一步包括权限信息模块508,用于存储检索权限信息;所述检索模块 506进一步用于根据来自互联网站点的搜索请求中的用户信息和权限信息模 块中存储的检索权限信息识别该用户的检索权限,从索引数据库505中符合 该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联 网站点。

图8为本发明所述的互联网站内信息搜索系统的第四实施例的示意图。 参见图8,该第四实施例中,除了包括图5所示的模块,所述搜索收发模块 502进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述检索模 块506内进一步包括排序模块509,用于根据所述搜索请求中提供的用户信 息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。

图9为本发明所述的互联网站内信息搜索系统的第五实施例的示意图, 如图9为该最佳实施例的示意图,该实施例中,除了包括图5所示的模块, 所述搜索收发模块502进一步用于在向搜索引擎发送的搜索请求中添加用户 信息;所述搜索引擎中进一步包括权限信息模块508,用于存储检索权限信 息;所述检索模块506进一步用于根据来自互联网站点的搜索请求中的用户 信息和权限信息模块508中存储的检索权限信息识别该用户的检索权限,从 索引数据库505中符合该用户权限范围的内容里检索出搜索结果;所述检索 模块506内进一步包括排序模块509,用于根据所述搜索请求中提供的用户 信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。

当然,上述搜索系统的第二、三、四实施例之间可以任意组合在一起, 从而构成新的实施例。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号