首页> 中国专利> 基于稀缺词提供搜索结果项的方法及系统

基于稀缺词提供搜索结果项的方法及系统

摘要

本发明提供了一种基于稀缺词提供搜索结果项的方法及系统,该方法包括:接收来自用户的搜索词,并判断所述搜索词中是否包含稀缺词;若是,根据所述稀缺词调整首页搜索结果项;将调整后的首页搜索结果项提供给用户。本发明能够灵活地调整首页搜索结果项,使得首页搜索结果项中包含稀缺词的稀缺信息,利用首页搜索结果项的容易被用户获取并重视其包含信息的特性为用户提供更丰富的数据支持,以及更为准确的搜索结果,满足用户对信息的需求,提高用户信息搜索体验。

著录项

  • 公开/公告号CN104484385A

    专利类型发明专利

  • 公开/公告日2015-04-01

    原文格式PDF

  • 申请/专利号CN201410758673.3

  • 发明设计人 魏少俊;王智广;

    申请日2014-12-10

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京智汇东方知识产权代理事务所(普通合伙);

  • 代理人康正德

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-17 04:27:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2014107586733 登记生效日:20220718 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:北京奇虎科技有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:100015 北京市朝阳区酒仙桥路6号院2号楼1至19层104号内8层801 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2018-05-15

    授权

    授权

  • 2015-04-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141210

    实质审查的生效

  • 2015-04-01

    公开

    公开

说明书

技术领域

本发明涉及信息搜索领域,特别是一种基于稀缺词提供搜索结果项的方法 及系统。

背景技术

搜索引擎所抓取的网页集合较为庞大,从成本和效率的角度考虑,搜索引 擎会从中选取部分网页作为索引,筛选的依据主要是网页内容的重复程度和页 面内容本身的质量。

上述筛选可以对庞大的网页集合进行精减处理,删除大量重复性网页,提 高索引集合的信息提供效率。但是,搜索过程中存在部分因不同原因(例如重 复程度较低)容易被忽略的信息,比如某些人名、偏远地名或商品型号等。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的基于稀缺词提供搜索结果项的方法及系统。

依据本发明的一个方面,提供了一种基于稀缺词提供搜索结果项的方法, 包括:接收来自用户的搜索词,判断所述搜索词中是否包含稀缺词;若是,根 据所述稀缺词调整首页搜索结果项;将调整后的首页搜索结果项提供给用户。

可选地,判断所述搜索词中是否包含稀缺词,包括:将所述搜索词与预存 的稀缺关键词进行匹配;根据匹配的结果判断所述搜索词中是否包含稀缺词。

可选地,根据所述稀缺词调整首页搜索结果项,包括:搜索包含所述稀缺 词的稀缺网页;将所述稀缺网页插入所述首页搜索结果项。

可选地,将调整后的首页搜索结果项提供给用户,包括:根据调整后的首 页搜索结果项绘制搜索结果页,并提供给用户。

可选地,将所述稀缺网页以卡片形式嵌入所述搜索结果页。

可选地,根据所述稀缺词调整首页搜索结果项,包括:查询所述首页搜索 结果项中是否包括与所述稀缺词相关的稀缺网页,得到查询结果;若所述查询 结果为是,则保持所述首页搜索结果项不变。

可选地,若所述查询结果为是,则保持所述首页搜索结果项不变之后,还 包括:确定所述稀缺词相关的稀缺网页在所述首页搜索结果项的位置;若所述 位置在首页后半页,则将其前调。

依据本发明的另一方面,还提供了一种基于稀缺词提供搜索结果项的系 统,包括:

用户输入接口,适于接收来自用户的搜索词;

稀缺词判断器,适于判断所述搜索词中是否包含稀缺词;

搜索结果调整器,适于若判断所述搜索词中包含稀缺词,根据所述稀缺词 调整首页搜索结果项;

用户输出接口,适于将调整后的首页搜索结果项提供给用户。

可选地,所述稀缺词判断器还适于:将所述搜索词与预存的稀缺关键词进 行匹配;根据匹配的结果判断所述搜索词中是否包含稀缺词。

可选地,所述搜索结果调整器还适于:搜索包含所述稀缺词的稀缺网页; 将所述稀缺网页插入所述首页搜索结果项。

可选地,所述用户输出接口还适于:根据调整后的首页搜索结果项绘制搜 索结果页,并提供给用户。

可选地,将所述稀缺网页以卡片形式嵌入所述搜索结果页。

可选地,所述搜索结果调整器还适于:查询所述首页搜索结果项中是否包 括与所述稀缺词相关的稀缺网页,得到查询结果;若所述查询结果为是,则保 持所述首页搜索结果项不变。

可选地,若所述查询结果为是,则保持所述首页搜索结果项不变之后,所 述搜索结果调整器还适于:确定所述稀缺词相关的稀缺网页在所述首页搜索结 果项的位置;若所述位置在首页后半页,则将其前调。

依据本发明提供的技术方案,在接收到来自用户的搜索词时,判断搜索词 中是否包含稀缺词,若搜索词中包含稀缺词,则根据稀缺词调整首页搜索结果 项,并将调整后的首页搜索结果项提供给用户。由此,本发明能够灵活地调整 首页搜索结果项,使得首页搜索结果项中可以包含稀缺词的稀缺信息(例如以 稀缺网页形式出现),解决了现有的搜索引擎因稀缺信息出现次数较少等原因 导致搜索时容易被忽略,进而无法满足用户检索稀缺信息的需求的问题,从而 利用首页搜索结果项的容易被用户获取并重视其包含信息的特性为用户提供 更丰富的数据支持,以及更为准确的搜索结果,满足用户对信息的需求,提高 用户信息搜索体验。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会 更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:

图1示出了根据本发明一个实施例的基于稀缺词提供搜索结果项的方法的 流程图;

图2示出了现有技术中的首页搜索结果项的示意图;

图3示出了采用本发明的调整后的首页搜索结果项的示意图;以及

图4示出了根据本发明一个实施例的基于稀缺词提供搜索结果项的系统的 结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题,本发明实施例提供了一种基于稀缺词提供搜索结果 项的方法。图1示出了根据本发明一个实施例的基于稀缺词提供搜索结果项的 方法的流程图。参见图1,该方法至少包括步骤S102至步骤S108。

步骤S102、接收来自用户的搜索词。

步骤S104、判断搜索词中是否包含稀缺词,若是,则继续执行步骤S106; 若否,则结束本次流程。

步骤S106、根据稀缺词调整首页搜索结果项。

步骤S108、将调整后的首页搜索结果项提供给用户。

依据本发明提供的技术方案,在接收到来自用户的搜索词时,判断搜索词 中是否包含稀缺词,若搜索词中包含稀缺词,则根据稀缺词调整首页搜索结果 项,并将调整后的首页搜索结果项提供给用户。由此,本发明能够灵活地调整 首页搜索结果项,使得首页搜索结果项中可以包含稀缺词的稀缺信息(例如以 稀缺网页形式出现),解决了现有的搜索引擎因稀缺信息出现次数较少等原因 导致搜索时容易被忽略,进而无法满足用户检索稀缺信息的需求的问题,从而 利用首页搜索结果项的容易被用户获取并重视其包含信息的特性为用户提供 更丰富的数据支持,以及更为准确的搜索结果,满足用户对信息的需求,提高 用户信息搜索体验。

上文步骤S104中判断搜索词中是否包含稀缺词,本发明提供了一种优选 的方案,在该方案中,可以将搜索词与预存的稀缺关键词进行匹配,进而根据 匹配的结果判断搜索词中是否包含稀缺词。这里,预存的稀缺关键词是由搜索 引擎预先通过分词处理等手段得到的。具体地,抽取搜索引擎抓取收录的网页 的内容文本,这里,抽取网页的内容文本是指对网页中的编程语句进行过滤, 将HTML(Hypertext Markup Language,超文本标记语言)标记、脚本语言 等都去除后,剩下来代表实质内容的文本。即不仅仅是content(内容)正文, 也包含title(标题)、abstract(摘要)、author(作者)、time(时间)等内 容的文本。进而对抽取的内容文本作分词处理,生成多个分词。之后,可以通 过以下几种方式在多个分词中查找稀缺词。

方式一,对于每个分词,查找索引中包含该分词的网页的数量,进而确定 对应的网页数量小于第一数量阈值的分词,标记为稀缺词。

方式二,为了排除“假”稀缺信息,可以确定对应的网页数量小于第一数 量阈值、且大于第二数量阈值的分词,标记为稀缺词,其中,第二数量阈值小 于第一数量阈值,这里,第一数量阈值和第二数量阈值的取值可以由数据抽样 分析来决定。设定好这样的区间后,假稀缺信息就基本被排除在外了。

方式三,对于每个分词,确定包含该分词的网页的数量,进而根据确定的 数量,计算每个分词的IDF(Inverse Document Frequency,逆向文件词频) 值,随后在多个分词中查找IDF值大于指定数值阈值的分词,标记为稀缺词。

进而,由以上任意一种方式标记的稀缺词可以作为预存的稀缺关键词。这 里的稀缺关键词可以是具备实词含义、能够示意事件内容的分词。从语法的角 度进行分析,在文字类语句中,出现频率较高的分词的类型通常是不具备实词 意义的,例如常见的语气词、连词、助词、具有类型性的名称等等。语气词通 常是指对语言进行语气幅度增强类的词语,例如啊、哇、呀等等,这类词本身 没有具体含义,仅用于增加语气幅度。连词是用于连接不同的主语、谓语、宾 语等,常见的连词如和、或者、除非等等。助词通常是指谓语的辅助用词,例 如跟在动词后的地。其它具有类型性的名称,是指某一类事物的名称,但这一 类事物本身不能示意具体事件内容,无法形成区分性,例如公司、团队、协会 等等。另外,这里的事件可以是一个较大的事件概念,例如时间事件、地点事 件、人物事件、联系方式事件,等等。因稀缺关键词能够示意事件内容,因此 稀缺关键词相应的可以为时间、地点、人物、电话号码、邮箱地址等具备事件 意义的词。

在步骤S104判断搜索词中包含稀缺词后,步骤S106根据稀缺词调整首页 搜索结果项,本发明提供了一种优选的方案,即搜索包含稀缺词的稀缺网页, 并将稀缺网页插入首页搜索结果项。由此,本发明实现了灵活地给用户提供包 含稀缺词的稀缺信息。进一步地,本发明可以在预先建立的稀缺网页库中搜索 包含稀缺词的稀缺网页,可以提高搜索效率,并能够提高搜索到的稀缺信息的 质量,提高用户信息搜索体验。

在本发明的另一种优选方案中,步骤S106根据稀缺词调整首页搜索结果 项可以实施为查询首页搜索结果项中是否包括与稀缺词相关的稀缺网页,得到 查询结果,若查询结果为是,则保持首页搜索结果项不变。反之,则搜索包含 稀缺词的稀缺网页,并将稀缺网页插入首页搜索结果项。进一步地,若首页搜 索结果项中包括与稀缺词相关的稀缺网页,则保持首页搜索结果项不变,之后, 确定稀缺词相关的稀缺网页在首页搜索结果项的位置,若该位置在首页后半 页,则将其前调,实现向用户优先展示稀缺信息的目的。

进一步地,步骤S108将调整后的首页搜索结果项提供给用户可以实施为 根据调整后的首页搜索结果项绘制搜索结果页,并提供给用户。此时,可以将 稀缺网页以卡片形式嵌入搜索结果页,可以任意的关闭、打开或者调整其在搜 索结果页中的位置。

以上介绍了图1所示的实施例中各环节的多种实现方式,下面以具体实施 例对本发明实施例提供的基于稀缺词提供搜索结果项的方法做进一步说明。在 本实施例中,接收用户通过搜索框输入的搜索词“360onebox应用盒子”进行 搜索操作,图2示出了现有技术中的首页搜索结果项的示意图。而采用本发明 提供的基于稀缺词提供搜索结果项的方案,接收来自用户的搜索词“360onebox 应用盒子”,判断搜索词中包含稀缺词“应用盒子”,进而搜索包含稀缺词的 稀缺网页,并将稀缺网页插入首页搜索结果项,并提供给用户。图3示出了采 用本发明的调整后的首页搜索结果项的示意图。图3以图框的形式对稀缺网页 进行显示,在具体应用中,图框本身可以是其他形状或颜色,也可以隐藏。

基于同一发明构思,本发明实施例还提供了一种基于稀缺词提供搜索结果 项的系统,以实现上述基于稀缺词提供搜索结果项的方法。

图4示出了根据本发明一个实施例的基于稀缺词提供搜索结果项的系统的 结构示意图。参见图4,该系统至少包括:用户输入接口410、稀缺词判断器 420、搜索结果调整器430以及用户输出接口440。

现介绍本发明实施例的基于稀缺词提供搜索结果项的系统的各组成或器 件的功能以及各部分间的连接关系:

用户输入接口410,适于接收来自用户的搜索词;

稀缺词判断器420,与用户输入接口410相耦合,适于判断搜索词中是否 包含稀缺词;

搜索结果调整器430,与稀缺词判断器420相耦合,适于若判断搜索词中 包含稀缺词,根据稀缺词调整首页搜索结果项;

用户输出接口440,与搜索结果调整器430相耦合,适于将调整后的首页 搜索结果项提供给用户。

在本发明的一个实施例中,稀缺词判断器420还适于:将搜索词与预存的 稀缺关键词进行匹配,进而根据匹配的结果判断搜索词中是否包含稀缺词。这 里,预存的稀缺关键词是由搜索引擎预先通过分词处理等手段得到的。具体的 处理方式可参见前文详细介绍,此处不再赘述。

在本发明的一个实施例中,搜索结果调整器430还适于:搜索包含稀缺词 的稀缺网页,并将稀缺网页插入首页搜索结果项。由此,本发明实现了灵活地 给用户提供包含稀缺词的稀缺信息。进一步地,本发明可以在预先建立的稀缺 网页库中搜索包含稀缺词的稀缺网页,可以提高搜索效率,并能够提高搜索到 的稀缺信息的质量,提高用户信息搜索体验。

在本发明的一个实施例中,用户输出接口440还适于:根据调整后的首页 搜索结果项绘制搜索结果页,并提供给用户。

在本发明的一个实施例中,将稀缺网页以卡片形式嵌入搜索结果页。

在本发明的一个实施例中,搜索结果调整器430还适于:查询首页搜索结 果项中是否包括与稀缺词相关的稀缺网页,得到查询结果,若查询结果为是, 则保持首页搜索结果项不变。反之,则搜索包含稀缺词的稀缺网页,并将稀缺 网页插入首页搜索结果项。

在本发明的一个实施例中,若首页搜索结果项中包括与稀缺词相关的稀缺 网页,则保持首页搜索结果项不变,之后,搜索结果调整器430还适于:确定 稀缺词相关的稀缺网页在首页搜索结果项的位置,若该位置在首页后半页,则 将其前调,实现向用户优先展示稀缺信息的目的。

根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能 够达到如下有益效果:

依据本发明提供的技术方案,在接收到来自用户的搜索词时,判断搜索词 中是否包含稀缺词,若搜索词中包含稀缺词,则根据稀缺词调整首页搜索结果 项,并将调整后的首页搜索结果项提供给用户。由此,本发明能够灵活地调整 首页搜索结果项,使得首页搜索结果项中可以包含稀缺词的稀缺信息(例如以 稀缺网页形式出现),解决了现有的搜索引擎因稀缺信息出现次数较少等原因 导致搜索时容易被忽略,进而无法满足用户检索稀缺信息的需求的问题,从而 利用首页搜索结果项的容易被用户获取并重视其包含信息的特性为用户提供 更丰富的数据支持,以及更为准确的搜索结果,满足用户对信息的需求,提高 用户信息搜索体验。

本发明还公开了:

A1、一种基于稀缺词提供搜索结果项的方法,包括:

接收来自用户的搜索词,并判断所述搜索词中是否包含稀缺词;

若是,根据所述稀缺词调整首页搜索结果项;

将调整后的首页搜索结果项提供给用户。

A2、根据A1所述的方法,其中,判断所述搜索词中是否包含稀缺词,包 括:

将所述搜索词与预存的稀缺关键词进行匹配;

根据匹配的结果判断所述搜索词中是否包含稀缺词。

A3、根据A1或A2所述的方法,其中,根据所述稀缺词调整首页搜索结 果项,包括:

搜索包含所述稀缺词的稀缺网页;

将所述稀缺网页插入所述首页搜索结果项。

A4、根据A1-A3任一项所述的方法,其中,将调整后的首页搜索结果项 提供给用户,包括:

根据调整后的首页搜索结果项绘制搜索结果页,并提供给用户。

A5、根据A1-A4任一项所述的方法,其中,将所述稀缺网页以卡片形式 嵌入所述搜索结果页。

A6、根据A1-A5任一项所述的方法,其中,根据所述稀缺词调整首页搜 索结果项,包括:

查询所述首页搜索结果项中是否包括与所述稀缺词相关的稀缺网页,得到 查询结果;

若所述查询结果为是,则保持所述首页搜索结果项不变。

A7、根据A1-A6任一项所述的方法,其中,若所述查询结果为是,则保 持所述首页搜索结果项不变之后,还包括:

确定所述稀缺词相关的稀缺网页在所述首页搜索结果项的位置;

若所述位置在首页后半页,则将其前调。

B8、一种基于稀缺词提供搜索结果项的系统,包括:

用户输入接口,适于接收来自用户的搜索词;

稀缺词判断器,适于判断所述搜索词中是否包含稀缺词;

搜索结果调整器,适于若判断所述搜索词中包含稀缺词,根据所述稀缺词 调整首页搜索结果项;

用户输出接口,适于将调整后的首页搜索结果项提供给用户。

B9、根据B8所述的系统,其中,所述稀缺词判断器还适于:

将所述搜索词与预存的稀缺关键词进行匹配;

根据匹配的结果判断所述搜索词中是否包含稀缺词。

B10、根据B8或B9所述的系统,其中,所述搜索结果调整器还适于:

搜索包含所述稀缺词的稀缺网页;

将所述稀缺网页插入所述首页搜索结果项。

B11、根据B8-B10任一项所述的系统,其中,所述用户输出接口还适于:

根据调整后的首页搜索结果项绘制搜索结果页,并提供给用户。

B12、根据B8-B11任一项所述的系统,其中,将所述稀缺网页以卡片形式 嵌入所述搜索结果页。

B13、根据B8-B12任一项所述的系统,其中,所述搜索结果调整器还适于:

查询所述首页搜索结果项中是否包括与所述稀缺词相关的稀缺网页,得到 查询结果;

若所述查询结果为是,则保持所述首页搜索结果项不变。

B14、根据B8-B13任一项所述的系统,其中,若所述查询结果为是,则保 持所述首页搜索结果项不变之后,所述搜索结果调整器还适于:

确定所述稀缺词相关的稀缺网页在所述首页搜索结果项的位置;

若所述位置在首页后半页,则将其前调。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细 示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或 多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一 起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法 解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确 记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发 明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式 的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为 本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适 应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实 施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它 们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的 至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要 求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有 过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、 摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征 来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它 实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中, 所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器 上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解, 可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实 施例的基于稀缺词提供搜索结果项的系统中的一些或者全部部件的一些或者 全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部 的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本 发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的 形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或 者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并 且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施 例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的 限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之 前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包 括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干 装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体 体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解 释为名称。

至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的 多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本 发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因 此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号