首页> 中国专利> 一种行业搜索领域收窄检索的方法及系统

一种行业搜索领域收窄检索的方法及系统

摘要

本发明公开了一种行业搜索领域收窄检索的方法及系统,本方法通过接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性,然后根据搜索词所属的词性来确定检索维度,最后根据搜索词的词元在对应的检索维度中进行收窄检索,从而在某一特定行业搜索领域中,即使搜索内容越多,也能精确识别用户意图,缩小搜索范围。

著录项

  • 公开/公告号CN113836396A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 深圳市世强元件网络有限公司;

    申请/专利号CN202111017223.5

  • 发明设计人 包伟;

    申请日2021-08-31

  • 分类号G06F16/9535(20190101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构44314 深圳市瑞方达知识产权事务所(普通合伙);

  • 代理人郭方伟

  • 地址 518000 广东省深圳市龙岗区坂田街道雪岗路2018号天安云谷产业园一期3栋A座2401、2402单元

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及行业搜索技术领域,尤其涉及一种行业搜索领域收窄检索的方法及系统。

背景技术

在常规搜索引擎技术中,许多用户认为输入的条件越多就越精确,搜索得到的内容就会越少,但实际上常规搜索引擎输入的内容越多,检索面就越宽泛,搜索得到的内容就越多。虽然常规搜索引擎会根据词频相关度排序内容,但在某些行业,词频不是决定排序的主要因素,所以对于某些特定行业的检索,收窄逻辑显的格外重要。

发明内容

本发明要解决的技术问题在于,针对现有技术存在的至少一个缺陷,提供一种。

本发明解决其技术问题所采用的技术方案是:构造一种行业搜索领域收窄检索的方法,包括以下步骤:

S1:接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及所述搜索词所属的词性;

S2:根据所述搜索词所属的词性来确定检索维度;

S3:根据所述搜索词的词元在对应的检索维度中进行收窄检索。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1之前还包括:

S0:预先建立一行业中至少一垂直领域下的多个不同词性的词库。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,各所述词库中分别记载有其词性下的多个关键词,且各所述词库间的关键词互不相同。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1中,根据多个不同词性的词库进行分词,包括:

根据多个不同词性的词库中的关键词来对所述搜索内容进行切割。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1还包括:

判断所述搜索词所属的词性个数是否大于或等于两个,若是,则将所述搜索词作为普通词。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述方法还包括:

S4:对分词后剩下的搜索内容按自然语义进行分词,获得普通词;

S5:根据所述普通词的词元在多个检索维度中进行扩宽检索。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S3和所述步骤S5之前,还包括:

对所述搜索词进行加权重,对所述普通词进行降权重。

优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S4还包括:对分词后剩下的搜索内容中的助词和/或代词进行过滤。

本发明还构造了一种行业搜索领域收窄检索的系统,包括:

接收模块,用于接收用户输入的搜索内容;

分词模块,用于根据多个不同词性的词库进行分词,获得搜索词以及所述搜索词所属的词性;

维度确定模块,用于根据所述搜索词所属的词性来确定检索维度;

收窄检索模块,用于根据所述搜索词的词元在对应的检索维度中进行收窄检索。

优选地,在本发明所述的行业搜索领域收窄检索的系统中,还包括:

建立模块,用于预先建立一行业中至少一垂直领域下的多个不同词性的词库。

通过实施本发明,具有以下有益效果:

本发明通过接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性,然后根据搜索词所属的词性来确定检索维度,最后根据搜索词的词元在对应的检索维度中进行收窄检索,从而在某一特定行业搜索领域中,即使搜索内容越多,也能精确识别用户意图,缩小搜索范围。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明行业搜索领域收窄检索的方法流程示意图一;

图2是本发明行业搜索领域收窄检索的方法流程示意图二;

图3是本发明行业搜索领域收窄检索的方法流程示意图三;

图4是本发明行业搜索领域收窄检索的系统示意图一;

图5是本发明行业搜索领域收窄检索的系统示意图二;

图6是本发明行业搜索领域收窄检索的系统示意图三。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

需要说明的是,附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本发明为避免搜索出来的内容过于宽泛,需要做检索范围收窄处理,输入的检索词越多,要求符合的检索条件就越多,搜索出来的内容就越少。因此,如图1所示,本发明公开了一种行业搜索领域收窄检索的方法,包括以下步骤:

步骤S1:接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性;

步骤S2:根据搜索词所属的词性来确定检索维度;

步骤S3:根据搜索词的词元在对应的检索维度中进行收窄检索。

具体地,在本实施例中,如图2所示,骤S1之前还包括:

步骤S0:预先建立一行业中至少一垂直领域下的多个不同词性的词库。其中,垂直领域为在行业领域下,垂直细分出来的领域。

进一步地,各词库中分别记载有其词性下的多个关键词,且各词库间的关键词互不相同,如存在一个关键词落在多个不同的词库中,则该关键词已失去了范围约束的能力。例如:epson-厂牌词,张三-客户姓名,世强元件网络-企业名,159********-手机号等,其中,epson、张三、世强元件网络和159********均为关键词,而厂牌词为厂牌词性的词库,客户姓名为姓名词性的词库,企业名为企业词性的词库,手机号为手机号词性的词库。

相应地,步骤S1中,根据多个不同词性的词库进行分词,包括:根据多个不同词性的词库中的关键词来对搜索内容进行切割。例如,用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,根据多个不同词性的词库中的关键词来对搜索内容进行切割,可以识别到与关键词对应的搜索词为世强元件网络、张三、epson以及159********,以及得出该搜索词所属的词库,即该搜索词所属的词性,例如世强元件网络的词性为企业名,张三的词性为客户姓名,epson的词性为厂牌词,159********的词性为手机号。

在本实施例中,为了避免搜索词失去约束范围的能力,该步骤S1还包括:判断搜索词所属的词性个数是否大于或等于两个,若是,则将搜索词作为普通词。具体地,同上所述的原理一致,如存在一个搜索词落在多个不同的词库中,则该搜索词已失去了范围约束的能力,则作为搜索条件中的普通词,普通词需要在多个检索维度中进行扩宽检索。

在本实施例中,在上述任一方案吗基础上,如图3所示,本方法还包括:

步骤S4:对分词后剩下的搜索内容按自然语义进行分词,获得普通词;

步骤S5:根据普通词的词元在多个检索维度中进行扩宽检索。

具体地,同样用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,对分词后剩下的搜索内容,例如词库未识别的搜索内容“有限公司产品联系方式”等按自然语义进行分词,得到普通词“有限公司、”“产品”和“联系方式”,进而在多个检索维度中进行扩宽检索。因此,一般最终得到的检索条件为“厂牌为A且客户名称为B且企业名为C且其它任一属性为D”,该其他任一属性D就是获得的普通词。

在一些实施例中,为了避免检索条件中存在无意义的词,步骤S4还包括:对分词后剩下的搜索内容中的助词和/或代词进行过滤,例如对搜索内容中的你、我、他、吗、呢等进行过滤。

在本实施例中,普通词可能会带来数据泛化,因此为了进一步严格收窄逻辑,步骤S3和步骤S5之前,还包括:对搜索词进行加权重,对普通词进行降权重。

如图4所示,本发明还公开了一种行业搜索领域收窄检索的系统,包括:

接收模块,用于接收用户输入的搜索内容;

分词模块,用于根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性;

维度确定模块,用于根据搜索词所属的词性来确定检索维度;

收窄检索模块,用于根据搜索词的词元在对应的检索维度中进行收窄检索。

具体地,在本实施例中,如图5所示,本系统还包括:建立模块,用于预先建立一行业中至少一垂直领域下的多个不同词性的词库。其中,垂直领域为在行业领域下,垂直细分出来的领域。

进一步地,各词库中分别记载有其词性下的多个关键词,且各词库间的关键词互不相同,如存在一个关键词落在多个不同的词库中,则该关键词已失去了范围约束的能力。例如:epson-厂牌词,张三-客户姓名,世强元件网络-企业名,159********-手机号等,其中,epson、张三、世强元件网络和159********均为关键词,而厂牌词为厂牌词性的词库,客户姓名为姓名词性的词库,企业名为企业词性的词库,手机号为手机号词性的词库。

相应地,分词模块中,根据多个不同词性的词库进行分词,包括:根据多个不同词性的词库中的关键词来对搜索内容进行切割。例如,用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,根据多个不同词性的词库中的关键词来对搜索内容进行切割,可以识别到与关键词对应的搜索词为世强元件网络、张三、epson以及159********,以及得出该搜索词所属的词库,即该搜索词所属的词性,例如世强元件网络的词性为企业名,张三的词性为客户姓名,epson的词性为厂牌词,159********的词性为手机号。

在本实施例中,为了避免搜索词失去约束范围的能力,本系统还包括:判断模块,用于判断搜索词所属的词性个数是否大于或等于两个,若是,则将搜索词作为普通词。具体地,同上所述的原理一致,如存在一个搜索词落在多个不同的词库中,则该搜索词已失去了范围约束的能力,则作为搜索条件中的普通词,普通词需要在多个检索维度中进行扩宽检索。

在本实施例中,在上述任一方案吗基础上,如图6所示,本系统还包括:

自然语义模块,用于对分词后剩下的搜索内容按自然语义进行分词,获得普通词;

扩宽检索模块,用于根据普通词的词元在多个检索维度中进行扩宽检索。

具体地,同样用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,对分词后剩下的搜索内容,例如词库未识别的搜索内容“有限公司产品联系方式”等按自然语义进行分词,得到普通词“有限公司、”“产品”和“联系方式”,进而在多个检索维度中进行扩宽检索。因此,一般最终得到的检索条件为“厂牌为A且客户名称为B且企业名为C且其它任一属性为D”,该其他任一属性D就是获得的普通词。

在一些实施例中,为了避免检索条件中存在无意义的词,本系统还包括:过滤模块,用于对分词后剩下的搜索内容中的助词和/或代词进行过滤,例如对搜索内容中的你、我、他、吗、呢等进行过滤。

在本实施例中,普通词可能会带来数据泛化,因此为了进一步严格收窄逻辑,本系统还包括:权重模块,用于对搜索词进行加权重,对普通词进行降权重。在运行收窄检索模块和扩宽检索模块之前,运行该模块。

通过实施本发明,具有以下有益效果:

本发明通过接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性,然后根据搜索词所属的词性来确定检索维度,最后根据搜索词的词元在对应的检索维度中进行收窄检索,从而在某一特定行业搜索领域中,即使搜索内容越多,也能精确识别用户意图,缩小搜索范围。

可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号