公开/公告号CN113836396A
专利类型发明专利
公开/公告日2021-12-24
原文格式PDF
申请/专利权人 深圳市世强元件网络有限公司;
申请/专利号CN202111017223.5
发明设计人 包伟;
申请日2021-08-31
分类号G06F16/9535(20190101);G06F40/289(20200101);G06F40/30(20200101);
代理机构44314 深圳市瑞方达知识产权事务所(普通合伙);
代理人郭方伟
地址 518000 广东省深圳市龙岗区坂田街道雪岗路2018号天安云谷产业园一期3栋A座2401、2402单元
入库时间 2023-06-19 13:49:36
技术领域
本发明涉及行业搜索技术领域,尤其涉及一种行业搜索领域收窄检索的方法及系统。
背景技术
在常规搜索引擎技术中,许多用户认为输入的条件越多就越精确,搜索得到的内容就会越少,但实际上常规搜索引擎输入的内容越多,检索面就越宽泛,搜索得到的内容就越多。虽然常规搜索引擎会根据词频相关度排序内容,但在某些行业,词频不是决定排序的主要因素,所以对于某些特定行业的检索,收窄逻辑显的格外重要。
发明内容
本发明要解决的技术问题在于,针对现有技术存在的至少一个缺陷,提供一种。
本发明解决其技术问题所采用的技术方案是:构造一种行业搜索领域收窄检索的方法,包括以下步骤:
S1:接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及所述搜索词所属的词性;
S2:根据所述搜索词所属的词性来确定检索维度;
S3:根据所述搜索词的词元在对应的检索维度中进行收窄检索。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1之前还包括:
S0:预先建立一行业中至少一垂直领域下的多个不同词性的词库。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,各所述词库中分别记载有其词性下的多个关键词,且各所述词库间的关键词互不相同。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1中,根据多个不同词性的词库进行分词,包括:
根据多个不同词性的词库中的关键词来对所述搜索内容进行切割。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S1还包括:
判断所述搜索词所属的词性个数是否大于或等于两个,若是,则将所述搜索词作为普通词。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述方法还包括:
S4:对分词后剩下的搜索内容按自然语义进行分词,获得普通词;
S5:根据所述普通词的词元在多个检索维度中进行扩宽检索。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S3和所述步骤S5之前,还包括:
对所述搜索词进行加权重,对所述普通词进行降权重。
优选地,在本发明所述的行业搜索领域收窄检索的方法中,所述步骤S4还包括:对分词后剩下的搜索内容中的助词和/或代词进行过滤。
本发明还构造了一种行业搜索领域收窄检索的系统,包括:
接收模块,用于接收用户输入的搜索内容;
分词模块,用于根据多个不同词性的词库进行分词,获得搜索词以及所述搜索词所属的词性;
维度确定模块,用于根据所述搜索词所属的词性来确定检索维度;
收窄检索模块,用于根据所述搜索词的词元在对应的检索维度中进行收窄检索。
优选地,在本发明所述的行业搜索领域收窄检索的系统中,还包括:
建立模块,用于预先建立一行业中至少一垂直领域下的多个不同词性的词库。
通过实施本发明,具有以下有益效果:
本发明通过接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性,然后根据搜索词所属的词性来确定检索维度,最后根据搜索词的词元在对应的检索维度中进行收窄检索,从而在某一特定行业搜索领域中,即使搜索内容越多,也能精确识别用户意图,缩小搜索范围。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明行业搜索领域收窄检索的方法流程示意图一;
图2是本发明行业搜索领域收窄检索的方法流程示意图二;
图3是本发明行业搜索领域收窄检索的方法流程示意图三;
图4是本发明行业搜索领域收窄检索的系统示意图一;
图5是本发明行业搜索领域收窄检索的系统示意图二;
图6是本发明行业搜索领域收窄检索的系统示意图三。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
需要说明的是,附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本发明为避免搜索出来的内容过于宽泛,需要做检索范围收窄处理,输入的检索词越多,要求符合的检索条件就越多,搜索出来的内容就越少。因此,如图1所示,本发明公开了一种行业搜索领域收窄检索的方法,包括以下步骤:
步骤S1:接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性;
步骤S2:根据搜索词所属的词性来确定检索维度;
步骤S3:根据搜索词的词元在对应的检索维度中进行收窄检索。
具体地,在本实施例中,如图2所示,骤S1之前还包括:
步骤S0:预先建立一行业中至少一垂直领域下的多个不同词性的词库。其中,垂直领域为在行业领域下,垂直细分出来的领域。
进一步地,各词库中分别记载有其词性下的多个关键词,且各词库间的关键词互不相同,如存在一个关键词落在多个不同的词库中,则该关键词已失去了范围约束的能力。例如:epson-厂牌词,张三-客户姓名,世强元件网络-企业名,159********-手机号等,其中,epson、张三、世强元件网络和159********均为关键词,而厂牌词为厂牌词性的词库,客户姓名为姓名词性的词库,企业名为企业词性的词库,手机号为手机号词性的词库。
相应地,步骤S1中,根据多个不同词性的词库进行分词,包括:根据多个不同词性的词库中的关键词来对搜索内容进行切割。例如,用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,根据多个不同词性的词库中的关键词来对搜索内容进行切割,可以识别到与关键词对应的搜索词为世强元件网络、张三、epson以及159********,以及得出该搜索词所属的词库,即该搜索词所属的词性,例如世强元件网络的词性为企业名,张三的词性为客户姓名,epson的词性为厂牌词,159********的词性为手机号。
在本实施例中,为了避免搜索词失去约束范围的能力,该步骤S1还包括:判断搜索词所属的词性个数是否大于或等于两个,若是,则将搜索词作为普通词。具体地,同上所述的原理一致,如存在一个搜索词落在多个不同的词库中,则该搜索词已失去了范围约束的能力,则作为搜索条件中的普通词,普通词需要在多个检索维度中进行扩宽检索。
在本实施例中,在上述任一方案吗基础上,如图3所示,本方法还包括:
步骤S4:对分词后剩下的搜索内容按自然语义进行分词,获得普通词;
步骤S5:根据普通词的词元在多个检索维度中进行扩宽检索。
具体地,同样用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,对分词后剩下的搜索内容,例如词库未识别的搜索内容“有限公司产品联系方式”等按自然语义进行分词,得到普通词“有限公司、”“产品”和“联系方式”,进而在多个检索维度中进行扩宽检索。因此,一般最终得到的检索条件为“厂牌为A且客户名称为B且企业名为C且其它任一属性为D”,该其他任一属性D就是获得的普通词。
在一些实施例中,为了避免检索条件中存在无意义的词,步骤S4还包括:对分词后剩下的搜索内容中的助词和/或代词进行过滤,例如对搜索内容中的你、我、他、吗、呢等进行过滤。
在本实施例中,普通词可能会带来数据泛化,因此为了进一步严格收窄逻辑,步骤S3和步骤S5之前,还包括:对搜索词进行加权重,对普通词进行降权重。
如图4所示,本发明还公开了一种行业搜索领域收窄检索的系统,包括:
接收模块,用于接收用户输入的搜索内容;
分词模块,用于根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性;
维度确定模块,用于根据搜索词所属的词性来确定检索维度;
收窄检索模块,用于根据搜索词的词元在对应的检索维度中进行收窄检索。
具体地,在本实施例中,如图5所示,本系统还包括:建立模块,用于预先建立一行业中至少一垂直领域下的多个不同词性的词库。其中,垂直领域为在行业领域下,垂直细分出来的领域。
进一步地,各词库中分别记载有其词性下的多个关键词,且各词库间的关键词互不相同,如存在一个关键词落在多个不同的词库中,则该关键词已失去了范围约束的能力。例如:epson-厂牌词,张三-客户姓名,世强元件网络-企业名,159********-手机号等,其中,epson、张三、世强元件网络和159********均为关键词,而厂牌词为厂牌词性的词库,客户姓名为姓名词性的词库,企业名为企业词性的词库,手机号为手机号词性的词库。
相应地,分词模块中,根据多个不同词性的词库进行分词,包括:根据多个不同词性的词库中的关键词来对搜索内容进行切割。例如,用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,根据多个不同词性的词库中的关键词来对搜索内容进行切割,可以识别到与关键词对应的搜索词为世强元件网络、张三、epson以及159********,以及得出该搜索词所属的词库,即该搜索词所属的词性,例如世强元件网络的词性为企业名,张三的词性为客户姓名,epson的词性为厂牌词,159********的词性为手机号。
在本实施例中,为了避免搜索词失去约束范围的能力,本系统还包括:判断模块,用于判断搜索词所属的词性个数是否大于或等于两个,若是,则将搜索词作为普通词。具体地,同上所述的原理一致,如存在一个搜索词落在多个不同的词库中,则该搜索词已失去了范围约束的能力,则作为搜索条件中的普通词,普通词需要在多个检索维度中进行扩宽检索。
在本实施例中,在上述任一方案吗基础上,如图6所示,本系统还包括:
自然语义模块,用于对分词后剩下的搜索内容按自然语义进行分词,获得普通词;
扩宽检索模块,用于根据普通词的词元在多个检索维度中进行扩宽检索。
具体地,同样用户输入“世强元件网络有限公司的张三负责epson产品线,联系方式为159********”,对分词后剩下的搜索内容,例如词库未识别的搜索内容“有限公司产品联系方式”等按自然语义进行分词,得到普通词“有限公司、”“产品”和“联系方式”,进而在多个检索维度中进行扩宽检索。因此,一般最终得到的检索条件为“厂牌为A且客户名称为B且企业名为C且其它任一属性为D”,该其他任一属性D就是获得的普通词。
在一些实施例中,为了避免检索条件中存在无意义的词,本系统还包括:过滤模块,用于对分词后剩下的搜索内容中的助词和/或代词进行过滤,例如对搜索内容中的你、我、他、吗、呢等进行过滤。
在本实施例中,普通词可能会带来数据泛化,因此为了进一步严格收窄逻辑,本系统还包括:权重模块,用于对搜索词进行加权重,对普通词进行降权重。在运行收窄检索模块和扩宽检索模块之前,运行该模块。
通过实施本发明,具有以下有益效果:
本发明通过接收用户输入的搜索内容,根据多个不同词性的词库进行分词,获得搜索词以及搜索词所属的词性,然后根据搜索词所属的词性来确定检索维度,最后根据搜索词的词元在对应的检索维度中进行收窄检索,从而在某一特定行业搜索领域中,即使搜索内容越多,也能精确识别用户意图,缩小搜索范围。
可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。
机译: 电子临床移交综合医学教育(eCHIME)。一种将个案信息从电子临床移交软件链接到相关测验问题的新颖方法,从而为工作场所的学习,教育和员工发展提供了补充。 eCHIME是一种双重搜索工具,它基于卫生行业中许多部门的现有数据。各个站点和临床学科可以通过向个人设备交付上下文量身定做的问题来定制适合自己领域的问题。
机译: 至少一种或多种烯烃的聚合方法,以及收窄包含至少一种或多种烯烃的聚合物的分子量分布的方法。共聚物和乙烯-1-己烯,乙烯和具有碳和3至16个碳原子的乙烯和至少一种或多种具有5至16个碳原子的烯烃,膜和制品
机译: 自动化的用户友好型点击搜索系统和方法,可帮助国外的企业和行业使用首选分类法来制定查询以在计算机网络上进行搜索,以及查找有关每个行业组中产品和服务的相关行业信息以及提供媒体的方式合格的工业销售线索