首页> 中国专利> 企业案例检索方法、装置、设备和存储介质

企业案例检索方法、装置、设备和存储介质

摘要

本申请公开了一种企业案例检索方法、装置、设备和存储介质。方法包括:接收检索词;基于所述检索词在预先设置的企业案例向量池中采用算法BM25进行检索得到企业案例的第一召回结果排序;计算检索词向量与所述向量池中的每一个向量的余弦距离;根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序得到第二召回结果排序;将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的排序列表。本申请解决了现有技术检索效果不理想的技术问题。

著录项

  • 公开/公告号CN112685452A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 特赞(上海)信息科技有限公司;

    申请/专利号CN202011643928.3

  • 发明设计人 范凌;

    申请日2020-12-31

  • 分类号G06F16/2455(20190101);G06F16/28(20190101);G06N20/00(20190101);

  • 代理机构11541 北京知果之信知识产权代理有限公司;

  • 代理人卜荣丽

  • 地址 201203 上海市浦东新区中国(上海)自由贸易试验区春晓路109弄100号1号楼1202室

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种企业案例检索方法、装 置、设备和存储介质。

背景技术

目前创意营销领域的检索系统,大多使用算法BM25进行检索。使用 概率统计的方式衡量检索词与文档之间的相关性,主要计算检索词在文档 中出现的频次以及文档长度等特征。但是实际检索得到的结果中,会有相 当一部分检索结果的案例与检索词其实并不相关,导致检索的效果并不理 想。

发明内容

本申请的主要目的在于提供一种企业案例检索方法、装置、设备和存 储介质,以解决上述问题。

为了实现上述目的,根据本申请的一个方面,提供了一种企业案例检索 方法,包括:

接收检索词;

基于所述检索词采用BM25算法进行检索得到企业案例的第一召回结果 排序;

将所述检索词通过案例检索模型生成对应的检索词向量;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的 排序列表。

进一步的,接收检索词之前,所述方法还包括:

构建营销领域的知识图谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

进一步的,相关数据包括行为数据和检索数据;

采集用户检索所述案例的行为数据,包括:

获取用户对所述案例的行为数据;以及所述案例在召回列表的排序位置; 所述行为数据包含用户对检索结果的点击、收藏和分享;

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

进一步的,对于任意的一个案例,计算相关性包括:

统计点击的时间;

计算距离当前的时间的差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。

进一步的,所述方法还包括:

获取待识别的目标案例文本;

将所述待识别的目标案例文本输入到预先训练的案例多任务学习模型,得 到所述待识别的目标案例文本的分类信息;

所述分类信息包括:所述待识别的目标案例文本的行业、所述待识别的目 标案例文本的品牌、所述待识别的目标案例文本的风格、所述待识别的目标案 例文本的类型。

进一步的,构建营销领域的知识图谱,包括:

基于案例样本库,按照预定的实体和实体之间的关系构建知识图谱;

其中,实体包括:项目实体、公司实体、案例实体、品牌实体、设计方实 体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含于品牌;

品牌实体与项目实体的关系为:品牌创建项目。

进一步的,对所述知识图谱的实体进行融合得到优化后的知识图谱,具体 包括:

对于任意一个公司实体和品牌实体,使用命名体识别技术识别出所述公司 实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

为了实现上述目的,根据本申请的另一方面,提供了一种企业案例检索 装置,包括:

接收模块,用于接收检索词;

处理模块,用于基于所述检索词采用BM25算法进行检索得到企业案例的 第一召回结果排序;

将所述检索词通过案例检索模型生成对应的检索词向量;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的 排序列表。

进一步的,处理模块还用于:

构建营销领域的知识图谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

进一步的,相关数据包括行为数据和检索数据;

处理模块还用于:

获取用户对所述案例的行为数据;以及所述案例在召回列表的排序位置; 所述行为数据包含用户对检索结果的点击、收藏和分享;

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

处理模块还用于:

对于任意的一个案例,计算相关性包括:

统计点击的时间;

计算距离当前的时间的差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。

处理模块还用于:

获取待识别的目标案例文本;

将所述待识别的目标案例文本输入到预先训练的案例多任务学习模型,得 到所述待识别的目标案例文本的分类信息;

所述分类信息包括:所述待识别的目标案例文本的行业、所述待识别的目 标案例文本的品牌、所述待识别的目标案例文本的风格、所述待识别的目标案 例文本的类型。

处理模块还用于:

基于案例样本库,按照预定的实体和实体之间的关系构建知识图谱;

其中,实体包括:项目实体、公司实体、案例实体、品牌实体、设计方实 体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含于品牌;

品牌实体与项目实体的关系为:品牌创建项目。

处理模块还用于:

对于任意一个公司实体和品牌实体,使用命名体识别技术识别出所述公司 实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

第三方面,本申请还提出了一种企业案例检索设备,包括:至少一个处理 器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器, 用于运行一个或多个程序指令,用以执行以下的步骤:

接收检索词;

基于所述检索词采用BM25算法进行检索得到企业案例的第一召回结果 排序;

将所述检索词通过案例检索模型生成对应的检索词向量;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的 排序列表。

进一步的,所述处理器还用于:接收检索词之前,构建营销领域的知识图 谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

进一步的,相关数据包括行为数据和检索数据;所述处理器还用于:获取 用户对所述案例的行为数据;以及所述案例在召回列表的排序位置;所述行为 数据包含用户对检索结果的点击、收藏和分享;

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

进一步的,所述处理器还用于:对于任意的一个案例,

统计点击的时间;

计算距离当前的时间的差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。

进一步的,所述处理器还用于:获取待识别的目标案例文本;

将所述待识别的目标案例文本输入到预先训练的案例多任务学习模型,得 到所述待识别的目标案例文本的分类信息;

所述分类信息包括:所述待识别的目标案例文本的行业、所述待识别的目 标案例文本的品牌、所述待识别的目标案例文本的风格、所述待识别的目标案 例文本的类型。

进一步的,所述处理器还用于:

基于案例样本库,按照预定的实体和实体之间的关系构建知识图谱;

其中,实体包括:项目实体、公司实体、案例实体、品牌实体、设计方实 体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含于品牌;

品牌实体与项目实体的关系为:品牌创建项目。

进一步的,所述处理器还用于:对于任意一个公司实体和品牌实体,使用 命名体识别技术识别出所述公司实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

第四方面,本申请还提出了一种计算机可读存储介质,计算机可读存储介 质中包含一个或多个程序指令,所述一个或多个程序指令用于执行以下的步 骤:

接收检索词;

基于所述检索词采用BM25算法进行检索得到企业案例的第一召回结果 排序;

将所述检索词通过案例检索模型生成对应的检索词向量;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的 排序列表。

进一步的,接收检索词之前,所述方法还包括:

构建营销领域的知识图谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

进一步的,相关数据包括行为数据和检索数据;

采集用户检索所述案例的行为数据,包括:

获取用户对所述案例的行为数据;以及所述案例在召回列表的排序位置; 所述行为数据包含用户对检索结果的点击、收藏和分享;

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

进一步的,对于任意的一个案例,计算相关性包括:

统计点击的时间;

计算距离当前的时间的差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。

进一步的,所述方法还包括:

获取待识别的目标案例文本;

将所述待识别的目标案例文本输入到预先训练的案例多任务学习模型,得 到所述待识别的目标案例文本的分类信息;

所述分类信息包括:所述待识别的目标案例文本的行业、所述待识别的目 标案例文本的品牌、所述待识别的目标案例文本的风格、所述待识别的目标案 例文本的类型。

进一步的,构建营销领域的知识图谱,包括:

基于案例样本库,按照预定的实体和实体之间的关系构建知识图谱;

其中,实体包括:项目实体、公司实体、案例实体、品牌实体、设计方实 体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含于品牌;

品牌实体与项目实体的关系为:品牌创建项目。

进一步的,对所述知识图谱的实体进行融合得到优化后的知识图谱,具体 包括:

对于任意一个公司实体和品牌实体,使用命名体识别技术识别出所述公司 实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

在本申请实施例中,通过检索词,将所述检索词通过案例检索模型生成 对应的检索词向量;从向量池中的每个向量对应的企业案例样本进行排序得到 第二召回结果排序;最终将现有方法的第一召回结果排序和第二召回结果排序 进行综合排序,得到企业案例的排序列表。从而提高了检索的效果,使得用户 获得更多的与检索词相关的案例。进而解决了现有技术中检索案例时,检索 效果不高技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本 申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及 其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种案例的示意图;

图2是根据本申请实施例的一种企业案例检索方法的流程图;

图3是根据本申请实施例的一种案例排序示意图;

图4是根据本申请实施例的另一种案例排序示意图;

图5是根据本申请实施例的另一种案例排序示意图;

图6是根据本申请实施例的一种案例多任务学习模型的结构示意图;

图7是根据本申请实施例的一种知识图谱的示意图;

图8是根据本申请实施例的一种架构示意图;

图9是根据本申请实施例的一种闭环的机制示意图;

图10是根据本申请实施例的一种案例检索装置的结构示意图;

图11是根据本申请实施例的一种案例检索设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施 例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申 请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本申请保护的范围。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征 可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了方便理解,下面对本发明实施例中涉及的名词进行解释。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。

词向量:词向量就是用来将自然语言中的词进行数学化的一种方式。通过 训练将某种语言中的每一个词映射成一个固定长度的短向量,将所有这些向量 放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空 间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上 的)相似性。如将“善良的”,“慈祥的”两词映射到300维度的向量上去,分别 记为vector1,vector2。就可以通过算内积来确定其相似性,给出一个具体的 度量数值。

句向量:类似于词向量,将句子转化成句向量。

知识图谱:又称为科学知识图谱,在图书情报界称为知识域可视化或知识 领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。用 于通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知 识及它们之间的相互联系。知识图谱本质上是一种语义网络。其结点代表实体 (entity)或者概念(concept),边代表实体/概念之间的各种语义关系。其中,知识 图谱通常采用三元组结构进行表示,即实体-关系-实体。

例如:鲁迅(实体)-夫妻(关系类型)-许广平(实体)。

创意营销领域中,公司业务人员在为客户设计案例的过程中,经常需 要进行检索,比如检索相同风格的案例,相同类型的案例,从而有助于公 司业务人员进行设计参考。参见附图1所示的一种案例示意图;案例包括图 片区域;文字区域;文字区域中一般包括:服务品牌、行业领域、创意类型; 创意类型包括:插画、漫画、表情包。风格为中国风。但是采用现有技术中检 索方法,检索的结果并不理想。比如,输入检索词比亚迪,弹出的案例中前几 个是比亚迪的案例,后几个都是与比亚迪不相关的案例,对于公司业务人员没 有帮助。

基于此,本申请提出了一种企业案例检索方法,参见附图2所示的一种企 业案例检索方法的流程图;该方法包括:

步骤S101,接收检索词;

示例性的,用户在客户端的界面上搜索检索词,比如用户想要获得比亚迪 的相关的案例,则在搜索界面上输入“比亚迪”。

步骤S102,基于所述检索词采用BM25算法进行检索得到企业案例的第 一召回结果排序;

其中,BM25算法为现有技术,基于概率检索模型提出的算法,用来评价 搜索词和文档之间相关性。

参见附图3所示的一种采用现有技术检索案例时的案例排序示意图;案例 1到案例6分别是比亚迪相关的广告案例;顺序是按照搜索结果的与检索词的 相关度的从大到小的顺序排列的。

案例1与检索词的相关度为0.9;案例2与检索词的相关度为0.81;案例 3与检索词的相关度为0.7;案例4与检索词的相关度为0.6;案例5与检索词 的相关度为0.5;案例6与检索词的相关度为0.4。因为案例5、6的相关度比 较低,所以,案例5、6很有可能不是比亚迪的案例,所以现有技术中的检索 能力并不强。

其中,企业案例向量池是将现有的网络上的每一家企业案例进行向量化并 存储在ES中。包括用户所拥有的客户企业的案例以及用户从网上能够搜索到 的企业案例。

步骤S103,将所述检索词通过案例检索模型生成对应的检索词向量;

示例性的,用户输入的检索词为“比亚迪”;案例检索模型将“比亚迪”进行 向量化后为“w1,w2,w3,w4,w5…wm”;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

其中,向量池中的向量为企业案例样本进行转换之后的向量。企业案例样 本为用户自己存储的企业的宣传案例,和网上能搜索到的企业案例。应该尽可 能多准备一些案例。案例样本越是多,检索的结果就越精确。

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

具体的,向量余弦距离计算公式为:

示例性的,参见附图4所示的另一种案例排序示意图;其中,

案例7,相关度为0.95;案例8,相关度为0.93;案例9,相关度为0.91;

案例10,相关度为0.85;案例11,相关度为0.82;案例12,相关度为0.80。

步骤S104,将第一召回结果排序和第二召回结果排序进行综合排序,得 到企业案例的排序列表。

示例性的,参见附图5所示的另一种案例综合排序示意图;其中,

案例7,相关度为0.95;案例8,相关度为0.93;案例9,相关度为0.91;

案例10,相关度为0.85;案例11,相关度为0.82;案例2,相关度为0.81。

省略掉了相关度比较低的几个案例:案例12,相关度为0.80;案例3,相 关度为0.7;案例4,相关度为0.6;案例5,相关度为0.5;案例6,相关度为 0.4。从而提高了案例检索的精确度。值得强调的是,当几个案例的相关度相 同时,也可以并列显示。

本发明的上述的方法,通过将现有技术获取到的第一召回列表和第二召回 列表进行综合排序,提高了检索的相关度,使得检索的结果是与检索词紧密相 关的案例,尽量避免检索结果中出现不相关的案例。提高了检索的效果。

在一种实施方式中,案例多任务学习模型,参见附图6所示的一种案例多 任务学习模型的结构示意图;

该案例多任务学习模型命名为SentSim模型,是一个以分类作为监督目标 的案例文本Encode模型。

案例多任务学习模型包括:Embedding层、Encode层、Attention层和output 层。

其中,Embedding层采用BERT(Bidirectional Encoder Representations fromTransformers)网络实现;该网络可以增加词向量模型泛化能力,充分描述字 符级、词级、句子级甚至句间关系特征。

Encode层采用采用双向门控循环单元(Bi-Gated Recurrent Unit,Bi-GRU) 实现;其中,Bi-GRU是一种应用广泛的循环神经网络(Recurrent Neural Network,RNN)的改进版本,Bi-GRU通常比原始的RNN能够更好地对长短 时依赖进行表达。Bi-GRU是长短期记忆网络(Long Short-Term Memory,LSTM) 模型的一种。Bi-GRU模型主要由一个双层模型构建,每一层都是一个单向的 传递结构,且每一层都包含词向量表示模块和特征抽取模块。前向传递层可获 取到输入序列的上文信息,后向传递层可获取到输入序列的下文信息,对于相 同的输入节点,前向传递层和后向传递层的隐藏层状态合并之后可以作为最后 的输出层的输入,可以得到最后的包含上下文信息的语义编码。

Attention层具体包括品牌注意力层;风格注意力层;类型注意力层;行业 注意力层;文本注意力层。其中,文本注意力层用于对案例中的文本进行提取。

输出OUTPUT层包括品牌LOSS、风格LOSS、类型LOSS、行业LOSS、 检索LOSS。

以上的层结构主要用在模型训练的场景中,训练时采用am-softmax损失 函数;可以增大类别间差异、减小类内差距。

为了提高检索的相关性,能够检索出更多的相关的案例,在一种实施方式 中,接收检索词之前,需要构建营销领域的知识图谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

构建知识图谱时,基于案例样本库,按照预定的实体和实体之间的关系构 建知识图谱。参见附图7所示的一种知识图谱的示意图;其中,实体包括:项 目实体、公司实体、案例实体、品牌实体、设计方实体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

示例性的,公司为星巴克,设计方为给星巴克做过广告案例的设计公司。

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含品牌;

示例性的,企业为一汽;但是包含的品牌有大众、通用。

品牌实体与项目实体的关系为:品牌创建项目;

示例性的,一汽大众可能有多个不同的需要设计的项目;对于每一个项目, 对接一个设计方;该设计方与一汽大众为合作的关系。

当采用上述的知识图谱对模型进行训练时,把知识图谱的数据库输入到模 型中,把数据分成两部分进行,一部分为测试样本,另一部分为标准样本,通 过标准样本确定测试样本得到的损失函数值,迭代循环之后,损失函数值降低 在预定阈值之内,确定模型收敛,停止训练。

在一种实施方式中,可以为品牌LOSS、风格LOSS、类型LOSS、行业 LOSS、检索LOSS分别设置不同的收敛阈值;当损失函数值LOSS在预定阈 值的连续epoch内没有下降,则停止训练;其中预定阈值可以为10,也可以 为其他的数量,具体可以灵活设定。

比如,模型训练时,把图1的案例中的文本内容输入到模型中,如果图1 的案例中的品牌为星巴克,行业为餐饮业;但是模型识别的结果为:品牌为太 平洋,品牌为餐饮;则说明品牌识别的不够精确,需要再进行训练;但是行业 一类的识别已经达到了精度,该部分可以不再进行训练。

通过上述的知识图谱,当用户在搜索品牌,比亚迪时,还可以搜索出相关 的其他的实体,比如与比亚迪有关的项目、设计方、案例。从而可以使得用户 获得更多的与比亚迪相关的知识。

本发明的上述的技术方案,通过知识图谱对案例多任务学习模型进行训 练,从而可以提高模型检索的精度;可以把知识图谱中的相关的实体,比如, 相关的设计方也检索出来,与现有技术相比,可以取得更好地检索效果。

在一种实施方式中,相关数据包括行为数据和检索数据;采集用户检索所 述案例的行为数据,包括:

获取用户对所述案例的行为数据;以及所述案例在召回列表的排序位置; 所述行为数据包含用户对检索结果的点击、收藏和分享。

示例性的,可以统计某个案例被分享的次数;被收藏的次数;

假设某个案例历史上没有被分享也没有被收藏,相关性值为α;

如果考虑到被分享被收藏的情况;则相关性的值=α×(1+m);其中,m 为小于1的小数。

在一种实施方式中,可以设定分享的次数与m的对应关系表;参见表1:

表1

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

具体地,相关性取值的确定采取以下的步骤:统计案例被点击的次数;如 果点击次数大于等于二时,定义为强相关,相关性的取值为1。如果点击只有 一次,取值为0.8到0.9的随机数。如果点击的次数为0,则定义为弱相关, 相关性取值为0.5及以下。

并且还可以根据预定的时间段来进行进一步地细分,如果点击了一次,但 是两年前被点击过,则定义为弱相关;如果点击了一次,最近一周被点击过, 则定义为强相关;根据历史时间的长短来定义相关性的取值;被点击的历史时 间越长,相关性取值越小;历史时间越短,相关性越强。

在一种实施方式中,通过以下的公式计算某个案例的相关性;

对于每一次点击,统计案例被点击的时间;

计算距离当前的时间差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。优选地,上 述的计算公式更加适用于案例在一年之内被点击的情况。上述的公式计算的相 关性的值更加能够体现时间因素的影响。

为了对知识图谱进行优化,避免冗余实体。在一种实施方式中,还包括对 所述知识图谱的实体进行融合得到优化后的知识图谱,具体包括:

对于任意一个公司实体和品牌实体,使用命名体识别ENR技术识别出所 述公司实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

示例性的,如果品牌实体的名字是“星巴克”。而公司实体的名字为“星巴 克starbucks”;计算两者的jaro winkler距离;Jaro-Winkler距离是一个度量两 个字符序列之间的编辑距离的字符串度量标准;一般来说,编辑距离越小,两 个字符串的相似度越大。如果jaro winkler距离为0,则相似度为100%。相似 度阈值可以设定为0.9;具体灵活设定,本申请不做限定。如果相似度大于0.9, 则确定应该将两者融合。通过融合,可以精简知识图谱。

本申请与传统检索算法BM25相比,本模型融入了语义层级的信息,检索 与召回文本之间具有语义相关性;本申请与基于BERT的信息检索相比,本模 型加入了知识图谱信息,一方面把图谱中案例节点的嵌入信息融

BERTEmbedding,另一方面将图谱分类作为边信息加入训练学习中,增加 了模型的知识约束。

本申请利用知识图谱的知识表达能力,增加了检索与召回文本的语义相关 性,在评估系统中与ES的检索方法相比,检索性能mAP值增加了约10个百 分点。构建了基于用户反馈机制的模型闭环机制,使数据能积累、算法能成长、 业务能受益、改变能衡量。

参见图8所示的本申请提出的一种架构示意图;虚线表示ES的工作流; 实现表示检索模型的工作流;OFFLINE时,ES中存储了案例文本;并且经过 模型的转换,也存储了案例对应的向量;上线ONLINHE时,检索词分别经过 检索模型和BM25算法进行检索后,得到第一向量召回结果和第二召回结果; 对上述的两个召回结果进行综合排序得到最终输出排序的结果。

参见附图9所示的本申请提出的一种闭环的机制示意图;检索系统通过埋 点得到用户行为数据;用行为数据的一部分经过数据清洗后进行评估;评估完 毕的数据进行计算得到BI系统进行评估;用户行为数据的另一部分经过清洗 后用于对模型算法进行训练;经过训练的模型再用于检索系统检索。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行 指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某 些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例,还提供了一种用于实施上述企业案例检索的装置,如 图10所示,该装置包括:

接收模块1001,用于接收检索词;

处理模块1002,用于基于所述检索词采用BM25算法进行检索得到企业 案例的第一召回结果排序;

将所述检索词通过案例检索模型生成对应的检索词向量;

计算所述检索词向量与所述向量池中的每一个向量的余弦距离;

根据每个余弦距离对向量池中的每个向量对应的企业案例样本进行排序 得到第二召回结果排序;

将第一召回结果排序和第二召回结果排序进行综合排序,得到企业案例的 排序列表。

进一步的,处理模块1002还用于:

构建营销领域的知识图谱;

采集用户在预定历史时期内检索过程中的相关数据;

基于所述知识图谱和所述相关数据构建案例多任务学习模型,并采用所述 知识图谱和所述相关数据对所述案例多任务学习模型进行训练。

进一步的,相关数据包括行为数据和检索数据;处理模块1002还用于:

获取用户对所述案例的行为数据;以及所述案例在召回列表的排序位置; 所述行为数据包含用户对检索结果的点击、收藏和分享;

所述检索数据包括:在埋点系统中采集得到的检索词、根据所述检索词得 到的企业案例、所述企业案例和所述检索词的相关性。

处理模块1002还用于:对于任意的一个案例,计算相关性包括:

统计点击的时间;

计算距离当前的时间的差,以天为单位;

调整系数=被点击的历史时间与当前的时间点的差/365;

该点击的影响因数=1-调整系数;

其中,xi为第i次被点击的影响因数;n为点击的总的次数。

处理模块还用于:

获取待识别的目标案例文本;

将所述待识别的目标案例文本输入到预先训练的案例多任务学习模型,得 到所述待识别的目标案例文本的分类信息;

所述分类信息包括:所述待识别的目标案例文本的行业、所述待识别的目 标案例文本的品牌、所述待识别的目标案例文本的风格、所述待识别的目标案 例文本的类型。

处理模块1002还用于:

基于案例样本库,按照预定的实体和实体之间的关系构建知识图谱;

其中,实体包括:项目实体、公司实体、案例实体、品牌实体、设计方实 体、平台应用方实体;

平台应用方实体与案例实体的关系为:平台应用方实体分享或者收藏案 例;

平台应用方实体与设计方实体的关系为:平台应用方收藏或者分享设计方 的创意;

设计方实体与案例实体的关系为:设计方发布案例;

公司实体与案例实体的关系为:公司收藏案例;

公司实体与设计方实体的关系为:企业收藏设计方的创意;

案例实体与品牌实体的关系为:案例服务于品牌;

公司实体与品牌实体的关系为:公司包含于品牌;

品牌实体与项目实体的关系为:品牌创建项目。

处理模块1002还用于:

对于任意一个公司实体和品牌实体,使用命名体识别技术识别出所述公司 实体和品牌实体的实体名称;

计算所述公司实体的实体名称与所述品牌实体的实体名称的相似度;

如果相似度达到预定的相似度阈值,则将所述公司实体与所述品牌实体进 行融合。

第三方面,本申请还提出了一种企业案例检索设备,参见附图11所示的 一种企业案例检索设备的结构示意图;该设备包括:至少一个处理器1101和 至少一个存储器1102;所述存储器1102用于存储一个或多个程序指令;所述 处理器,用于运行一个或多个程序指令,用以执行上述任一项所述的方法。

第四方面,本申请还提出了一种计算机可读存储介质,计算机可读存储介 质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项 所述的方法。

在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能 力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简 称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、 现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可 编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通 用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本 发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或 者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存 储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄 存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件 完成上述方法的步骤。

存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或 可包括易失性和非易失性存储器两者。

其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称 ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编 程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器 (Electrically EPROM,简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory,简称 RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的 RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机 存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器 (Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储 器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存 取存储器(Enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储 器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器 (DirectRambus RAM,简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类 型的存储器。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描 述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储 在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进 行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括 便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通 用或专用计算机能够存取的任何可用介质。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以 用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多 个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码 来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们 分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集 成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领 域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之 内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号