首页> 中国专利> 同义词库构建方法、装置、设备及存储介质

同义词库构建方法、装置、设备及存储介质

摘要

本发明涉及人工智能,提供一种同义词库构建方法、装置、设备及存储介质。该方法能够当接收到词库构建请求时,根据词库构建请求确定目标领域,采集目标领域的领域语料,对领域语料进行分词处理,得到语料分词,对语料分词进行清洗处理,得到领域词,根据领域词构建领域词库,计算领域词库中每个领域词的第一相似度,根据领域词库及第一相似度构建第一集合,计算领域词库中每个领域词的第二相似度,根据领域词库及第二相似度构建第二集合,根据第一集合及第二集合确定领域同义词库。本发明能够提高领域同义词库的构建准确度。此外,本发明还涉及区块链技术,所述领域同义词库可存储于区块链中。

著录项

  • 公开/公告号CN113051899A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 深圳壹账通智能科技有限公司;

    申请/专利号CN202110443784.5

  • 发明设计人 李小娟;

    申请日2021-04-23

  • 分类号G06F40/247(20200101);G06F40/289(20200101);G06F40/216(20200101);

  • 代理机构44334 深圳市赛恩倍吉知识产权代理有限公司;

  • 代理人杨毅玲;刘丽华

  • 地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种同义词库构建方法、装置、设备及存储介质。

背景技术

领域同义词库是指针对特定领域的同义词组成的词库,领域同义词库中包含领域词以及该领域词对应的至少一个同义词,例如,在金融领域同义词库中,领域词“取款机”的同义词有“提款机”以及“ATM”等。领域同义词库在搜索引擎中能够提高召回率以及相关性特征的表征能力,在意图识别中能够提高意图判断的准确性。

目前的领域同义词库是通过具有较强的领域背景知识的专业用户人工构建的,然而,这种方式受到专业用户的领域背景知识的干扰,导致构建得到的领域同义词库不够准确。

发明内容

鉴于以上内容,有必要提供一种同义词库构建方法、装置、设备及存储介质,能够提高领域同义词库的构建准确度。

一方面,本发明提出一种同义词库构建方法,所述同义词库构建方法包括:

当接收到词库构建请求时,根据所述词库构建请求确定目标领域;

采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词;

对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库;

计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合;

计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合;

根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

根据本发明优选实施例,所述对所述领域语料进行分词处理,得到语料分词包括:

根据预设词典对所述领域语料进行切分,得到多个切分路径及每个切分路径对应的路径分词,所述预设词典中存储有多个自定义词及每个自定义词对应的权值;

根据所述多个切分路径及所述领域语料构建多个有向无环图;

根据所述预设词典中的权值计算每个有向无环图的切分概率;

将所述切分概率最大的有向无环图对应的切分路径确定为目标路径;

将所述目标路径对应的所述路径分词确定为所述语料分词。

根据本发明优选实施例,所述对所述语料分词进行清洗处理,得到领域词包括:

获取每个语料分词的分词长度;

从所述语料分词中剔除所述分词长度大于预设长度的语料分词,得到第一词汇;

获取所述第一词汇的词性;

从所述第一词汇中剔除所述词性为预设词性的第一词汇,得到第二词汇;

从配置库中获取所述第二词汇的逆文档频率;

从所述第二词汇中剔除所述逆文档频率小于频率阈值的第二词汇,得到所述领域词。

根据本发明优选实施例,在从配置库中获取所述第二词汇的逆文档频率之前,所述同义词库构建方法还包括:

确定所述领域语料的采集渠道;

从所述采集渠道中获取所有语料作为通用语料;

对所述通用语料进行分词处理,得到通用分词;

确定所述通用语料的语料数量作为文档总数;

确定包含每个通用分词的语料数量作为文档数量,并计算所述文档数量与预设数值的总和,得到运算数值;

将所述文档总数除以所述运算数值,得到目标数值,并计算所述目标数值的对数值,得到每个通用分词的逆文档频率;

存储每个通用分词与该通用分词的逆文档频率的映射关系至所述配置库中。

根据本发明优选实施例,所述计算所述领域词库中每个领域词的第一相似度包括:

从预设向量映射表中获取每个领域词的词向量;

对于任一词向量,将所述词向量中除所述任一词向量外的其他词向量确定为特征向量;

计算所述任一词向量与所述特征向量的余弦相似度,得到所述第一相似度。

根据本发明优选实施例,所述计算所述领域词库中每个领域词的第二相似度包括:

对于任一领域词,将所述领域词库中除所述任一领域词外的其他领域词确定为特征词;

计算所述任一领域词与所述特征词的编辑距离,得到所述任一领域词的第一权值;

获取与所述任一领域词对应的目标字符串,并获取与所述特征词对应的特征字符串;

计算所述目标字符串与所述特征字符串的编辑距离,得到所述任一领域词的第二权值;

获取所述任一领域词的预设权重;

根据所述第一权值、所述第二权值及所述预设权重确定所述第二相似度。

根据本发明优选实施例,所述根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库包括:

确定所述第一集合与所述第二集合的并集,得到第三集合;

确定所述第三集合中的重复词汇;

将所述重复词汇从所述第三集合中剔除,得到所述领域同义词库。

另一方面,本发明还提出一种同义词库构建装置,所述同义词库构建装置包括:

确定单元,用于当接收到词库构建请求时,根据所述词库构建请求确定目标领域;

处理单元,用于采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词;

构建单元,用于对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库;

所述构建单元,还用于计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合;

所述构建单元,还用于计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合;

所述确定单元,还用于根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

另一方面,本发明还提出一种电子设备,所述电子设备包括:

存储器,存储计算机可读指令;及

处理器,执行所述存储器中存储的计算机可读指令以实现所述同义词库构建方法。

另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述同义词库构建方法。

由以上技术方案可以看出,本发明通过对所述语料分词进行清洗处理,能够从所述语料分词中剔除掉除所述目标领域外的语料分词,从而能够准确构建出包含所述领域词的领域词库,通过计算每个领域词的第一相似度能够准确构建出包含领域同义词的第一集合,并通过计算每个领域词的第二相似度能够准确构建出包含领域同义词的第二集合,进而通过所述第一集合及所述第二集合能够全面地确定出包含领域同义词的领域同义词库,提高了所述领域同义词库的构建准确率。

附图说明

图1是本发明同义词库构建方法的较佳实施例的流程图。

图2是本发明同义词库构建装置的较佳实施例的功能模块图。

图3是本发明实现同义词库构建方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

如图1所示,是本发明同义词库构建方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

所述同义词库构建方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。

所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。

所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

S10,当接收到词库构建请求时,根据所述词库构建请求确定目标领域。

在本发明的至少一个实施例中,所述词库构建请求可以由任意用户触发,所述词库构建请求中携带的信息包括,但不限于:指示领域的标签、领域编码等。

在本发明的至少一个实施例中,所述目标领域可以是任意领域,例如,所述目标领域可以是金融领域。

在本发明的至少一个实施例中,所述电子设备根据所述词库构建请求确定目标领域包括:

解析所述词库构建请求的报文,得到所述报文携带的数据信息;

从所述数据信息中获取指示领域的信息作为领域编码;

将与所述领域编码对应的领域确定为所述目标领域。

其中,所述数据信息包括,但不限于:所述领域编码、与所述领域编码对应的标签等。

所述领域编码用于唯一指示所述目标领域。

通过解析所述词库构建请求的报文,由于无需解析整个所述词库构建请求,因此,能够提高所述领域编码的获取效率,进而通过所述领域编码能够准确确定出所述目标领域。

S11,采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词。

在本发明的至少一个实施例中,所述领域语料是指与所述目标领域相关的信息,所述领域语料可以是一段新闻信息,也可以是一篇文章信息。

在本发明的至少一个实施例中,所述语料分词是指对所述领域语料进行分词后的词汇。

在本发明的至少一个实施例中,所述电子设备采集所述目标领域的领域语料包括以下一种或者多种方式的组合:

从预设网站上获取包含所述领域编码的文档作为所述领域语料;及/或

从预设纸质版上获取包含所述领域编码的信息作为待识别信息,并采用OCR(Optical Character Recognition,光学字符识别)算法识别所述待识别信息,得到所述领域语料。

其中,所述预设网站可以是任意经过授权的网站,所述预设纸质版可以是书籍,也可以是报纸。

通过所述领域编码能够准确获取到所述领域语料,通过所述预设网站以及所述预设纸质版能够全面获取到所述领域语料。

在本发明的至少一个实施例中,所述电子设备对所述领域语料进行分词处理,得到语料分词包括:

根据预设词典对所述领域语料进行切分,得到多个切分路径及每个切分路径对应的路径分词,所述预设词典中存储有多个自定义词及每个自定义词对应的权值;

根据所述多个切分路径及所述领域语料构建多个有向无环图;

根据所述预设词典中的权值计算每个有向无环图的切分概率;

将所述切分概率最大的有向无环图对应的切分路径确定为目标路径;

将所述目标路径对应的所述路径分词确定为所述语料分词。

其中,所述多个切分路径是根据所述预设词典对所述领域语料进行切分的方式确定的。每个切分路径对应的路径分词不都相同。

通过所述预设词典中的自定义词切分所述领域语料,能够根据用户设定的需求切分所述领域语料,进而根据所述权值能够准确确定出所述语料分词。

具体地,所述电子设备根据所述预设词典中的权值计算每个有向无环图的切分概率包括:

获取每个切分路径中的路径分词在所述预设词典中的词典权值;

计算所述词典权值的总和,得到所述切分概率。

通过所述预设词典中的权值能够准确确定出所述切分概率。

S12,对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库。

在本发明的至少一个实施例中,所述领域词是指所述语料分词中与所述目标领域相关的词汇。

所述领域词库是由所述领域词组成的。

在本发明的至少一个实施例中,所述电子设备对所述语料分词进行清洗处理,得到领域词包括:

获取每个语料分词的分词长度;

从所述语料分词中剔除所述分词长度大于预设长度的语料分词,得到第一词汇;

获取所述第一词汇的词性;

从所述第一词汇中剔除所述词性为预设词性的第一词汇,得到第二词汇;

从配置库中获取所述第二词汇的逆文档频率;

从所述第二词汇中剔除所述逆文档频率小于频率阈值的第二词汇,得到所述领域词。

其中,所述预设长度、所述预设词性、所述频率阈值可以根据所述目标领域确定。所述预设词性通常为介词等。

所述配置库中存储了多个词汇的逆文档频率。

通过上述实施方式,由于分词长度大于所述预设长度的语料分词为不符合常规的词汇,因此,根据所述分词长度能够得到符合常规的第一词汇,进一步地,由于词性为所述预设词性的词汇属于非实体词,因此,根据所述词性能够得到具有实体性的第二词汇,进一步地,由于逆文档频率小于所述频率阈值的第二词汇在通用分词中出现的频率较大,因此,根据所述逆文档频率能够准确的从所述第二词汇中提取出所述目标领域的领域词。

具体地,在从配置库中获取所述第二词汇的逆文档频率之前,所述同义词库构建方法还包括:

确定所述领域语料的采集渠道;

从所述采集渠道中获取所有语料作为通用语料;

对所述通用语料进行分词处理,得到通用分词;

确定所述通用语料的语料数量作为文档总数;

确定包含每个通用分词的语料数量作为文档数量,并计算所述文档数量与预设数值的总和,得到运算数值;

将所述文档总数除以所述运算数值,得到目标数值,并计算所述目标数值的对数值,得到每个通用分词的逆文档频率;

存储每个通用分词与该通用分词的逆文档频率的映射关系至所述配置库中。

其中,所述采集渠道是指采集所述领域语料的渠道,例如,所述采集渠道可以是A网站。

通过所述采集渠道,能够准确获取到所述通用语料,进而准确地确定出所述文档总数及所述文档数量,从而能够准确确定出每个通用分词的逆文档频率,进一步将映射关系存储至所述配置库中,便于所述领域词的确定。

S13,计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合。

在本发明的至少一个实施例中,所述第一相似度是指根据所述领域词的词向量确定的。

所述第一集合是由所述第一相似度大于或者等于第一阈值的领域词集合成的。

在本发明的至少一个实施例中,所述电子设备计算所述领域词库中每个领域词的第一相似度包括:

从预设向量映射表中获取每个领域词的词向量;

对于任一词向量,将所述词向量中除所述任一词向量外的其他词向量确定为特征向量;

计算所述任一词向量与所述特征向量的余弦相似度,得到所述第一相似度。

其中,所述预设向量映射表中存储多个词与向量的映射关系。

通过上述实施方式,由于所述任一词向量与所述特征向量均从所述预设向量映射表中获取的,因此,能够获取到统一维度的词向量,进而提高所述第一相似度的确定准确率。

在本发明的至少一个实施例中,所述电子设备根据所述领域词库及所述第一相似度构建第一集合包括:

将所述第一相似度小于第一阈值的领域词从所述领域词库中删除,得到所述第一集合。

其中,所述第一阈值可以根据需求设定。

通过上述实施方式,能够将相似度较低的领域词进行剔除,从而能够提高所述第一集合的准确度。

S14,计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合。

在本发明的至少一个实施例中,所述第二相似度是根据所述领域词的编辑距离及所述领域词对应的字符串的编辑距离确定的。

所述第二集合是由所述第二相似度大于或者等于第二阈值的领域词集合成的。

在本发明的至少一个实施例中,所述电子设备计算所述领域词库中每个领域词的第二相似度包括:

对于任一领域词,将所述领域词库中除所述任一领域词外的其他领域词确定为特征词;

计算所述任一领域词与所述特征词的编辑距离,得到所述任一领域词的第一权值;

获取与所述任一领域词对应的目标字符串,并获取与所述特征词对应的特征字符串;

计算所述目标字符串与所述特征字符串的编辑距离,得到所述任一领域词的第二权值;

获取所述任一领域词的预设权重;

根据所述第一权值、所述第二权值及所述预设权重确定所述第二相似度。

其中,所述目标字符串可以是所述任一领域词的拼音,所述特征字符串可以是所述特征词的拼音。

例如,所述任一领域词为:“提款机”,其对应的目标字符串为“tikuanji”所述特征词为:“取款机”,其对应的特征字符串为“qukuanji”,经计算,得到“提款机”与“取款机”的编辑距离为1,即,“提款机”的第一权值为1,“tikuanji”与“qukuanji”的编辑距离为2,即,“提款机”的第二权值为2。

通过上述实施方式,由于确定出的所述第二相似度是根据词的编辑距离以及字符串的编辑距离确定的,因此通过多方面的编辑距离能够准确地确定出所述第二相似度,进而提高所述第二相似度的准确率。

在本发明的至少一个实施例中,所述电子设备根据所述领域词库及所述第二相似度构建第二集合包括:

将所述第二相似度小于第二阈值的领域词从所述领域词库中删除,得到所述第二集合。

通过上述实施方式,能够将相似度较低的领域词进行剔除,从而能够提高所述第二集合的准确度。

S15,根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

需要强调的是,为进一步保证上述领域同义词库的私密和安全性,上述领域同义词库还可以存储于一区块链的节点中。

在本发明的至少一个实施例中,所述领域同义词库是由所述目标领域中的同义词构成的。

在本发明的至少一个实施例中,所述电子设备根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库包括:

确定所述第一集合与所述第二集合的并集,得到第三集合;

确定所述第三集合中的重复词汇;

将所述重复词汇从所述第三集合中剔除,得到所述领域同义词库。

例如,所述第一集合为{取款机,提款机,ATM},所述第二集合为{取款机,提款机,自动取款机,自动柜员机},经确定,得到第三集合为{取款机,提款机,ATM,取款机,提款机,自动取款机,自动柜员机},所述第三集合的重复词汇为“取款机”,“提款机”,对所述重复词汇进行剔除处理,得到所述领域同义词库为{取款机,提款机,ATM,自动取款机,自动柜员机}。

通过确定所述第一集合与所述第二集合的并集,能够全面地确定出所述第三集合,避免所述第三集合中遗漏了所述领域词的同义词,提高了所述第三集合的全面性,同时,对所述第三集合中的所述重复词汇进行剔除,能够降低所述重复词汇的占用空间。

由以上技术方案可以看出,本发明通过对所述语料分词进行清洗处理,能够从所述语料分词中剔除掉除所述目标领域外的语料分词,从而能够准确构建出包含所述领域词的领域词库,通过计算每个领域词的第一相似度能够准确构建出包含领域同义词的第一集合,并通过计算每个领域词的第二相似度能够准确构建出包含领域同义词的第二集合,进而通过所述第一集合及所述第二集合能够全面地确定出包含领域同义词的领域同义词库,提高了所述领域同义词库的构建准确率。

如图2所示,是本发明同义词库构建装置的较佳实施例的功能模块图。所述同义词库构建装置11包括确定单元110、处理单元111、构建单元112、获取单元113、计算单元114及存储单元115。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。

当接收到词库构建请求时,确定单元110根据所述词库构建请求确定目标领域。

在本发明的至少一个实施例中,所述词库构建请求可以由任意用户触发,所述词库构建请求中携带的信息包括,但不限于:指示领域的标签、领域编码等。

在本发明的至少一个实施例中,所述目标领域可以是任意领域,例如,所述目标领域可以是金融领域。

在本发明的至少一个实施例中,所述确定单元110根据所述词库构建请求确定目标领域包括:

解析所述词库构建请求的报文,得到所述报文携带的数据信息;

从所述数据信息中获取指示领域的信息作为领域编码;

将与所述领域编码对应的领域确定为所述目标领域。

其中,所述数据信息包括,但不限于:所述领域编码、与所述领域编码对应的标签等。

所述领域编码用于唯一指示所述目标领域。

通过解析所述词库构建请求的报文,由于无需解析整个所述词库构建请求,因此,能够提高所述领域编码的获取效率,进而通过所述领域编码能够准确确定出所述目标领域。

处理单元111采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词。

在本发明的至少一个实施例中,所述领域语料是指与所述目标领域相关的信息,所述领域语料可以是一段新闻信息,也可以是一篇文章信息。

在本发明的至少一个实施例中,所述语料分词是指对所述领域语料进行分词后的词汇。

在本发明的至少一个实施例中,所述处理单元111采集所述目标领域的领域语料包括以下一种或者多种方式的组合:

从预设网站上获取包含所述领域编码的文档作为所述领域语料;及/或

从预设纸质版上获取包含所述领域编码的信息作为待识别信息,并采用OCR(Optical Character Recognition,光学字符识别)算法识别所述待识别信息,得到所述领域语料。

其中,所述预设网站可以是任意经过授权的网站,所述预设纸质版可以是书籍,也可以是报纸。

通过所述领域编码能够准确获取到所述领域语料,通过所述预设网站以及所述预设纸质版能够全面获取到所述领域语料。

在本发明的至少一个实施例中,所述处理单元111对所述领域语料进行分词处理,得到语料分词包括:

根据预设词典对所述领域语料进行切分,得到多个切分路径及每个切分路径对应的路径分词,所述预设词典中存储有多个自定义词及每个自定义词对应的权值;

根据所述多个切分路径及所述领域语料构建多个有向无环图;

根据所述预设词典中的权值计算每个有向无环图的切分概率;

将所述切分概率最大的有向无环图对应的切分路径确定为目标路径;

将所述目标路径对应的所述路径分词确定为所述语料分词。

其中,所述多个切分路径是根据所述预设词典对所述领域语料进行切分的方式确定的。每个切分路径对应的路径分词不都相同。

通过所述预设词典中的自定义词切分所述领域语料,能够根据用户设定的需求切分所述领域语料,进而根据所述权值能够准确确定出所述语料分词。

具体地,所述处理单元111根据所述预设词典中的权值计算每个有向无环图的切分概率包括:

获取每个切分路径中的路径分词在所述预设词典中的词典权值;

计算所述词典权值的总和,得到所述切分概率。

通过所述预设词典中的权值能够准确确定出所述切分概率。

构建单元112对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库。

在本发明的至少一个实施例中,所述领域词是指所述语料分词中与所述目标领域相关的词汇。

所述领域词库是由所述领域词组成的。

在本发明的至少一个实施例中,所述构建单元112对所述语料分词进行清洗处理,得到领域词包括:

获取每个语料分词的分词长度;

从所述语料分词中剔除所述分词长度大于预设长度的语料分词,得到第一词汇;

获取所述第一词汇的词性;

从所述第一词汇中剔除所述词性为预设词性的第一词汇,得到第二词汇;

从配置库中获取所述第二词汇的逆文档频率;

从所述第二词汇中剔除所述逆文档频率小于频率阈值的第二词汇,得到所述领域词。

其中,所述预设长度、所述预设词性、所述频率阈值可以根据所述目标领域确定。所述预设词性通常为介词等。

所述配置库中存储了多个词汇的逆文档频率。

通过上述实施方式,由于分词长度大于所述预设长度的语料分词为不符合常规的词汇,因此,根据所述分词长度能够得到符合常规的第一词汇,进一步地,由于词性为所述预设词性的词汇属于非实体词,因此,根据所述词性能够得到具有实体性的第二词汇,进一步地,由于逆文档频率小于所述频率阈值的第二词汇在通用分词中出现的频率较大,因此,根据所述逆文档频率能够准确的从所述第二词汇中提取出所述目标领域的领域词。

具体地,在从配置库中获取所述第二词汇的逆文档频率之前,所述确定单元110确定所述领域语料的采集渠道;

获取单元113从所述采集渠道中获取所有语料作为通用语料;

所述处理单元111对所述通用语料进行分词处理,得到通用分词;

所述确定单元110确定所述通用语料的语料数量作为文档总数;

计算单元114确定包含每个通用分词的语料数量作为文档数量,并计算所述文档数量与预设数值的总和,得到运算数值;

所述计算单元114将所述文档总数除以所述运算数值,得到目标数值,并计算所述目标数值的对数值,得到每个通用分词的逆文档频率;

存储单元115存储每个通用分词与该通用分词的逆文档频率的映射关系至所述配置库中。

其中,所述采集渠道是指采集所述领域语料的渠道,例如,所述采集渠道可以是A网站。

通过所述采集渠道,能够准确获取到所述通用语料,进而准确地确定出所述文档总数及所述文档数量,从而能够准确确定出每个通用分词的逆文档频率,进一步将映射关系存储至所述配置库中,便于所述领域词的确定。

所述构建单元112计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合。

在本发明的至少一个实施例中,所述第一相似度是指根据所述领域词的词向量确定的。

所述第一集合是由所述第一相似度大于或者等于第一阈值的领域词集合成的。

在本发明的至少一个实施例中,所述构建单元112计算所述领域词库中每个领域词的第一相似度包括:

从预设向量映射表中获取每个领域词的词向量;

对于任一词向量,将所述词向量中除所述任一词向量外的其他词向量确定为特征向量;

计算所述任一词向量与所述特征向量的余弦相似度,得到所述第一相似度。

其中,所述预设向量映射表中存储多个词与向量的映射关系。

通过上述实施方式,由于所述任一词向量与所述特征向量均从所述预设向量映射表中获取的,因此,能够获取到统一维度的词向量,进而提高所述第一相似度的确定准确率。

在本发明的至少一个实施例中,所述构建单元112根据所述领域词库及所述第一相似度构建第一集合包括:

将所述第一相似度小于第一阈值的领域词从所述领域词库中删除,得到所述第一集合。

其中,所述第一阈值可以根据需求设定。

通过上述实施方式,能够将相似度较低的领域词进行剔除,从而能够提高所述第一集合的准确度。

所述构建单元112计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合。

在本发明的至少一个实施例中,所述第二相似度是根据所述领域词的编辑距离及所述领域词对应的字符串的编辑距离确定的。

所述第二集合是由所述第二相似度大于或者等于第二阈值的领域词集合成的。

在本发明的至少一个实施例中,所述构建单元112计算所述领域词库中每个领域词的第二相似度包括:

对于任一领域词,将所述领域词库中除所述任一领域词外的其他领域词确定为特征词;

计算所述任一领域词与所述特征词的编辑距离,得到所述任一领域词的第一权值;

获取与所述任一领域词对应的目标字符串,并获取与所述特征词对应的特征字符串;

计算所述目标字符串与所述特征字符串的编辑距离,得到所述任一领域词的第二权值;

获取所述任一领域词的预设权重;

根据所述第一权值、所述第二权值及所述预设权重确定所述第二相似度。

其中,所述目标字符串可以是所述任一领域词的拼音,所述特征字符串可以是所述特征词的拼音。

例如,所述任一领域词为:“提款机”,其对应的目标字符串为“tikuanji”所述特征词为:“取款机”,其对应的特征字符串为“qukuanji”,经计算,得到“提款机”与“取款机”的编辑距离为1,即,“提款机”的第一权值为1,“tikuanji”与“qukuanji”的编辑距离为2,即,“提款机”的第二权值为2。

通过上述实施方式,由于确定出的所述第二相似度是根据词的编辑距离以及字符串的编辑距离确定的,因此通过多方面的编辑距离能够准确地确定出所述第二相似度,进而提高所述第二相似度的准确率。

在本发明的至少一个实施例中,所述构建单元112根据所述领域词库及所述第二相似度构建第二集合包括:

将所述第二相似度小于第二阈值的领域词从所述领域词库中删除,得到所述第二集合。

通过上述实施方式,能够将相似度较低的领域词进行剔除,从而能够提高所述第二集合的准确度。

所述确定单元110根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

需要强调的是,为进一步保证上述领域同义词库的私密和安全性,上述领域同义词库还可以存储于一区块链的节点中。

在本发明的至少一个实施例中,所述领域同义词库是由所述目标领域中的同义词构成的。

在本发明的至少一个实施例中,所述确定单元110根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库包括:

确定所述第一集合与所述第二集合的并集,得到第三集合;

确定所述第三集合中的重复词汇;

将所述重复词汇从所述第三集合中剔除,得到所述领域同义词库。

例如,所述第一集合为{取款机,提款机,ATM},所述第二集合为{取款机,提款机,自动取款机,自动柜员机},经确定,得到第三集合为{取款机,提款机,ATM,取款机,提款机,自动取款机,自动柜员机},所述第三集合的重复词汇为“取款机”,“提款机”,对所述重复词汇进行剔除处理,得到所述领域同义词库为{取款机,提款机,ATM,自动取款机,自动柜员机}。

通过确定所述第一集合与所述第二集合的并集,能够全面地确定出所述第三集合,避免所述第三集合中遗漏了所述领域词的同义词,提高了所述第三集合的全面性,同时,对所述第三集合中的所述重复词汇进行剔除,能够降低所述重复词汇的占用空间。

由以上技术方案可以看出,本发明通过对所述语料分词进行清洗处理,能够从所述语料分词中剔除掉除所述目标领域外的语料分词,从而能够准确构建出包含所述领域词的领域词库,通过计算每个领域词的第一相似度能够准确构建出包含领域同义词的第一集合,并通过计算每个领域词的第二相似度能够准确构建出包含领域同义词的第二集合,进而通过所述第一集合及所述第二集合能够全面地确定出包含领域同义词的领域同义词库,提高了所述领域同义词库的构建准确率。

如图3所示,是本发明实现同义词库构建方法的较佳实施例的电子设备的结构示意图。

在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如同义词库构建程序。

本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成确定单元110、处理单元111、构建单元112、获取单元113、计算单元114及存储单元115。

所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。

其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种同义词库构建方法,所述处理器13可执行所述计算机可读指令从而实现:

当接收到词库构建请求时,根据所述词库构建请求确定目标领域;

采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词;

对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库;

计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合;

计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合;

根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:

当接收到词库构建请求时,根据所述词库构建请求确定目标领域;

采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词;

对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库;

计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合;

计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合;

根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号