首页> 中国专利> 获取专业词的相关词的方法及相关系统

获取专业词的相关词的方法及相关系统

摘要

本申请一种获取专业词的相关词的方法,其特征在于,包括:从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表;分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落;通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。实现了一种方便快捷的全自动获取专业词的相关词的方法,从而不需要耗费大量的人力和时间成本,有效地提高了专业词的相关词的获取效率。

著录项

  • 公开/公告号CN112560471A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 北京国双科技有限公司;

    申请/专利号CN201910916515.9

  • 发明设计人 戚成琳;冯鸳鹤;

    申请日2019-09-26

  • 分类号G06F40/289(20200101);G06F40/247(20200101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人李慧引

  • 地址 100083 北京市海淀区北四环中路229号海泰大厦4层南401号

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明涉及信息提取技术领域,特别涉及一种获取专业词的相关词的方法及相关系统。

背景技术

词语的相关词,在对词语的语义的理解上起着关键的作用,例如词语的同义词、上位词以及下位词。所以,词语的相关词的获取是自然语言处理中一种较为重要的工作。

在现有技术中,主要针对的都是普通词语的相关词的获取,例如,高兴、愉快、开心等普通词语。由于,普通词语拥有大量的文本语料以及现成的词表,所以可以根据词表,通过算法来捕获语料中词语上下文语义,从而获取到普通词语的相关词。

但是对于固定领域下的专业词,由于,专业词本身以及专业词的相关词都对应着该领域下的专业概念,例如,司法领域中的“59岁现象”、“最后捞一把”、“最后捞一把现象”等专业词。并且,专业词词表以及相关的语料也比较稀缺。所以,大部分通过人工进行总结,来获取专业词的相关词。显然,这样不仅会耗费大量的人力和时间成本,而且效率也非常低。

发明内容

基于上述现有技术的不足,本发明提供了一种获取专业词的相关词的方法及相关系统,以解决现有技术通过人工获取专业词的相关词,需要耗费大量的人力和时间成本,并且效率过低的问题。

为了实现上述目的,本发明提供了以下技术方案:

本发明第一方面提供了一种获取专业词的相关词的方法,包括:

从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表;

分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落;

通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。

可选地,在上述的方法中,所述从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表,包括:

获取专业词汇解释网站的词汇分类的类别中所述领域下的词汇、所述领域的知识问答平台中用户查询的关键词以及权威期刊库中的所述领域的文章中的关键词,组成待过滤专业词词表;

过滤掉所述待过滤专业词词表中不存在对应的所述专业词汇解释网页的词汇,得到所述领域的专业词词表。

可选地,在上述的方法中,所述分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息,包括:

通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个所述专业词对应的所述专业词汇解释网页中所有信息栏的信息以及文本段落。

可选地,在上述的方法中,所述通过预先构建的信息栏抽取模块,从所述信息栏的信息中抽取出所述专业词的相关词,包括:

通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串;

将所述字符串中的无意义字符去除,并将所述字符串进行分割,获得所述专业词的多个同义词、上位词以及下位词。

可选地,在上述的方法中,所述通过预先构建的文本抽取模块,从所述文本段落中抽取出所述专业词的相关词,包括:

通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。

可选地,在上述的方法中,所述通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述段落文本中,抽取出所述专业词的相关词之后,还包括:

根据抽取得到的所述专业词的同义词,从所述专业词词表中确定出互为同义异构词的专业词;其中,同义词具有交集的专业词互为同义异构词;

将所述互为同义异构词的专业词以及所述互为同义异构词的专业词中的每一个专业词对应的同义词、上位词以及下位词共同融合为一条数据进行存储。

本发明第二方法提供了一种获取专业词的相关词的装置,包括:

获取单元,用于从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表;

爬取单元,用于分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落;

抽取单元,用于通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。

可选地,在上述的装置中,所述获取单元,包括:

获取子单元,用于获取专业词汇解释网站的词汇分类的类别中所述领域下的词汇、所述领域的知识问答平台中用户查询的关键词以及权威期刊库中的所述领域的文章中的关键词,组成待过滤专业词词表;

过滤单元,用于过滤掉所述待过滤专业词词表中不存在对应的所述专业词汇解释网页的词汇,得到所述领域的专业词词表。

可选地,在上述的装置中,所述爬取单元,包括:

爬取子单元,用于通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个所述专业词对应的所述专业词汇解释网页中所有信息栏的信息以及文本段落。

可选地,在上述的装置中,所述抽取单元,包括:

信息栏抽取单元,用于通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串;

清洗单元,用于将所述字符串中的无意义字符去除,并将所述字符串进行分割,获得所述专业词的多个同义词、上位词以及下位词;

文本抽取单元,用于通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。

可选地,在上述的装置中,还包括:

确定单元,用于根据抽取得到的所述专业词的同义词,从所述专业词词表中确定出互为同义异构词的专业词;其中,同义词具有交集的专业词互为同义异构词;

融合单元,用于将所述互为同义异构词的专业词以及所述互为同义异构词的专业词中的每一个专业词对应的同义词、上位词以及下位词共同融合为一条数据进行存储。

本发明第三方面提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的获取专业词的相关词的方法。

本发明第四方面提供了一种电子设备,包括:

至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述中任一项所述的获取专业词的相关词的方法。

本发明提供了一种获取专业词的相关词的方法及相关系统,通过从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。然后以专业词词表中的每个专业词对应的专业词汇解释网页中的信息栏的信息以及文本段落,作为获取专业词的相关词的语料,便于获取到正确的专业词的相关词。最后,通过预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,以及通过预先构建的文本抽取模块,从文本段落中,抽取出专业词的相关词。从而实现一种全自动、方便快捷的获取专业词的方法,不需要再通过人力来实现,从而不需要耗费大量的人力和时间成本,并且有效提高了获取的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例公开的获取专业词的相关词的方法的流程图;

图2示出了本发明实施例公开的步骤S101的具体执行方式的流程图;

图3示出了本发明实施例公开的步骤S103的具体执行方式的流程图;

图4示出了本发明实施例公开的进一步包括的步骤的具体执行方式的流程图;

图5示出了本发明实施例公开的专业词融合的事例的示意图;

图6示出了本发明实施例公开的获取专业词的相关词的装置的结构示意图;

图7示出了本发明实施例公开的获取单元的结构示意图;

图8示出了本发明实施例公开的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种获取专业词的相关词的方法,如图1所示,包括:

S101、从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。

其中,专业词指的是特定领域下的专用词汇,其对应着特定领域下的一个专业的概念,例如司法领域中的“59岁现象”、“最后捞一把”、“最后捞一把现象”等专业词。所以,本发明实施例中的所提及的专业词,区别于高兴、愉快、开心等广泛应用的普通词语。

由于,专业词通常应用与特定的领域中,所以本发明实施例是使用的预料来自包含专业知识的多个渠道,例如专业的论坛、百科、以及各种专业领域的权威期刊数据库等。

具体的,首先需要预先确定一个专业领域,然后再通过从多个包含该领域的专业知识的渠道中获取该领域的多个专业词构成专业词词表。需要说明的是,本发明实施例中所提及的“领域”为该预先确定的领域。

可选地,本发明另一实施例中,步骤S101的一种具体实施方式,如图2所示,包括:

S201、获取专业词汇解释网站的词汇分类的类别中该领域下的词汇、该领域的知识问答平台中用户查询的关键词以及权威期刊库中的该领域的文章中的关键词,组成待过滤专业词词表。

其中,专业词汇解释网站为用户提供专业词汇的权威解释的网站,例如百度百科或者维基百科等。由于,专业词汇解释网站包含大量不同领域的词汇的解析,所以为了更好的管理,通常专业词汇解释网站都会对词汇做多级分类。所以,可以从专业词汇解释网站的词汇分类的类别中,获取属于该领域下的词汇,并且从专业词汇解释网站中获取的词汇能保证是属于该领域的专业词。

知识问答平台指的是为用户解析专业知识疑问的平台,用户可以通过输入关键词汇,查询到相应的专业知识内容。具体,可以通过该领域的知识问答平台提供的接口,从缓存或日志中获取到用户查询过关键词。

权威期刊库指的是在该领域中被公认的具有权威的期刊的数据库,例如ES期刊库等。由于,专业论文和期刊等文章的格式都要求必须有全文的关键词,所以可以从期刊库中的该领域的文章中,爬取文章中的关键词。

本发明实施例将从这三个渠道获取的词汇作为待过滤的专业词词表,当然,这只是其中一种可选的方式,本发明并不仅限于从这三个渠道获取到专业词。

S202、过滤掉待过滤专业词词表中不存在对应的专业词汇解释网页的词汇,得到该领域的专业词词表。

由于,知识问答平台中用户输入的关键词以及权威期刊库中的该领域的文章中的关键词,并一定是本领域的专业词,可能只是用户直接总结的词汇,所以需要进一步过滤掉不属于该领域的专业词的词汇。

由于专业词汇解释网站所提供的专业词的解析是得到权威验证的,所以可以通过判断待过滤词表中的每个词汇在专业词汇解释网站中是否存在对应的,来确定该词汇是否为专业词。具体的,通过专业词汇解释网站提高的接口,尝试爬取每个词汇对应的,用于解释该词汇的专业词汇解释网页,若能爬取到,则说明该词汇为专业词,若无法爬取到则说明该词汇可能不是该领域的专业词,需要过滤掉。

S102、分别爬取专业词词表中的每个专业词对应的专业词汇解释网页中的信息。其中,信息包括专业词汇解释网页中的信息栏的信息以及文本段落。

需要说明的是,每个专业词对应的专业词汇解释网页中包含有对该专业词的权威解释。例如,某个专业词对应的百度百科网页中会包含有对该词汇的权威的解析。所以,从专业词对应的专业词汇解释网页的信息中,可以获得专业词的相关词。

需要说明的是,专业词汇解释网页通常由信息栏和文本段落组成。其中,信息栏的信息指的网页中的信息栏中的字符,通常每个信息栏所包含的信息都较少,例如各种标题栏等。文本段落则指的网页中的简介以及正文等包含相对较多文字的文本。

具体的,可以基于python脚本的beautifulsoup网页解析库,构建爬虫器,并利用爬虫器,通过关键词搜索专业词对应的专业词汇解释网页,并爬取专业词汇解释网页中的信息栏中的信息和所有的文本段落。

可选地,本发明另一实施例中,步骤S102的一种具体实施方式,包括:

通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个专业词对应的专业词汇解释网页中所有信息栏的信息以及文本段落。

为了能提高效率,因此本发明实施例通过多线程爬虫器同时对多个专业词对应的专业词汇解释网页中所有信息栏的信息以及文本段落进行爬取。

具体的,爬虫器通过关键词搜索从专业词汇解释网站的数据库中查询到专业词对应的专业词汇解释网页,然后爬取信息栏以及文本段落在网页中对应的路径下的信息,从而得到专业词对应的专业词汇解释网页中的所有信息栏的信息以及文本段落,并将爬取到的信息进行存储。

需要说明的是,由于本发明实施例中爬取信息的过程,与步骤S202中过滤词汇的过程,都需要从专业词汇解释网站中查询词汇对应的专业词汇解释网页,所以为了减少工作量步骤S102和步骤S103可以同时进行。即当在从专业词汇解释网站中无法查询到词汇对应的专业词汇解释网页时,则将该词汇过滤掉,若查询到词汇对应的专业词汇解释网页,则说明该词汇为专业词,则可以继续爬取专业词汇解释网页中的信息栏的信息以及文本段落。

S103、通过预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,以及通过预先构建的文本抽取模块,从文本段落中,抽取出专业词的相关词。

其中,在本发明实施例中,专业词的相关词包括专业词的同义词、上位词以及下位词。

需要说明的是,信息栏中的信息与文本段落的结构是不同。信息栏通常包括一个或多个字段,每个字段中包括极少的词汇,而这些通常就是专业词的相关词。所以只需要抽取信息栏中的相应字段中信息,并做简单的清洗和切割,就可以得到专业词的相关词。而文本段落包含大量的词汇,专业词汇包含与大量的词汇的,与其他词汇组成句子,所以可以通过上下文语义或者词汇间的联系从文本段落中抽取出专业词的相关词。

所以,本发明实施例需要通过两个抽取模型进行相关词的抽取。具体为:通过预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,以及通过预先构建的文本抽取模块,从文本段落中,抽取出专业词的相关词。

可选地,通过预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,如图3所示,具体包括:

S301、通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串。

也就是说,信息栏抽取模块是基于不同的预设字段,抽取信息栏信息中专业词的同义词、上位词以及下位词对应的字符串。

具体的,如表1所示,可以分别设定同义词、上位词以及下位词对应的多个字段,然后通过编译程序,实现对与预设字段对应的字段的信息进行抽取,从而实现信息栏抽取模块。然后,通过信息栏抽取模块,从信息栏中查找同义词、上位词以及下位词对应的预设字段相一致的字段,并抽取该字段中的所有的字符串,获得专业词的多个同义词、上位词以及下位词对应的字符串。

表1S302、将字符串中的无意义字符去除,并将字符串进行分割,获得专业词的多个同义词、上位词以及下位词。

由于抽取的字符串中可能包含有空字符、各种标点符号或者无用词汇,例如,“无”、“其他”等词汇。所以,在抽取得到字符串后需要将字符串无意义字符去除。需要说明的是,并不是所有的空字符和标点符号都去除,例如两个英文单词中间的空字符则不能去除,而词汇间的分割符也可以不去除。

由于一个字段的字符串中可能包括多专业词的相关词,所以在去除无意义字符后,需要通过分割符将多个词汇进行分割,以区分不同的词汇。

可选地,通过预先构建的文本抽取模块,从所述文本段落中抽取出所述专业词的相关词,具体包括:

通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。

也就是说,文本抽取模块是基于不同的正则规则,从文本段落中抽取专业词的同义词、上位词以及下位词对应的字符串。

具体的,如表2所示,可以分别设定同义词、上位词以及下位词对应的多个正则规则,并根据正则表达式实现正则规则,然后通过编译程序,实现对符合正则表达式的词汇进行抽取,从而实现文本抽取模块。然后,通过文本抽取模块,从文本段落中查找并抽取同义词、上位词以及下位词对应的正则表达式相符合的字符串,获得专业词的多个同义词、上位词以及下位词对应的字符串。

表2

需要说明的是,同样可以将通过文本模块抽取得到的字符串进行清洗操作,即将字符串中的无意义字符去除。然后,将字符串进行分割,获得专业词的多个同义词、上位词以及下位词。

还需要说明的是,由于专业词词表中可能存在完全等同的专业词,例如“齐齐哈尔”和“齐齐哈尔市”,所以需要将这样的专业词进行融合。由于,前期只能通过人工的方式才能找到完全等同的专业词,所以本发明实施例是在获取的专业词的相关词后,基于专业词的相关词,找到专业词词表中完全等同的词,从而避免通过人工的方式进行融合工作。

具体的,本发明另一实施例中,在执行步骤S103后,如图4所示,还可以进一步包括:

S401、根据抽取得到的专业词的同义词,从专业词词表中确定出互为同义异构词的专业词。其中,同义词具有交集的专业词互为同义异构词。

其中,互为同义异构词的专业词也可以理解为可以完全等同的专业词。

也就是说,本发明实施例通过所获取的两个专业词的同义词之间是否存在交集,即判断获取的两个专业词的同义词中是否存在相同的词汇,来判断两个专业词是否完全等同。例如,抽取到的“齐齐哈尔”的同义词包括“鹤城”和“卜奎”,而抽取到的“齐齐哈尔市”的同义词同义也包括“鹤城”和“卜奎”。由于“齐齐哈尔”和“齐齐哈尔市”的同义词之间存在交集,所以“齐齐哈尔”和“齐齐哈尔市”为同义异构词,需要将这两个词以及两个词对应的相关词融合为一条数据进行存储,避免存在不必要的冗余数据。

可选地,可以对专业词词表中的每个专业词进行编号,然后以所有的编号作为横坐标和纵坐标,形成一个矩阵。将矩阵中的元素初始化为0,若矩阵中的某个元素的横坐标和纵坐标对应的专业词的同义词存在交集,则将该元素置为1,词。例如,如图5所示,假设专业词词表中有5个专业词,将专业词从1到5进行编号后,以编号作为横坐标和纵坐标,形成一个5×5的矩阵。将矩阵中的元素初始化为零,然后将矩阵中横坐标和纵坐标对应的专业词的同义词存在交集的元素设置为1。如图5中,纵坐标1和横坐标1、横坐标2、横坐标3对应的元素被置1,说明编号1和编号2和编号3对应的专业词的同义词存在交集。以此类推,获得和每个纵坐标对应的元素值为1的横坐标的集合,并合并编号存在交集的横坐标集合,最终得到多个横坐标集合。其中,同一集合中的横坐标对应专业词互为同义异构词。

例如,同样参见图5,获得纵坐标1元素值为1的横坐标的集合为(1,2,3),纵坐标2对应的横坐标的集合为(1,2,4),纵坐标3对应的横坐标的集合为(1,3),纵坐标4对应的横坐标的集合为(1,4),纵坐标5对应的横坐标的集合为(5)。并合并编号存在交集的横坐标集合,得到横坐标集合(1,2,3,4)和横坐标集合(5),那么编号1~4对应的专业词则互为同义异构词,需要进行融合。

S402、将所述互为同义异构词的专业词以及所述互为同义异构词的专业词中的每一个专业词对应的同义词、上位词以及下位词共同融合为一条数据进行存储。

可选地,融合的具体过程可以是,将互为同义异构词的每个专业词的相关词进行合并,得到一个相关词集合。然后从互为同义异构词的多个专业词中任意选择一个专业词作为代表词,其余的专业词则加入到相关词集合中。当然,这只是其中一种可选地的方法,也可以是采用其他方式的合并策略。例如,将在互为同义异构词的所有专业词的相关词中,不存在相同词汇的相关词保留,存在多个相同词汇的相关词只保留一个,将保留的相关词组成相关词集合。然后从互为同义异构词的多个专业词中任意选择一个专业词作为代表词,其余的专业词则删除。

本发明实施例提供了一种获取专业词的相关词的方法,通过从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。然后以专业词词表中的每个专业词对应的专业词汇解释网页中的信息栏的信息以及文本段落,作为获取专业词的相关词的语料,便于获取到正确的专业词的相关词。最后,通过预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,以及通过预先构建的文本抽取模块,从文本段落中,抽取出专业词的同义词、上位词和下位词。从而实现一种全自动、方便快捷的获取专业词的方法,不需要再通过人力来实现,从而不需要耗费大量的人力和时间成本,并且有效提高了获取的效率。并且,基于矩阵运算将互为同义异构的专业词进行融合,避免存在大量的冗余数据,也便于后续数据的管理和使用。

本发明另实施例提供了一种获取专业词的相关词的装置,如图6所示,包括:

获取单元601,用于从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。

其中,获取单元601的具体工程过程可相应的参考上述方法实施例中的步骤S101,此处不再赘述。

爬取单元602,用于分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息。

其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落。

具体的,爬取单元602的具体工程过程可相应的参考上述方法实施例中的步骤S102,此处不再赘述。

抽取单元603,用于通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词。

其中,所述相关词包括所述专业词的同义词、上位词以及下位词。

具体的,抽取单元603的具体工程过程可相应的参考上述方法实施例中的步骤S103,此处不再赘述。

可选地,本发明另一实施例中,如图7所示,获取单元,包括:

获取子单元701,用于获取专业词汇解释网站的词汇分类的类别中所述领域下的词汇、所述领域的知识问答平台中用户查询的关键词以及权威期刊库中的所述领域的文章中的关键词,组成待过滤专业词词表。

其中获取子单元701的具体工程过程可相应的参考上述方法实施例中的步骤S201,此处不再赘述。

过滤单元702,用于过滤掉所述待过滤专业词词表中不存在对应的所述专业词汇解释网页的词汇,得到所述领域的专业词词表。

其中,过滤单元702的具体工程过程可相应的参考上述方法实施例中的步骤S202,此处不再赘述。

可选地,本发明另一实施例中,所述爬取单元,包括:

爬取子单元,用于通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个所述专业词对应的所述专业词汇解释网页中所有信息栏的信息以及文本段落。

其中,爬取子单元的具体工程过程可相应的参考上述方法实施例中的步骤S101的一种具体实施方式,此处不再赘述。

可选地,本发明另一实施例中,所述抽取单元,包括:

信息栏抽取单元,用于通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串。

清洗单元,用于将所述字符串中的无意义字符去除,并将所述字符串进行分割,获得所述专业词的多个同义词、上位词以及下位词。

文本抽取单元,用于通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。

其中,上述单元的具体工程过程可相应的参考上述方法实施例中的步骤S103的具体实施例方式,此处不再赘述。

可选地,本发明另一实施例中,所述获取专业词的相关词的装置,还包括:

确定单元,用于根据抽取得到的所述专业词的同义词,从所述专业词词表中确定出互为同义异构词的专业词。

其中,同义词具有交集的专业词互为同义异构词。

其中,确定单元的具体工程过程可相应的参考上述方法实施例中的步骤S401,此处不再赘述。

融合单元,用于将所述互为同义异构词的专业词以及所述互为同义异构词的专业词中的每一个专业词对应的同义词、上位词以及下位词共同融合为一条数据进行存储。

其中,融合单元的具体工程过程可相应的参考上述方法实施例中的步骤S402,此处不再赘述。

本发明实施例提供了一种获取专业词的相关词的方法,通过获取单元从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。然后以爬取单元爬取的专业词词表中的每个专业词对应的专业词汇解释网页中的信息栏的信息以及文本段落,作为获取专业词的相关词的语料,便于获取到正确的专业词的相关词。最后,通过抽取单元预先构建的信息栏抽取模块从信息栏的信息中抽取出专业词的相关词,以及通过预先构建的文本抽取模块,从文本段落中,抽取出专业词的同义词、上位词和下位词。从而实现一种全自动、方便快捷的获取专业词的方法,不需要再通过人力来实现,从而不需要耗费大量的人力和时间成本,并且有效提高了获取的效率。并且,通基于矩阵运算的确定单元和融合单元,将互为同义异构的专业词进行融合,避免存在大量的冗余数据,也便于后期数据的管理和使用。

所述获取专业词的相关词的装置包括处理器和存储器,上述获取单元、爬取单元、抽取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对专业词的相关词的自动化爬取。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述获取专业词的相关词的方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述获取专业词的相关词的方法。

本发明实施例提供了一种电子设备,如图8所示,所述电子设备包括至少一个处理器801、以及与处理器801连接的至少一个存储器802、总线803序。其中,处理器801、存储器802通过总线803完成相互间的通信。处理器801用于调用存储器802中的程序指令,以执行上述的获取专业词的相关词的方法。本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

一种获取专业词的相关词的方法,包括:

从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表。

分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落。

通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。

可选地,所述从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表,包括:

获取专业词汇解释网站的词汇分类的类别中所述领域下的词汇、所述领域的知识问答平台中用户查询的关键词以及权威期刊库中的所述领域的文章中的关键词,组成待过滤专业词词表。

过滤掉所述待过滤专业词词表中不存在对应的所述专业词汇解释网页的词汇,得到所述领域的专业词词表。

可选地,所述分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息,包括:

通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个所述专业词对应的所述专业词汇解释网页中所有信息栏的信息以及文本段落。

可选地,所述通过预先构建的信息栏抽取模块,从所述信息栏的信息中抽取出所述专业词的相关词,包括:

通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串。

将所述字符串中的无意义字符去除,并将所述字符串进行分割,获得所述专业词的多个同义词、上位词以及下位词。

可选地,所述通过预先构建的文本抽取模块,从所述文本段落中抽取出所述专业词的相关词,包括:

通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。

可选地,所述通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述段落文本中,抽取出所述专业词的相关词之后,还包括:

根据抽取得到的所述专业词的同义词,从所述专业词词表中确定出互为同义异构词的专业词;其中,同义词具有交集的专业词互为同义异构词。

将所述互为同义异构词的专业词以及所述互为同义异构词的专业词中的每一个专业词对应的同义词、上位词以及下位词共同融合为一条数据进行存储。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号