首页> 中国专利> 同义词检索结果按词义自动聚类方法

同义词检索结果按词义自动聚类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种同义词检索结果按词义自动聚类方法，包括以下步骤：S1，向同义词检索系统提交检索词进行一级检索，获得一级检索结果；S2，将所述一级检索结果中的每个词都进行二级检索，获得二级检索结果；S3，构建所述二级检索结果的交集矩阵；S4，根据所述二级检索结果的交集矩阵构建词义相似度矩阵；S5，根据所述词义相似度矩阵对所述一级检索结果按词义聚类。能够对同义词检索系统的检索结果自动进行词义聚类，从而使检索者更加准确简明的获得所需的检索信息，提高检索者的检索体验。

著录项

公开/公告号CN103049524A

专利类型发明专利
公开/公告日2013-04-17

原文格式PDF
申请/专利权人中国科学技术信息研究所;
展开▼

申请/专利号CN201210556988.0
发明设计人刘伟;王星;
展开▼

申请日2012-12-20
分类号G06F17/30;
代理机构北京市盛峰律师事务所;
代理人赵建刚
地址 100038 北京市海淀区复兴路15号
入库时间 2024-02-19 18:33:18

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-02

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160106 终止日期:20161220 申请日:20121220

专利权的终止
2016-01-06

授权

授权
2013-05-15

实质审查的生效 IPC(主分类):G06F17/30 申请日:20121220

实质审查的生效
2013-04-17

公开

公开

说明书

技术领域

本发明属于文献检索和知识组织技术领域，具体涉及一种同义词检索结果按词义自动聚类方法。

背景技术

同义词在自然语言处理、信息检索等领域中具有十分重要的应用意义，通过扩展检索提高文献数据库和网络检索的效率，推动文献自动标引和检索的智能化，并能应用于分类表、叙词表、语义网络、本体等知识组织系统的构建，以及自动分类、自动文摘、自动翻译、自动问答和其他中文信息处理领域。

目前有各种类型的同义词检索系统，以客户端(比如有道、灵格斯、金山词霸等)或网络在线(比如)方式为用户提供同义词检索服务，表1分别列出了一些常见的客户端和在线的同义词检索系统。

表1.同义词检索系统示例

目前同义词检索系统存在一个普遍的缺陷，就是对同义词检索结果没有按照词义聚类。在实际应用中，通常只需要其中一种词义的同义词。以英文词汇 “plant”为例，包含了工厂、植物、设备、种植等多种词义，对其进行同义词检索时，所有词义的同义词都会作为检索结果返回，而没有按照不同的词义进行聚类，因此检索者检索体验差，难以准确获得需要检索的信息。

因此，对同义词检索系统的检索结果按照词义进行聚类是许多重要应用迫切需要解决的关键技术问题之一，所以本发明具有非常重要的实际意义和广阔的应用前景。

发明内容

针对现有技术存在的缺陷，本发明提供一种同义词检索结果按词义自动聚类方法，能够对同义词检索系统的检索结果自动进行词义聚类，从而使检索者更加准确简明的获得所需的检索信息，提高检索者的检索体验。

本发明采用的技术方案如下：

本发明提供一种同义词检索结果按词义自动聚类方法，包括以下步骤：

S1，向同义词检索系统提交检索词进行一级检索，获得一级检索结果；

S2，将所述一级检索结果中的每个词都进行二级检索，获得二级检索结果；

S3，构建所述二级检索结果的交集矩阵；

S4，根据所述二级检索结果的交集矩阵构建词义相似度矩阵；

S5，根据所述词义相似度矩阵对所述一级检索结果按词义聚类。

优选的，所述一级检索结果得到m个词，则：S3，构建所述二级检索结果的交集矩阵具体为：

S31，初始化(m+1)×(m+1)大小的交集矩阵SM；

S32，将所述一级检索结果填入所述交集矩阵的首行首列；

S33，将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。

优选的，S32，将所述一级检索结果填入所述交集矩阵的首行首列具体为：

将所述一级检索结果填入所述交集矩阵的首行具体为：将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格：[0，1]、[0，2]...[0，m]；

将所述一级检索结果填入所述交集矩阵的首列具体为：将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格：[1，0]、[2，0]...[m，0]；

其中，所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。

优选的，S33，将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为：

对于所述交集矩阵除首行首列以外的其它任意一个单元格，即第[i，j]单元格，所述第[i，j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。

优选的，S4，根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为：

所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同；

所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同；

对于所述词义相似度矩阵中除首行首列外的其他每个单元格，根据语义相似度的计算规则得到一个0或1的值。

优选的，所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格，根据语义相似度的计算规则得到一个0或1的值具体为：

对于所述词义相似度矩阵中除首行首列外的一个单元格，如果满足下列三种情况之一，则该单无格赋值1，否则赋值为0；

第一种情况，如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2，该单元格赋值1；

第二种情况，如果对应行首词的同义词检索结果包含对应列首词，该单元格赋值1；

第三种情况，如果对应行首词的同义词检索结果包含对应列首词，该单元格赋值1。

优选的，S5，根据所述词义相似度矩阵对所述一级检索结果按词义聚类具体包括：

S51，对所述一级检索结果按词义进行浅层聚类；

S52，在浅层聚类后，对浅层聚类结果按词义进行深层聚类。

优选的，S51，对所述一级检索结果按词义进行浅层聚类具体为：

在所述词义相似度矩阵中，如果一个单元格为1，则该单元格对应的行首词和列首词互为同义词，则该单元格对应的行首词和列首词形成一个集合，并作为所述浅层同义词聚类集合的一个元素。

优选的，S52，在浅层聚类后，对浅层聚类结果按词义进行深层聚类具体为：

如果所述浅层同义词聚类集合中，两个元素之间的交集不为空，则合并所述两个元素，并作为深层同义词聚类集合中的一个元素。

本发明的有益效果如下：

本发明提供一种同义词检索结果按词义自动聚类方法，能够对同义词检索系统的检索结果自动进行词义聚类，从而使检索者更加准确简明的获得所需的检索信息，提高检索者的检索体验。

附图说明

图1为本发明提供的同义词检索结果按词义自动聚类方法的流程示意图。

具体实施方式

以下结合附图对本发明进行详细说明：

实施例1

本发明基本思想为：假设给定的同义词检索系统的检索结果是正确的，即检索结果中的任意一个词与检索词都是同义词，只不过由于检索词出现一词多义时，检索结果中的词与词之间可能不是同义词。

给定任意一个可用的同义词检索系统，利用该同义词检索系统自身实现对同义词检索结果的按照词义自动聚类。该方法按实现顺序共分为五个步骤：向同义词检索系统提交检索词进行一级检索，获得一级检索结果；把一级检索结果中的每个词进行二级检索，获得二级检索结果，即一级检索结果中每个词的检索结果；构建二级检索结果交集矩阵；根据二级检索结果的交集矩阵构建词义相似度矩阵；根据词义相似度矩阵对检索结果聚类。

为达到上述目的，本发明采取的技术方案是：

本发明提供一种同义词检索结果按词义自动聚类方法，如图1所示，该方法包括五个步骤：A、一级检索结果的获取；B、二级检索结果的获取；C、构建二级检索结果交集矩阵；D、计算词义相似度；E、同义词聚类。

步骤A一级检索结果的获取过程进一步包括以下步骤：

A1、初始化一级检索结果集合FLR1；

A2、向同义词检索系统提交检索词x；

A3、同义词检索系统对提交的检索词x进行一级检索，如果检索结果为空，退出本次检索；否则转步骤A4；

A4、将一级检索结果{x₁，x₂，...，x_m}放入从集合FLR1；

A5、返回A4得到的集合FLR1。

步骤B二级检索结果获取过程进一步包括：

B1、初始化临时集合TFLR1，将FLR1集合中元素全部复制到TFLR1；

B2、如果B1得到的集合TFLR1为空，转步骤B10；否则转步骤B3；

B3、初始化二级检索结果集合FLR2；

B4、从集合TFLR1中取出检索结果之一x_i；

B5、初始化二级检索结果单项集合FLR2_i；

B6、向同义词检索系统提交检索词x_i；

B7、如果x_i的检索结果为空，将集合FLR2_i放入集合FLR2，转步骤B2，否则转步骤B8；

B8、将检索结果{x_i1，x_i2，...，x_im1}放入从集合FLR2_i；

B9、将集合FLR2_i放入集合FLR2，转步骤B2；

B10、返回集合FLR2；

步骤C构建二级检索结果交集矩阵的过程进一步包括：

初始化(m+1)×(m+1)大小的交集矩阵；将一级检索结果填入交集矩阵的首行首列；将二级检索结果计算交集填入交集矩阵的其它单元格。其中，将所述一级检索结果填入所述交集矩阵的首行首列具体为：

将所述一级检索结果填入所述交集矩阵的首行具体为：将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格：[0，1]、[0，2]...[0，m]；

将所述一级检索结果填入所述交集矩阵的首列具体为：将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格：[1，0]、[2，0]...[m，0]；

其中，所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为：

具体的，包括：

C1、初始化(m+1)×(m+1)矩阵SM[0-m，0-m]，m为一级检索结果集合FLR1 的元素个数；

C2、填写矩阵SM首行和首列的位置SM[i，j]，i＝0或j＝0，且i和j不同时为0；

其中，填写矩阵SM首行和首列的位置进一步包括：

C2_1、初始化计数器i为0；

C2_2、如果i＝m，转到步骤C2_6，否则转到步骤C2_3；

C2_3、i＝i+1；

C2_4、取出集合FLR1中的元素x_i；

C2_5、填入SM[i，0]和SM[0，i]，转到步骤C2_2；

C2_6、返回矩阵SM。

C3、填写矩阵SM除首行和首列的其它位置SM[i，j]，i≠0且j≠0。

其中步骤C3填写矩阵SM除首行和首列的其它位置进一步包括：

C3_1、初始化计数器i为0；

C3_2、如果i大于m，转步骤C3_12，否则转步骤C3_3；

C3_3、i＝i+1；

C3_4、从集合FLR2中取出集合FLR2_i；

C3_5、初始化计数器j为0；

C3_6、j＝j+1；

C3_7、如果i等于j，转步骤C3_6，否则转步骤C3_8；

C3_8、如果j大于m，转步骤C3_1，否则转步骤C3_9；

C3_9、从集合FLR2中取出集合FLR2_j；

C3_10、把FLR2_i∩FLR2_j填入SM[i，j]；

C3_11、转步骤C3_6；

C3_12、返回矩阵SM。

步骤D计算词义相似度具体为：

所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同；

所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同；

对于所述词义相似度矩阵中除首行首列外的其他每个单元格，根据语义相似度的计算规则得到一个0或1的值。其中，所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格，根据语义相似度的计算规则得到一个0或1 的值具体为：

对于所述词义相似度矩阵中除首行首列外的一个单元格，如果满足下列三种情况之一，则该单无格赋值1，否则赋值为0；

第一种情况，如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2，该单元格赋值1；

第二种情况，如果对应行首词的同义词检索结果包含对应列首词，该单元格赋值1；

第三种情况，如果对应行首词的同义词检索结果包含对应列首词，该单元格赋值1。

进一步包括：

D1、初始化(m+1)×(m+1)词义相似度矩阵WS[0-m，0-m]；

D2、初始化计数器i为1；

D3、初始化计数器j为i+1；

D4、设SM[i,j]为0；

D5、如果SM[i，j]中元素数量大于等于2，设WS[i,j]为1；

D6、如果w_i∈FLR2_j，设WS[i，j]为1；

D7、如果w_j∈FLR2_i，设WS[i，j]为1；

D8、j＝j+1；

D9、如果j＞m，转到步骤D10，否则转到步骤D4；

D10、i＝i+1；

D11、如果i≥m，转到步骤D12，否则转到步骤D3；

D12、输出词义相似度矩阵WS。

步骤E同义词聚类进一步包括：

E1、初始化同义词聚类集合SCS；

E2、进行浅层同义词聚类；

其中，步骤E2浅层同义词聚类具体包括：在所述词义相似度矩阵中，如果一个单元格为1，则该单元格对应的行首词和列首词互为同义词，则该单元格对应的行首词和列首词形成一个集合，并作为所述浅层同义词聚类集合的一个元素；

进一步包括：

E2_1、初始化计数器i为1；

E2_2、初始化计数器j为i+1；

E2_3、如果WS[i，j]为1，转步骤E2_4，否则转步骤E2_5；

E2_4、生成集合{w_i，w_j}，将该集合作为一个元素加入到同义词聚类集合SCS 中；

E2_5、j＝j+1；

E2_6、如果j＞m，转到步骤E2_7，否则转到步骤E2_3；

E2_7、i＝i+1；

E2_8、如果i≥m，转到步骤E2_9，否则转到步骤E2_2；

E2_9、输出同义词聚类集合SCS。

E3、进行深层同义词聚类；

其中步骤E3深层同义词聚类具体为：如果所述浅层同义词聚类集合中，两个元素之间的交集不为空，则合并所述两个元素，并作为深层同义词聚类集合中的一个元素。

进一步包括：

E3_1、初始化深层同义词聚类集合DSCS为空；

E3_2、将集合SCS中的元素序列化为{s₁，s₂，...，s_|SCS|}，其中|SCS|为集合SCS 当前的元素数量；

E3_3、初始化计数器j为2；

E3_4、如果|SCS|≤1，转步骤E39，否则从集合SCS中取出第1个元素s₁；

E3_5、从集合SCS中取出第j个元素s_j；

E3_6、如果s₁∩s_j不为空，s₁＝s₁∪s_j；

E3_7、如果当前j的值为|SCS|，转步骤E3_8，否则j＝j+1，转步骤E3_4；

E3_8、将s₁放入集合DSCS，转步骤E3_2；

E3_9、将集合DSCS中的所有元素加入集合SCS；

E3_10、返回集合SCS。

E4、输出同义词聚类结果SCS。

实施例二

下面结合附图和实施例对本发明作进一步地描述。

以检索词book为例描述本发明所提出的同义词检索结果按词义自动聚类方法。表2列出了book的一级检索结果和二级检索结果。为了便于理解，检索结果作了必要的简化。

表2

按照本发明提出的5个步骤，分别执行如下：

A、一级检索结果的获取

输入检索词“book”，得到一级检索结果“word”、“subscribe”、“reserve”、“volume”、 “script”，

将这5个一级检索结果放入集合FLR1＝{“word”，“subscribe”，“reserve”，“volume”、 “script”}。

B、二级检索结果的获取

输入检索词“word”，得到二级检索结果“term”、“phrase”、“book”、“talk”、“voice”，输入检索词“subscribe”，得到二级检索结果“allow”、“book”、“pledge”、“support”、 “order”，

输入检索词“reserve”，得到二级检索结果“book”、“allow”、“substitute”、“cache”、 “backup”、“spare”、“order”，

输入检索词“volume”，得到二级检索结果“tome”、“amount”、“mass”、“book”、 “script”，

输入检索词“script”，得到二级检索结果“penmanship”、“writing”、“hand”、“book”， “term”

将5次检索结果分别作为独立的元素放入集合FLR2＝{{“term”、“phrase”、“book”、 “talk”、“voice”}，{“allow”、“book”、“pledge”、“support”、“order”}，{“book”、 “allow”、“substitute”、“cache”、“backup”、“spare”、“order”}，{“book”、“allow”、 “substitute”、“cache”、“backup”、“spare”、“order”}，{“tome”、“amount”、“mass”、 “book”}，{“penmanship”、“writing”、“order”、“hand”、“book”}}

C、构建二级检索结果交集矩阵

构建矩阵SM[0-m，0-m]主要包括两步，一是填写矩阵的首行首列，分别按顺序填写一级检索结果，

Word Subscribe Reserve Volume Script Word Subscribe Reserve Volume Script

二是填写矩阵的其它单元格，第[i，j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。以第[2，3]单元格为例，第2个词是 Subscribe，它的二级检索结果是{“allow”、“book”、“pledge”、“support”、“order”}，第3个词是Reserve，它的二级检索结果是{“book”、“allow”、“substitute”、“cache”、 “backup”、“spare”、“order”}，它们的交集是{“allow”、“book”、“order”}，这样计算每个单元格，得到最终的SM矩阵

D、计算词义相似度

初始化词义相似度矩阵WS

Word Subscribe Reserve Volume Script Word Subscribe Reserve Volume Script

计算每个单元格的语义相似度值，计算方法按照步骤D5、D6、D7，得到最终 WS矩阵

Word Subscribe Reserve Volume Script

Word 0 0 0 1 Subscribe 0 1 0 0 Reserve 0 1 0 0 Volume 0 0 0 1 Script 1 0 0 1

E、同义词聚类

浅层聚类结果：{{“word”、“script”}、{“subscribe”、“reserve”}、{“volume”、“script”}} 深层聚类结果：{{“word”、“script”、“volume”}、{“subscribe”、“reserve”}}

经过这5个步骤，book的同义词检索结果被聚成了两个集合，每个集合代表不同的词义，第1个集合是“书籍文本”的含义，第2个集合是“预订”的含义。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 同义词检索结果按词义自动聚类方法 [P] . 中国专利： CN103049524B . 2016.01.06
2. 同义词检索结果按词义自动聚类方法 [P] . 中国专利： CN103049524A . 2013-04-17
3. AN AUTOMATIC CLUSTERING METHOD OF WORD SENSES USING A WORD RELATION GRAPH [P] . 韩国专利： KR20100033585A . 2010-03-31

机译：基于词关系图的词义自动聚类方法
4. AUTOMATED METHOD OF ESTABLISHING THESAURUS OF NAMED ENTITIES THAT CAN INCLUDE A PLURALITY OF HIERARCHICAL LEVELS, AND THE USE OF SUCH THESAURUS [P] . 法国专利： FR3059797B1 . 2019-10-18

机译：建立包括多个等级的命名实体的同义词库的自动方法，以及此类同义词库的使用
5. AUTOMATED METHOD OF ESTABLISHING THESAURUS OF NAMED ENTITIES THAT CAN INCLUDE A PLURALITY OF HIERARCHICAL LEVELS, AND THE USE OF SUCH THESAURUS [P] . 法国专利： FR3059797A1 . 2018-06-08

机译：建立包括多个等级的命名实体的同义词库的自动方法，以及此类同义词库的使用