首页> 中国专利> 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置

同义词模板的挖掘方法和装置以及同义词挖掘方法和装置

摘要

本发明提供了一种同义词模板的挖掘方法和装置以及同义词的挖掘方法和装置,其中同义词挖掘的方法包括:利用预先设置的同义词模板,查找网页中的同义标记符;在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;其中,所述同义词模板包括:同义标记符和同义词对中词语的边界信息。通过本发明可以大大提高同义词挖掘的效率。

著录项

  • 公开/公告号CN102750282A

    专利类型发明专利

  • 公开/公告日2012-10-24

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201110098245.9

  • 发明设计人 徐文智;

    申请日2011-04-19

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何青瓦;李庆波

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-12-18 07:07:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-10-22

    授权

    授权

  • 2012-12-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110419

    实质审查的生效

  • 2012-10-24

    公开

    公开

说明书

【技术领域】

本发明涉及计算机技术领域,特别涉及一种同义词模板的挖掘方法和装 置以及同义词挖掘的方法和装置。

【背景技术】

当用户在使用搜索引擎进行搜索时,为了能够将与用户所输入搜索请求 (query)的同义词相匹配的网页也包含在搜索结果中召回,会用到基于同义 词的query扩展,即在利用query进行搜索的同时也利用query的同义词进行 搜索。为了在搜索引擎中应用该技术,同义词的挖掘是非常重要的基础工作。

现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行 同义词挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。

【发明内容】

有鉴于此,本发明提供了一种同义词模板的挖掘方法和装置以及同义词 挖掘方法和装置,以便于提高同义词挖掘的效率。

具体技术方案如下:

一种同义词模板的挖掘方法,所述同义词模板包括:同义标记符和同义词对 中同义词的边界信息;该方法包括:

A、获取预设的种子词对;

B、将所述种子词对在网页中设定上下文范围内的词语或符号作为候选标记 符,并记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中 的边界信息;

C、基于记录的各候选标记符的出现次数为各候选标记符打分,选择打分值 满足预设打分阈值的候选标记符并记录为所述同义词模板中的同义标记符;

D、将所述同义标记符对应的所述边界信息记录在所述同义词模板中。

具体地,所述种子词对中其中一个词语P1为所述网页的主题词,另一个词 语P2为所述主题词的同义词;

所述步骤B具体为:将所述P2在所述网页中设定上下文范围内的词语或符 号作为候选标记符,并记录各候选标记符的出现次数以及所述P2的边界信息。

或者,所述步骤B具体为:

确定所述种子词对中两词语P1和P2之间的距离在预设距离范围内时所在 的网页部分,将该网页部分中种子词对的设定上下文范围内的词语或符号作为 候选标记符,并记录各候选标记符的出现次数以及所述P1和所述P2在所述网 页部分中的边界信息。

较优地,在所述记录各候选标记符的出现次数之前,该方法还包括:将包含 在预设的停用符表中的候选标记符过滤掉。

其中,所述同义标记符包括以下词语中的至少一种:“简称”、“全称”、“即”、 “缩写”;或者,

包括以下符号中的至少一种:括号、“viz”。

更优地,在所述为各候选标记符打分时进一步结合各候选标记符出现在所述 网页中的位置。

所述同义词模板中进一步包括:同义词对中同义词相对于所述同义标记符的 位置信息;

所述步骤B中进一步记录所述P2相对于所述候选标记符的位置信息;

所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同 义词模板中。

或者,所述同义词模板中进一步包括:同义词对中同义词相对于所述同义标 记符的位置信息;

所述步骤B中进一步记录所述P1和所述P2相对于所述候选标记符的位置 信息;

所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同 义词模板中。

其中,所述位置信息包括:同义词相对于同义标记符的方向信息,和/或, 同义词相对于同义标记符的距离信息。

所述同义词模板存储在数据库中,所述同义标记符存储为索引,指向对应的 边界信息。

一种同义词挖掘的方法,该方法包括:

A、利用预先设置的同义词模板,查找网页中的同义标记符;

B、在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板 中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;

其中,所述同义词模板包括:同义标记符和同义词对中词语的边界信息。

其中,所述同义词模板采用人工方式预先设置在数据库中,或者,采用上述 同义词模板的挖掘方法预先挖掘并记录在数据库中。

当所述同义词模板采用人工方式预先设置时,所述边界信息包括:具体的上 下文边界或边界确定策略。

如果所述边界信息包括边界确定策略,则所述步骤B具体包括:

在所述网页中同义标记符前后的设定距离范围内,计算除同义标记符之外其 他各词语之间的匹配度,抽取出两个词语Q1和Q2构成同义词对,其中Q2覆 盖Q1中所有的字,且在Q1和Q2之间具有最大的匹配度基础上保证Q2最短。

所述步骤B具体包括:

在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标 记符对应的边界信息,抽取出所述网页的主题词对应的同义词,记录由所述主 题词和抽取出的同义词构成的同义词对。

或者,所述步骤B具体包括:

在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标 记符对应的边界信息,抽取出满足该边界信息的两个词语构成同义词对。

更优地,在所述步骤B之后还包括:

C、对抽取出的同义词对进行以下所列过滤处理中的任一或任意组合:

将所述同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤 掉,N1为预设的正整数;

将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同 义词对过滤掉,N2为预设的正整数;

如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词 对相同,则将所述某同义词对过滤掉;以及,

将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的 同义词对过滤掉,N5为预设的正整数。

较优地,所述同义词模板中进一步包括:同义词对中同义词相对于所述同 义标记符的位置信息,则在所述步骤B中抽取同义词对时,进一步结合步骤A 查找到的同义标记符在所述同义词模板中对应的所述位置信息。

其中,所述位置信息包括:同义词相对于同义标记符的方向信息,和/或, 同义词相对于同义标记符的距离信息。

所述同义标记符包括以下词语中的至少一种:“简称”、“全称”、“即”、“缩 写”;或者,

包括以下符号中的至少一种:括号、“viz”。

一种同义词模板的挖掘装置,所述同义词模板包括:同义标记符和同义词 对中同义词的边界信息;该装置包括:种子词对获取单元、候选标记符确定单 元、信息记录单元和标记符确定单元;

所述种子词对获取单元,用于获取预设的种子词对;

所述候选标记符确定单元,用于将所述种子词对在网页中设定上下文范围 内的词语或符号确定为候选标记符;

所述信息记录单元,用于记录各候选标记符的出现次数以及所述种子词对 中同义词在所述网页中的边界信息;将所述标记符确定单元选择的候选标记符 记录为所述同义词模板中的同义标记符,将所述同义标记符对应的所述边界信 息记录在所述同义词模板中;

所述标记符确定单元,用于基于所述信息记录单元记录的各候选标记符的 出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符。

具体地,所述种子词对中其中一个词语为P1为所述网页的主题词,另一个 词语P2为所述主题词的同义词;

所述候选标记符确定单元具体将所述P2在所述网页中设定上下文范围内的 词语或符号作为候选标记符;

所述信息记录单元记录的边界信息为所述P2的边界信息。

或者,所述候选标记符确定单元具体确定所述种子词对中两词语P1和P2 之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子词对的 设定上下文范围内的词语或符号作为候选标记符;

所述信息记录单元记录的边界信息为所述P1和所述P2在所述网页内容中 的边界信息。

更进一步地,该装置还包括:过滤处理单元,用于将所述候选标记符确定 单元得到的候选标记符中,包含在预设的停用符表中的候选标记符过滤掉。

其中,所述同义标记符包括以下词语中的至少一种:“简称”、“全称”、“即”、 “缩写”;或者,

包括以下符号中的至少一种:括号、“viz”。

较优地,所述标记符确定单元在为各候选标记符打分时进一步结合各候选 标记符出现在所述网页中的位置。

更优地,所述同义词模板中进一步包括:同义词对中同义词相对于所述同 义标记符的位置信息;

所述信息记录单元,还用于记录所述P2相对于所述候选标记符的位置信息, 将所述同义标记符对应的所述位置信息记录在所述同义词模板中。

或者,所述信息记录单元,还用于记录所述P1和所述P2相对于所述候选 标记符的位置信息,将所述同义标记符对应的位置信息记录在所述同义词模板 中。

其中,所述位置信息包括:同义词相对于同义标记符的方向信息,和/或, 同义词相对于同义标记符的距离信息。

另外,该装置还包括:数据库,用于存储所述同义词模板;

所述信息记录单元将所述同义标记符存储为索引,指向对应的边界信息。

一种同义词挖掘的装置,该装置包括:标记符匹配单元和同义词对抽取单 元;

所述标记符匹配单元,用于利用预先设置的同义词模板,查找网页中的同 义标记符;

所述同义词对抽取单元,用于在所述网页中所述标记符匹配单元查找出的 同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对 应的同义词对中各词语的边界信息,抽取出同义词对;

所述同义词模板包括:同义标记符和同义词对中词语的边界信息。

其中,所述同义词模板采用人工方法预先设置在数据库中,或者,由上述 同义词模板的挖掘装置预先挖掘并记录在数据库中。

当所述同义词模板采用人工方式预先设置时,所述边界信息包括:具体的 上下文边界或边界确定策略。

如果所述边界信息包括边界确定策略,则所述同义词对抽取单元具体包括: 匹配度计算子单元和词对抽取子单元;

所述匹配度计算子单元,用于在所述网页中所述标记符匹配单元查找出的 同义标记符前后的设定距离范围内,计算除所述同义标记符之外其他各词语之 间的匹配度;

所述词对抽取子单元,用于根据所述匹配度计算子单元的计算结果,抽取 出两个词语Q1和Q2构成同义词对,其中Q2覆盖Q1中所有的字,且在Q1和 Q2之间具有最大的匹配度基础上保证Q2最短。

所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内, 按照同义模板中同义标记符对应的边界信息,抽取出所述网页的主题词对应的 同义词,由所述主题词和抽取出的同义词构成同义词对。

或者,所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范 围内,按照同义模板中同义标记符对应的边界信息,抽取出满足该边界信息的 两个词语构成同义词对。

较优地,该装置还包括:过滤处理单元,用于对所述同义词对抽取单元抽 取出的同义词对进行以下所列过滤处理中的任一或任意组合:

将所述同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤 掉,N1为预设的正整数;

将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同 义词对过滤掉,N2为预设的正整数;

如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词 对相同,则将所述某同义词对过滤掉;以及,

将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的 同义词对过滤掉,N5为预设的正整数。

更优地,所述同义词模板中进一步包括:同义词对中同义词相对于所述同 义标记符的位置信息;

所述同义词对抽取单元在抽取同义词对时,进一步结合所述同义标记符在 所述同义词模板中对应的所述位置信息。

其中,所述位置信息包括:同义词相对于同义标记符的方向信息,和/或, 同义词相对于同义标记符的距离信息。

所述同义标记符包括以下词语中的至少一种:“简称”、“全称”、“即”、“缩 写”;或者,

包括以下符号中的至少一种:括号、“viz”。

由以上技术方案可以看出,本发明建立包含同义标记符和同义词对中同 义词的边界信息的同义词模板,并利用该同义词模板从网页中抽取同义词对, 也就是说,在挖掘同义词的过程中仅需要利用预先建立的同义词模板与网页 内容进行匹配,相比较现有技术中计算网页中两两词语的相关概率的方式, 大大提高了同义词挖掘的效率。

【附图说明】

图1为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程 图;

图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方 法流程图;

图3为本发明实施例三提供的针对知识类网页进行同义词挖掘的方法流 程图;

图4为本发明实施例四提供的针对普通网页进行同义词模板挖掘的方法 流程图;

图5为本发明实施例五提供的同义词模板的挖掘装置结构图;

图6为本发明实施例六提供的同义词挖掘的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

在网页内容中,存在大量的同义词现象,比如,在关于美国经济的普通 网页中,可能会提到“纽约证券交易所”,其后往往会出现“(NYSE,下 简称纽交所)”,这就出现了同义词现象。再如,在一些诸如百科的知识类 网页中,整个网页对一个名词进行介绍,在正文的前面几个段落中往往会提 到这个名词的简称、昵称等同义词。针对上述网页的特点,可以采用基于模 板挖掘的方法挖掘网页中出现的同义词。

本发明实施例中对同义词进行挖掘所采用的模板可以包括:同义标记符 和边界信息。其中,同义标记符用于标记同义词对的出现,边界信息用于确 定同义词对的上下文边界。同义标记符可以是词语,也可以是符号。

鉴于普通网页和知识类网页中同义词出现的不同特点,下面分别针对普 通网页和知识类网页的同义词挖掘方法进行详细描述。首先结合实施例一对 普通网页的同义词挖掘方法进行描述。

实施例一、

在普通网页中可能会出现多个词的同义词,即存在多个同义词对,且互 为同义词的两个词语出现在较小的上下文窗口中,通常存在一个同义标记符 对互为同义词的两个词语进行标记。该同义标记符可以包括但不限于:“简 称”、“全称”、“即”、“缩写”,以及括号。对于中文同义词对,对同 义标记符(诸如“简称”、“全称”等)前后若干距离的词语作为挖掘出的 同义词对或者候选同义词对。对于英文同义词对,对同义标记符(诸如“缩 写”、“即”等或者括号)前后若干距离的英文串作为同义词对或者候选同 义词对。

基于普通网页的以上特点,可以采用预先人工配置同义词模板的方法, 该同义词模板中包括的同义标记符如上所述可以为“简称”、“全称”、“即”、 “缩写”等词语(以下称为同义标记词),也可以为括号、“viz.”等符号, 包括的边界信息可以设置为具体的上下文边界,即同义词对中同义词的上下 文边界(同义词开始与结束的位置),也可以设置为边界确定策略。

其中,如果边界信息是上下文边界,可以包括但不限于以下上下文边界: 同义标记词-右括号、左括号-同义标记词、左括号-右括号、逗号-右括号、左 括号-逗号、句首-左括号、同义标记词-句尾等。“-”之前的是上文边界,“-” 之后的是下文边界。

例如,对于纽约证券交易所(NYSE,下简称纽交所),其中,“NYSE” 的上下文边界为:左括号-逗号,“纽交所”的上下文边界为:“简称”-右 括号。

对于纽交所(全称纽约证券交易所,New York Stock Exchange),其中 “纽约证券交易所”的上下文边界为:“全称”-逗号,“New York Stock Exchange”的上下文边界为:逗号-右括号。

如果边界信息是边界确定策略,则该边界确定策略可以设定为:同义标 记符前后设定距离范围内的各词语中匹配度满足预设条件的词语作为同义词 对。

图1为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程 图,如图1所示,该方法可以包括以下步骤:

步骤101:利用预先设置的同义词模板,查找网页中的同义标记符。

可以将设置的同义词模板存储在数据库中,将同义标记符存储为第一级 索引,指向对应的边界信息。在利用同义词模板进行匹配时,首先将同义标 记符与网页内容进行匹配,查找网页中的同义标记符。网页中的同义词对可 能在同义标记符的前后出现。

步骤102:在网页中同义标记符前后的设定距离范围内,按照同义词模 板中包含的边界信息,抽取出同义词对。

需要说明的是,本发明中所有实施例中的处理都是基于对网页的文本处 理(分词处理和词性标注)的。

由于普通网页中数据噪声较大,可以仅针对其中的缩写类或翻译类同义 词对进行抽取。即抽取出的同义词对中,其中一个词语是另一个词语的缩写 或翻译。对于缩写类的同义词对,有这样一个特点:中文的同义词对中,缩 写词中的字都是全称词中字的子集;英文的同义词对中,缩写词是全称词各 首字母的子集。

如果同义词模板中的边界信息包含具体的上下文边界,则直接利用该上 下文边界抽取出同义词,即将上下文边界符合边界信息的词语抽取出来。例 如,对于网页内容“纽约证券交易所(NYSE,下简称纽交所)”,如果同 义词模板中同义标记符为“简称”、边界信息为:句首-左括号,以及同义标 记符-右括号,则可以从中抽取出同义词对:“纽约证券交易所”和“纽交所”; 如果同义词模板中同义标记符为括号、边界信息为:句首-左括号,以及左括 号-逗号,则可以从中抽取出同义词对:“纽约证券交易所”和“NYSE”。 这种方式对于缩写类或翻译类同义词对均可适用。

如果同义词模板中的边界信息包含边界确定策略,则可以采用动态规 划的方法计算网页中同义标记符之前设定范围内各词语与之后设定范围内各 短语之间的匹配度,选择匹配度最大的短语作为同义词对。这种方式应用于 缩写类同义词对。

计算两词语(扩展的词语,包含短语的概念)之间匹配度的方式可以采 用与编辑距离相类似的方法,假设其中一个词语P1由以下字组成:a1、a2 和a3,另一个词语P2由以下字组成:f1、f2、f3和f4组成,P1可能是P2 的缩写词,那么P1中的字应该都在P2中出现,P2如果包含不相关的词,匹 配度是不变的,因此,仅需要找出匹配度最大的基础上全称词最短的词对。

具体公式如下:

MAT(P1,P2)=MAT(ala2a3,f1f2f3f4)

=max(MAT(a1a2,f1f2f3)+1,MAT(a1a2a3,f1f2f3))a3=f4MAT(a1a2a3,f1f2f3)a3f4---(1)

其中,MAT(P1,P2)为词语P1和P2之间的匹配度, MAT(φ,φ)=MAT(φ,x)=MAT(φ,x)=0,MAT(x,x)=1,x表示任意字,φ表示没有字。

步骤103:对抽取出的同义词对进行过滤处理。

通过步骤101和步骤102抽取出的同义词对中,可能存在一些不合理的 词对,因此较优地,可以通过步骤103对抽取出的同义词对进行过滤处理, 从而提高同义词对的质量。本领域技术人员很容易理解,本步骤是本发明的 可选步骤。

采用的过滤处理可以包括但不限于以下所列中的任一或任意组合:

1)基于出现频次的过滤:将同义词对中来源网页数目小于预设的数目 阈值N1的同义词对过滤掉,N1为预设的正整数。

2)基于搜索日志的过滤:将其中任一个词语在搜索日志中的出现次数 小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数。即如果由 词语P1和P2构成的同义词对中,P1或者P2在搜索日志中的出现次数小于 N2,则将该同义词对过滤掉。

3)对冗余同义词对的过滤:如果将某同义词对中两同义词重叠的部分 删除后得到的词对与其他同义词对相同,则将该某同义词对过滤掉。

例如,同义词对:“北京大学出版社”和“北大出版社”,如果将两同 义词重叠的部分删除后得到的词对为:“北京大学”和“北大”,如果该词 对已经作为候选同义词存在,则可以将同义词对“北京大学出版社”和“北 大出版社”过滤掉。

4)基于搜索结果的过滤:如果利用同义词对进行搜索得到的搜索结果 数量小于预设的数量阈值N5,N5为预设的正整数,则将该同义词对过滤掉。

下面结合实施例二和实施例三分别对知识类网页的同义词模板挖掘方 法和同义词挖掘方法进行描述。

实施例二、

在知识类网页中,往往只有网页所介绍名词的同义词,而且同义词可能 分布在不同的句子或段落中。在本发明实施例中,可以采用自动学习的方式 挖掘出同义词模板,利用该同义词模板进行同义词挖掘时,不仅能挖掘出缩 写类和翻译类同义词对,也能够挖掘出缩写类和翻译类之外的同义词对。

图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方 法流程图,如图2所示,该方法可以包括以下步骤:

步骤201:获取预先设置的种子词对,种子词对中其中一个词语为知识 类网页的主题词,另一个词语为该主题词的同义词。

本实施例所涉及的知识类网页指的是:网页内容是用于介绍一个主题词 的网页,介绍内容包括这个主题词的定义、由来、相关的事件等。诸如百科 类网页等。除了知识类网页之外的其他类型网页都可以认为是普通网页,为 了考虑准确率的问题,可以仅关注新闻类型的网页,其描述的对象通常是一 个事件。

该实施例中为了实现同义词挖掘的自动学习机制,可以预先设置种子词 对,利用这些种子词对在知识类网页中的标识和位置信息来生成模板。预先 设置的种子词对可以采用同义词表的形式存储,本步骤中从该同义词表中获 取种子词对。

步骤202:在以种子词对中其中一个词语为主题词的知识类网页中,将 该种子词对中另一个词语在网页中设定上下文范围内的词语或符号作为候选 标记符,并统计各候选标记符的出现次数以及该另一个词语的边界信息。

在提取同义词模板阶段,种子词对中一个词语为知识类网页的主题词 时,另一个词语的上下文会有很多词语或者符号,这些词语或符号都有可能 是同义标记符,因此,可以将该另一个词语在网页中设定上下文范围内的词 语或符号都首先作为候选标记符,对各候选标记符的出现次数以及对应的另 一个词语的边界信息进行记录。

例如,如果种子词对为:“意甲”和“意大利足球甲级联赛”,在以“意 大利足球甲级联赛”为主题词的知识类网页(例如百科页面)中,出现在种 子词对中另一个词语“意甲”的设定上下文范围内的词语假设含有:“Serie A”、“简称”、“尤文图斯”、“历史上”、“夺得”、“联赛”等,将 这些词均记录为候选标记符,并分别统计出现次数,其中,“Serie A”和“简 称”对应的边界信息是“简称”-右括号,“尤文图斯”、“历史上”、“夺 得”和“联赛”对应的边界信息是“夺得”-“联赛”。

将上述确定的候选标记符、候选标记符出现次数以及对应的边界信息记 录在数据库中,供后续确定同义标记符时调用。

较优地,在对候选标记符进行统计之前,可以首先对候选标记符进行基 于停用符表的过滤,将包含在停用符表中的候选标记符过滤掉。在该停用符 表中可以包括:助词、副词、虚词、代词等停用词,以及逗号、句号、感叹 号、省略号等标点符号。停用符表中包含的词语和符号通常是不太可能标识 同义词对出现的。

通常可以作为同义标记符的是:诸如“简称”、“全称”、“即”、“缩 写”等词语,或者,括号、“viz.”等符号。

步骤203:基于各候选标记符的出现次数为各候选标记符打分,选择打 分值满足预设打分阈值的候选标记符,并将其记录为同义词模板中的同义标 记符。

在从各候选标记符中选择同义标记符来形成同义词模板时,可以基于统 计得到的各候选标记符的出现次数为各候选标记符打分,另外,打分策略除 了基于统计得到的各候选标记符的出现次数之外,还可以同时结合各候选标 记符出现在网页中的位置。例如,由于在知识类网页内容的前两段通常出现 主题词对应同义词的几率较大,可以将出现在网页内容的前两段中的候选标 记符设置较高的权重值。

步骤204:将同义标记符对应的边界信息记录在同义词模板中。

在本步骤中可以将选择的同义标记符所对应的边界信息全都记录在同 义词模板中。可选地,在同义词模板中除了包含同义标记符和边界信息之外, 还可以进一步包含位置信息,即同义词相对于同义标记符的位置信息,该相 对位置信息可以包括:同义词相对于同义标记符的方向信息,和/或,同义词 相对于同义标记符的距离信息。

其中方向信息指的是同义词在同义标记符的前面还是后面,如果在同义 标记符的前面可以采用“-”标识,如果在同义标记符的后面可以采用“+” 表示或没有符号标识。距离信息可以采用距离同义标记符的字数表示。

例如,对于种子词对“意大利足球甲级联赛”和“意甲”,如果在知识 类网页中,主题词为“意大利足球甲级联赛”,网页中出现“意大利足球甲 级联赛的简称是意甲”,如果选择出的同义标记符为“简称”,则对应的位 置信息可以为2个词语(表示主题词的同义词在同义标记词后面的第2个词 语);网页中如果出现“意甲是意大利足球甲级联赛的简称”,则对应的位置 信息可以为-4(表示主题词的同义词在同义标记词前面的第4个词语)。

通过上述方式挖掘出的同义词模板中同一个同义标记符可能对应多个 边界信息和位置信息。后续利用该同义词模板抽取出的同义词对也可能是多 个。

本实施例中,同义词模板在数据库中的存储方式可以如表1所示。

表1

  同义标记符(索引)   边界信息   位置信息   “简称”   “是”-逗号   2个词语

  “简称”   句首-“是”   -4个词语     ...    ...   ...

至此实施例二所示流程结束。

实施例三、

图3为本发明实施例三提供的利用上述挖掘出的同义词模板挖掘同义词 的方法流程图,该方法主要针对知识类网页进行同义词挖掘,如图3所示, 该方法可以包括以下步骤:

步骤301:利用预先挖掘出的同义词模板,查找网页中的同义标记符。

可以将图2所示流程挖掘出的同义词模板存储在数据库中,将同义标记 符存储为第一级索引,指向对应的边界信息以及进一步的距离信息。在利用 同义词模板进行匹配时,首先将同义标记符与知识类网页的网页内容进行匹 配,查找知识类网页中的同义标记符。知识类网页所介绍的主题词的同义词 可能在该同义标记符的前后出现。

步骤302:在网页中同义标记符前后的设定距离范围内,按照同义词模 板中该同义标记符对应的边界信息,抽取出该网页的主题词对应的同义词, 记录由该主题词和同义词构成的同义词对。

假设在主题词为“河南”的百科类网页中,利用预先挖掘出的同义词模 板,查找网页中的同义标记符,假设网页中存在句子:“河南简称豫,”, 便可以匹配到同义标记符“简称”。如果在同义词模板中“简称”对应的边 界信息为:“简称”-逗号,则可以从该网页中抽取出以“简称”-逗号为边 界的词语“豫”,词语“豫”就是该网页的主题词“河南”对应的同义词, 记录由“豫”和“河南”构成的同义词对。

另外,为了更精确地获取知识类网页的主题词对应的同义词,如果在同 义词模板中包含位置信息,则在抽取同义词时,除了依据同义词模板中的边 界信息之外,还依据同义词模板中同义标记符对应的位置信息。

例如,在同义词模板中,如果记录同义标记符“简称”对应的边界信息 为:“是”-逗号,位置信息为2个词语(此处“2个词语”代表同义词在同 义标记符之后第二个词语),则如果存在句子“河南的简称是豫,”就能够 从中抽取出“河南”对应的同义词“豫”。

再如,在同义词模板中,如果记录同义标记符“简称”对应的边界信息 为:句首-“是”,位置信息为:-4个词语(此处“-4个词语”代表同义词 在同义标记符之前第四个词语),则如果存在句子“豫是河南的简称”,就 能够从中抽取出“河南”对应的同义词“豫”。

由于抽取出的同义词模板中一个同义标记符可能对应多个边界信息及 位置信息,则可以以任意的顺序逐一利用同义标记符对应的各边界信息及位 置信息抽取同义词对。

步骤303:对记录的同义词对进行过滤处理。

通过步骤301和步骤302抽取出的同义词对中,可能存在一些不合理的 词对,因此较优地,可以通过步骤303对记录的同义词对进行过滤处理,从 而提高同义词对的质量。本领域技术人员很容易理解,本步骤是本发明的可 选步骤。

采用的过滤处理可以包括但不限于以下所列中的任一或任意组合:

1)基于出现频次的过滤:将同义词对中来源网页数目小于预设的数目 阈值N3的同义词对过滤掉,N3为预设的正整数。

2)基于搜索日志的过滤:将其中任一个词语在搜索日志中的出现次数 小于预设的次数阈值N4的同义词对过滤掉,N4为预设的正整数。即如果由 词语P1和P2构成的同义词对中,P1或者P2在搜索日志中的出现次数小于 N4,则将该同义词对过滤掉。

3)对冗余同义词对的过滤:如果将某同义词对中两同义词重叠的部分 删除后得到的词对与其他同义词对相同,则将该某同义词对过滤掉。

例如,同义词对:“北京大学出版社”和“北大出版社”,如果将两同 义词重叠的部分删除后得到的词对为:“北京大学”和“北大”,如果该词 对已经作为候选同义词存在,则可以将同义词对“北京大学出版社”和“北 大出版社”过滤掉。

4)基于搜索结果的过滤:如果利用同义词对进行搜索得到的搜索结果 数量小于预设的数量阈值N5,N5为预设的正整数,则将该同义词对过滤掉。

另外,采用自动学习的方式挖掘出的同义词模板也可以适用于普通网 页,当应用于普通网页时,由于普通网页不像知识类网页一样存在介绍的主 题词,因此,在挖掘出的同义词模板中,需要包含同义词对中两个同义词的 边界信息,更进一步地,会包含同义词对中两个同义词的位置信息。下面通 过实施例四针对普通网页进行同义词模板挖掘的方法进行描述。

实施例四、

图4为本发明实施例四提供的针对普通网页进行同义词模板挖掘的方法 流程图,如图4所示,该方法可以包括以下步骤:

步骤401:获取预先设置的种子词对。

步骤402:在普通网页中,确定种子词对中两词语之间的距离在预设距 离范围内的网页部分,将该网页部分中种子词对的设定上下文范围内的词语 或符号作为候选标记符,并统计各候选标记符的出现次数以及种子词对中两 词语在该网页部分的边界信息。

在普通网页中,如果种子词对中两词语之间的距离较近,则通常可以从 该普通网页中种子词对所在的网页部分抽取出模板,在抽取模板时,种子词 对的附近可能会出现同义标记符,因此,可以将种子词对的设定上下文范围 内的词语或符号作为候选标记符,并记录种子词对中两词语的边界信息。

例如,种子词对为“意大利足球联赛”和“意甲”,在某网页中出现了 这样的网页内容:“通常意大利足球甲级联赛简称为意甲,尤文图斯是其 中......”在该内容中,词语“意大利足球联赛”和“意甲”之间的距离在预 设距离范围内,则可以选择该种子词对的设定上下文范围内的词语或符号作 为候选标记符,如果设定上下文范围为2个词语,则可以将“通常”、“简 称”、“为”、“,”和“尤文图斯”作为候选标记符。

同样,在对候选标记符进行统计时,可以首先对候选标记符进行基于停 用符表的过滤,将包含在停用符表中的候选标记符过滤掉。假设停用符表中 包含有“,”,则将“,”过滤掉。

将上述确定的候选标记符、候选标记符出现次数以及对应的边界信息记 录在数据库中,供后续确定同义标记符时调用。

步骤403:同步骤203。

步骤404:同步骤204,只是在同义词模板中记录的边界信息为两个词 语的边界信息,更进一步地,还记录两个词语相对于同义标记符的位置信息。

仍以“通常意大利足球甲级联赛简称为意甲,尤文图斯是其中......”为 例,由其最终产生的同义词模板中,同义标记符为“简称”,边界信息为: “通常”-“简称”以及“为”-逗号,如果存在位置信息,则位置信息为: -1个词语和2个词语。

该实施例挖掘出的同义词模板在数据库中的存储格式可以如表2所示:

表2

在利用实施例四所述流程挖掘出同义词模板后,利用该同义词模板进行 同义词挖掘的方法与实施例三所示的流程相同。只是查找到网页中的同义标 记符后,利用同义词模板中该同义词标记符对应的两个词语的边界信息,或 者利用两个词语的边界信息和位置信息,抽取出同义词对。

以上是对本发明所提供的方法进行的详细描述,下面通过实施例五以及 实施例六分别对本发明所提供的同义词模板的挖掘装置和同义词的挖掘装置 进行详细描述。

实施例五、

图5为本发明实施例五提供的同义词模板的挖掘装置结构图,如图5所 示,该装置可以包括:种子词对获取单元500、候选标记符确定单元510、信 息记录单元520和标记符确定单元530。

种子词对获取单元500,用于获取预设的种子词对。

候选标记符确定单元510,用于将种子词对在网页中设定上下文范围内的词 语或符号确定为候选标记符。

信息记录单元520,用于记录各候选标记符的出现次数以及种子词对中同义 词在网页中的边界信息;将标记符确定单元530选择的候选标记符记录为同义 词模板中的同义标记符,将同义标记符对应的边界信息记录在同义词模板中。

标记符确定单元530,用于基于信息记录单元520记录的各候选标记符的出 现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符。

在针对知识类网页时,上述种子词对中其中一个词语P1为网页的主题词, 另一个词语P2为主题词的同义词。此时,候选标记符确定单元510具体将P2 在网页中设定上下文范围内的词语或符号作为候选标记符;信息记录单元520 记录的边界信息为P2的边界信息。这种情况对应于实施例二中所示的同义词模 板挖掘方式。

在针对普通网页时,候选标记符确定单元510具体确定种子词对中两词语 P1和P2之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子 词对的设定上下文范围内的词语或符号作为候选标记符。此时,信息记录单元 520记录的边界信息为P1和P2在网页内容中的边界信息。这种情况对应于实施 例四中所示的同义词模板挖掘方式。

基于以上两种情况,该装置还可以包括:过滤处理单元540,用于将候选标 记符确定单元510得到的候选标记符中,包含在预设的停用符表中的候选标记 符过滤掉。信息记录单元520记录的是经所述过滤处理单元540过滤处理后的 候选标记符。

其中停用词表中包含的词语和符号通常是不太可能标识同义词对出现的, 例如可以包括:助词、副词、虚词、代词等停用词,以及逗号、句号、感叹号、 省略号等标点符号。

上述的同义标记符包括以下词语中的至少一种:“简称”、“全称”、“即”、“缩 写”;或者,包括以下符号中的至少一种:括号、“viz”。

标记符确定单元530在为各候选标记符打分时,除了利用统计到的各候选 标记符的出现次数之外,还可以进一步结合各候选标记符出现在网页中的位置。 为出现在网页中不同位置的候选标记符设置不同的权重值。

在同义词模板中除了包含同义标记符和同义词对中各同义词的边界信息之 外,为了能够更精确地出确定出同义词对,同义词模板中还可以进一步包括: 同义词对中同义词相对于同义标记符的位置信息。

此时,对应于实施例二中所示的同义词模板挖掘方式,信息记录单元520 还会记录P2相对于候选标记符的位置信息,将同义标记符对应的位置信息记录 在同义词模板中。

对应于实施例四中所示的同义词模板挖掘方式,信息记录单元520还会记 录P1和P2相对于候选标记符的位置信息,将同义标记符对应的位置信息记录 在同义词模板中。

其中,位置信息包括:同义词相对于同义标记符的方向信息,和/或,同义 词相对于同义标记符的距离信息。

上述同义词模板可以存储在数据库中,信息记录单元520将同义标记符存 储为索引,指向对应的边界信息。

实施例六、

图6为本发明实施例六提供的同义词挖掘的装置结构图,如图6所示,该 装置可以包括:标记符匹配单元600和同义词对抽取单元610。

标记符匹配单元600,用于利用预先设置的同义词模板,查找网页中的同义 标记符。

同义词对抽取单元610,用于在网页中标记符匹配单元600查找出的同义标 记符前后的设定距离范围内,按照同义词模板中同义标记符对应的同义词对中 各词语的边界信息,抽取出同义词对。

其中,同义词模板包括:同义标记符和同义词对中词语的边界信息。

上述同义词模板可以采用人工方法预先设置在数据库中,或者,采用实施 例五所述装置预先挖掘并记录在数据库中。

当同义词模板采用人工方式预先设置时,上述边界信息可以包括:具体的 上下文边界,例如:同义标记词-右括号、左括号-同义标记词、左括号-右括号、 逗号-右括号、左括号-逗号、句首-左括号、同义标记词-句尾等。“-”之前的是 上文边界,“-”之后的是下文边界。或者,也可以是边界确定策略,例如将边界 确定策略设定为:同义标记符前后设定距离范围内的各词语中匹配度满足预设 条件的词语作为同义词对。

根据不同的情况,同义词对抽取单元610可以采用不同的实现方式,具体 如下:

第一种实现方式:如果边界信息包括边界确定策略,则同义词对抽取单元 610可以具体包括:匹配度计算子单元611和词对抽取子单元612。图6所示为 该种实现方式。

匹配度计算子单元611,用于在网页中标记符匹配单元600查找出的同义标 记符前后的设定距离范围内,计算除同义标记符之外其他各词语(广义的词语, 包括短语的情况)之间的匹配度。

词对抽取子单元612,用于根据匹配度计算子单元611的计算结果,抽取出 两个词语Q1和Q2构成同义词对,其中Q2覆盖Q1中所有的字,且在Q1和 Q2之间具有最大的匹配度基础上保证Q2最短。

其中,匹配度计算子单元611和词对抽取子单元612采用的算法可以是公 式(1)所示的算法。

第二种实现方式:如果同义词模板是由实施例五所述装置针对知识类网页 所采用的方式预先挖掘所得,则同义词对抽取单元610在网页中同义标记符前 后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出网 页的主题词对应的同义词,由主题词和抽取出的同义词构成同义词对。这种方 式对应于实施例三所示方式。

第三种实现方式:如果同义词模板是由实施例五所述装置针对普通网页所 采用的方式预先挖掘所得,则同义词对抽取单元610在网页中同义标记符前后 的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出满足 该边界信息的两个词语构成同义词对。

基于以上三种实现方式,为了进一步提高抽取出的同义词的质量,该装置 还可以包括:过滤处理单元620,用于对同义词对抽取单元610抽取出的同义词 对进行以下所列过滤处理中的任一或任意组合:

将同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤掉, N1为预设的正整数;

将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同 义词对过滤掉,N2为预设的正整数;

如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词 对相同,则将某同义词对过滤掉;以及,

将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的 同义词对过滤掉,N5为预设的正整数。

另外,为了更准确地抽取同义词对,该同义词模板中除了同义标记符和同 义词对中同义词的边界信息之外,还可以包括:同义词对中同义词相对于同义 标记符的位置信息。

同义词对抽取单元610在抽取同义词对时,进一步结合同义标记符在同义 词模板中对应的位置信息。

其中位置信息可以包括:同义词相对于同义标记符的方向信息,和/或,同 义词相对于同义标记符的距离信息。

本发明提供的上述方法和装置不仅适用于中文的同义词对抽取,同样适 用于诸如英文等其他语种的同义词抽取。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号