法律状态公告日
法律状态信息
法律状态
2020-03-10
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20170405 终止日期:20190311 申请日:20140311
专利权的终止
2017-04-05
授权
授权
2014-07-16
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140311
实质审查的生效
2014-06-18
公开
公开
技术领域
本发明涉及信息抽取、查询处理、信息检索,具体地说是基于互动百科海量的三元关系组知识集,结合知识匹配算法来引导用户的搜索。
背景技术
信息检索技术包括搜索引擎是人们日常生活中寻找信息的常用工具,尤其是互联网使用的普及化后,搜索引擎成为必不可少的网络应用。
随着互联网信息的海量增长和人们对信息检索的高准确性要求,单单依靠倒排索引和词匹配技术的搜索引擎,在用户输入的查询语句普遍比较短,不能详细而准确描述查询意图的情况下,搜索效果不够理想。尤其是词语的多义问题让搜索效果更加恶化。目前有很多研究从搜索引擎方面如语义消岐、查询扩展、查询日志分析、基于概念的搜索等以及从用户使用角度的公式化查询、用户实时交互、查询处理等在一定程度上提高了搜索引擎的搜索效果。而从用户角度上如何让用户以更直接的更自然的语言输入搜索引擎能有效处理的查询语句的研究还需很大程度上的投入。
发明内容
本发明的目的是从用户角度帮助用户更准确的描述搜索意图,尤其是帮助用户将搜索引擎不能处理的带有语义逻辑的查询语句处理为依靠倒排和词匹配的搜索引擎可以处理的一般逻辑而提供的一种基于互动百科知识的语义逻辑引导的搜索方法,该方法定义了四个语义逻辑符号,用户可以使用这些符号来编辑查询语句,编辑好的查询语句在提交给搜索引擎之前,会先使用从互动百科中抽取的海量三元关系组结合词语相似度的知识匹配和筛选来解析符号逻辑,生成搜索引擎能有效处理的只包含一般的与或非逻辑的查询语句。同时可以返回推荐给用户的其他查询语句。
实现本发明目的的具体技术方案是:
一种基于互动百科知识的语义逻辑引导的搜索方法,其特征在于该方法包括以下具体步骤:
a)将互动百科在线描述的知识数据分为概念、关系和实体三类,根据三类知识之间的关系,形成三元关系组,以三元关系组的形式抽取并存储互动百科的知识;
b)设定四个语义逻辑符号,用户使用四个语义逻辑符号构建查询语句,然后利用三元关系组的特点来处理该查询语句,得到的新的查询语句提交搜索引擎,并将处理得到的其他查询语句推荐给用户;其中,
所述概念具有唯一的语义,为互动百科的标题;关系是概念的属性以及所有与概念有联系的关系的描述;实体不具有唯一的语义,概念的某种关系下对应的是实体或是某个概念;
所述三类知识之间的关系是:概念、实体及两者之间的关系和概念、概念及两者之间的关系;概念、关系及实体形成三元关系组或者概念、概念及两者之间形成三元关系组;
所述以三元关系组的形式抽取互动百科知识是:互动百科网页标题定为该页主概念,该互动百科网页内的信息对-属性、人物关系、从属关系,有冒号两边、从标题及其下属文本规律;信息对分别对应关系和实体或者关系和概念;
所述四个语义逻辑符号是:
“.”从属、构成相关逻辑:根据概念和其相关的关系获取对应的实体或概念集;
“:”相关、定义逻辑:根据概念描述或与概念相关的词来明确该概念;
“^”相关逻辑:根据概念、关系及实体或概念之间的三元关系组的特点,由其中的两元推出第三元;
“~”相似逻辑:使用相似逻辑来筛选数据;
所述使用四个语义逻辑符号构建查询语句,利用三元关系组处理查询语句是:用户使用符号代替自然语言中的逻辑,然后利用三元关系组的特点来处理该逻辑。
本发明将百科知识分为三类数据,通过定义的四个语义逻辑符号,利用从互动百科海量的百科知识中抽取的三元关系组知识集,结合词语相似度的知识匹配,来帮助用户以更自然的语言逻辑构建查询语句,尤其是使用在一般搜索引擎不能处理的相似、相关逻辑,并将此查询语句处理为一般搜索引擎能有效处理的新的查询语句,提高了搜索引擎的搜索精度。同时可以推荐给用户更精确的查询语句,甚至直接返回给用户想要的知识。从而提高了搜索引擎的效率,提高用户查询满意度。
附图说明
图1为本发明的流程图;
图2为本发明中互动百科知识抽取的详细流程。
图3-6为本发明在搜索中四个语义逻辑符号的处理流程图;
图7、图8、图9为实施本发明实施例图。
具体实施方式
语义逻辑符号引导的搜索需要使用语义逻辑符号编辑查询语句,同时需要互动百科里的三元关系组知识集。参阅图1,其中互动百科知识的抽取和语义逻辑符号的定义和处理是重要部分,分别如下所述。
1.互动百科知识的抽取
和维基百科一样,互动百科包含了大量的人工编辑、判断等参与工作,是一个非常开放、自增长且不断进步的百科全书。一般情况下,可以在任意一篇互动百科的网页文档上看到各种三元关系,所谓三元关系是指两个事物加上两者之间的关系共同构成一个三元关系组。针对互动百科的网页文档来看,其中的一元是网页的标题,另外的两元会分布在冒号的两边或者粗体字和它下面的叙述文本之间。
在这里,将一篇互动百科网页的标题定义为概念,上述的另外两元分别为关系和实体(实体也可以是一个概念)。也就是说三元关系组是概念与概念或者概念与实体加上它们之间的关系构成的。那么将互动百科的知识分为三大类:概念、关系、实体。
实体由一组短语或术语组成,可以是具体的人名、组织名、书名、具体的事件等。不过很多时候,不能单凭一个人名及确定他是谁,因为有很多同名同姓却不同的人。例如互动百科上,针对名字“王菲”除了“王菲[中国女歌手]”还有“王菲[大同大学教授]”等。也就是说,不能通过一个实体确定它是什么。
概念则表示一个确定的事物。例如在互动百科上只有一个“王菲[中国女歌手]”。
概念之间或者概念与实体之间的关系有很多种,例如“王菲[中国女歌手]”的“血型”、“专辑”、“电影作品”等等。
依据互动百科网页文档的DOM框架及其规律,通过解析其HTML网页来抽取三元知识,这个过程可以实时进行。
其中的DOM规律主要有(以“王菲”的互动百科页面为例):
1)通过“div.content-h1h1”得到标题“王菲[中国女歌手]”,此为概念。
2)“p#polysemyPart a”得到关于“王菲”的多个概念:“王菲[中国女歌手]”、“王菲[四川省广元市代市长]”和“王菲[大同大学教授]”。
3)“div.summary p”得到摘要。
4)“div#figurerelation li a”得到人物关系:李亚鹏前夫;夏桂影母亲;王佑林父亲等。
5)“div.module.zoom td”得到“王菲”的属性:中文名:王菲;英文名:Faye Wong等。
6)“div#content p”获取概况信息:“出生医院:北京协和医院,就读小学:北京地坛小学”等。
7)“div#content h3”和获取其他相关关系。如:专辑
1985年:《风从哪里来》《迷人的卡勒》《迷人小姐》
1986年:《分手》《邓丽君故乡情》
1989年:《王靖雯》等。
具体抽取过程如图2。
2、语义逻辑符号的定义和处理
为了充分利用互动百科海量的三元关系组知识来帮助信息检索,定义四个语义逻辑符号。其基本原理是根据三元关系组其中的两元来确定第三元。
1)根据概念和关系词获取对应的实体,使用符号“.”。其格式为:实体.关系词
例如“王菲.女儿”,从互动百科的三元关系组知识库里可以得到“李嫣、窦靖童”。
通过此符号获取的实体可以是多个,例如“王菲.专辑”得到的是一系列的王菲歌曲专辑。
第一个“实体”为多语义的情况下,例如“王菲”有多个概念“中国女歌手”、“大同大学教授”等。可以根据是否同时存在两元分别为给定的两个实体,来确定为哪个概念。例如“王菲.专辑”则可以确定为获取“中国女歌手王菲”的专辑,因为其他两个概念“王菲”—“王菲[四川省广元市市长]”和“王菲[大同大学教授]”没有“专辑”。
注意:处理后的结果为给定的两个“实体”加上获取的第三元。如“王菲.女儿”处理后变为“王菲女儿李嫣”。
2)根据三元中的任意两元获取第三元,使用符号“^”。
实体^词语
这里的“词语”可以为关系词或者实体。
处理后的结果即为第三元。例如:“美国^奥巴马”可以从三元关系组知识库里得到“总统”。处理得到的结果可能不止一个,可能还有“国籍”等。
3)根据概念词或相关词确定明确概念,使用符号“:”。
实体:词语
通过描述具体概念的词或者相关词可以确定具体的概念。这里是通过两个词的共线性来确定具体概念词的,类似前面的例子“王菲.专辑”。
例如“王菲:歌手”或“王菲:专辑”可以处理得到“中国女歌手王菲”。
4)从词集中选取与某词最相似的词,使用符号“~”。
词集~词语
相似逻辑通常配合获取实体集的符号“.”来使用。例如“古天乐.电影~甜蜜”其意义是指从古天乐的电影列表中找到与“甜蜜”最相似的电影名字。其最后的处理结果为“古天乐电影甜言蜜语”。
这里的相似逻辑就需要用到词语的相似度计算。考虑到用户提交搜索时,对于未知或模糊的部分一般输入具有相同字或词。这里就使用了统计相同字和词的方法来计算词语相似度,其中词相比字更重要,所以两者应该有不同的权重计算:
>
其中,p是要对照的语句,而pi是被筛选的语句集中的其中一个,Sch(p,pi)是两个语句p和pi之间相同字的数目,Lch(p)是语句p的字数,Ste(p,pi)是两个语句之间相同词的数目,Lte(p)是语句p的词数,α和β为加权参数,满足α+β=1;同样,σ和τ为加权参数,满足σ+τ=1。
另外,确定使用符号“:”通过输入概念词确定概念时,由于用户不一定输入完整的概念描述,例如“王菲:歌手”,这种情况下也需要使用词语相似度计算来从“王菲”的多个概念中选取概念词“中国女歌手”。同样,符号“.”和“^”的应用,其关系词的输入也存在同样的问题,也需要通过词语相似度计算来进行知识匹配,其中每种语义逻辑对应的词语相似度计算时所用的调整参数不一定相同。
总的来说,四个语义逻辑符号的使用中,都需要使用词语相似度将用户输入的词语与互动百科的知识相匹配。四个符号的处理逻辑分别见图3-6。
用户使用四个语义逻辑符号编辑的查询语句在处理过程中会遵守从左至右的优先处理原则。
3、语义逻辑引导的搜索
基于互动百科知识的语义逻辑引导的搜索流程见图1,主要步骤如下:
第一步,用户使用语义逻辑符号输入查询语句;例如输入查询语句“古天乐.电影~甜蜜女主角”。
第二步,按从左至右的优先原则,根据每个逻辑符号的使用规则,解析查询语句中的逻辑符号。并根据原查询语句的顺序,依次将解析后的部分查询词加入到新的查询语句序列中。没有使用语义逻辑符号的部分直接按序加入。考虑到语义逻辑的处理结果会不止一个,将新的查询语句变成词语组的序列(可以二位数组表示)。例如“古天乐.电影~甜蜜女主角”查询语句依次处理为:
1)处理第一个逻辑符号“.”后新的查询语句组变为:
2)处理第二个逻辑符号“~”后变为:
3)处理完后新的查询语句组:
第三步,将处理得到的新查询语句组的第一行提取出来作为处理后的查询语句。例子中新的查询语句为“古天乐电影甜言蜜语女主角”。
第四步,将新的查询语句提交给搜索引擎。
第五步,将查询得到的网页结果返回给用户。同时,如果得到的查询语句组不只一行,则将除了第一行的其它行中非空列的数据推荐给用户。
根据以上描述,基于Google搜索引擎实现了一个基于互动百科知识的语义逻辑引导的搜索方法,图7、图8及图9显示了实施该方法后返回的结果。实施例1中,当用户不清楚电影名称,只隐约记得“甜蜜”一词时,通过相似逻辑处理可以直接得到其想要的电影名称“甜言蜜语”,从而搜索得到其想要的网页结果。如果没有该处理,返回的网页结果无法满足其需求。实施例2中,除了“醉拳”外,还给用户推荐了其他带“拳”的电影,可以提供用户更多信息。实施例3中,通过“歌手”确定概念“王菲[中国女歌手]”,虽然仅仅通过“王菲歌手”可以查询得到用户想要的结果,但是通过语义逻辑符号确定概念可以帮助消岐,尤其是在基于概念的搜索中会有很大帮助。
综上所述,利用本发明可以一定程度上帮助用户按照其自然的语言逻辑构建查询语句,同时将其处理为以倒排和词语匹配为基础的搜索引擎能有效处理的查询语句,可以给用户推荐精确的信息,减少获取结果所需的搜索次数,甚至直接返回给用户所需的精确信息,从而提高用户满意度。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 提供基于语义的元数据的基于语义的搜索设备,基于语义的搜索方法和服务器以及用于其操作的方法
机译: 基于语义的搜索装置和基于语义的搜索方法以及用于提供基于语义的元数据的服务器及其操作方法