首页> 中国专利> 一种领域本体约束的垂直搜索引擎方法及系统

一种领域本体约束的垂直搜索引擎方法及系统

摘要

一种领域本体约束的垂直搜索引擎方法,包括建立领域本体库及构造领域本体生成器和领域本体导入器;从领域本体库的各种本体模型出发,利用带有语义分析过滤器的网络爬虫,对网络资源进行语义分析和本体描述,自动进行资源符合度计算与分类,形成具有语义特征的分类信息;在网络资源间建立语义联系,形成具有语义关联的领域资源,完成单个网络资源的本体化描述并存储;根据本体对检索进行语义化重写和映射,完成检索的语义分析和扩展,使本体化的资源和检索作为输入,并通过规则学习和模式,完成本体库的扩充与规则约束扩展,形成领域本体的二级本体。优点在于为一种带有语义约束的方法,其节省检索时间,提高检索精度,实现了语义支持检索的优势。

著录项

  • 公开/公告号CN101901247A

    专利类型发明专利

  • 公开/公告日2010-12-01

    原文格式PDF

  • 申请/专利权人 北京师范大学;

    申请/专利号CN201010134263.3

  • 发明设计人 周明全;王学松;

    申请日2010-03-29

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京中海智圣知识产权代理有限公司;

  • 代理人曾永珠

  • 地址 100875 北京市西城区新街口外大街北京师范大学

  • 入库时间 2023-12-18 01:13:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-02-25

    授权

    授权

  • 2011-01-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20100329

    实质审查的生效

  • 2010-12-01

    公开

    公开

说明书

技术领域

本发明涉及一种搜索引擎方法,特别是一种对领域本体约束的搜索引擎方法。

背景技术

互联网搜索引擎信息检索主要以简单的关键字匹配为主,是采用了网络技术和中文信息处理技术,而传统的领域垂直搜索引擎只是通过固定网站信息来源列表来保证内容的相关性,却无法有效地进行来源信息发现识别。

近年来虽然出现了面向语义信息检索的相关技术,但是在搜索引擎中的应用主要针对利用语义推理来进行检索扩展和本体语义距离改进权值计算,其中,关于基于本体的语义网的搜索引擎技术,如下:

(1)张亮亮的《基于领域本体的语义检索研究》(硕士论文,吉林大学,2009年),提出了基于领域本体的语义标注方法,其在文档处理的基础上,改进了现有的权值计算方法去获得特征词,进而对特征词所在句子进行句法分析,生成RDF三元组。该方法在用户查询处理中,实现了基于领域本体的用户提问处理和查询推荐算法,其中,用户提问分单关键字、多关键字和自然语言查询,此外,查询推荐主要是基于本体中概念属性关系进行扩展。

(2)何琳的《古农学本体的半自动构建及检索研究》(博士论文,南京农业大学,2007年),其将本体引入到农史领域,提出了人机协作的半自动构建模式构建古农学本体。该技术在前人构建领域本题方法论的基础上,结合叙词表的编制模式,由专业人员通过对古代农学领域概念关系分析给出领域的上层知识模式,利用了机器学习技术从领域语料中学习概念关系,将专业人员的自顶向下和机器学习的自底向上的结果结合起来,建立了基于古农学本体的语义检索模型。该模型主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成,其借助本体对用户的检索关键词进行语义分析,从而获取隐含概念,形成对检索需求的规范化描述,使得用户和机器获得统一的机器可理解的语义知识,实现信息资源的语义检索。

(3)李春玲的《基于领域本体的语义检索研究》(硕士论文,重庆大学,2008年),提出了一种基于领域本体的混合信息检索模型。该模型结合传统的关键字检索和语义检索,使系统检索在没有可用的本体知识时,还可以通过关键字检索完成检索任务保证一定的检索性能,其充分利用了本体中的概念语义关系,有效地挖掘信息的概念语义。

(4)何琳 等的《一种基于领域本体的语义检索系统的设计与实现》(图书情报工作,2008.08.85-88+130),其从语义推理、查询分析等几个关键方面对基于领域本体的语义检索进行研究,在此基础上设计并实现了一个基于领域本体的语义检索实验系统。

(5)张野的《基于本体的语义检索研究》(硕士论文,东北师范大学,2009年),其通过对传统信息检索的基本原理、技术及信息检索发展现状等方面的分析研究,并结合语义网的具体特点,对语义检索模型中所涉及的关键技术进行了深入的分析研究,提出了基于本体的语义检索模型。它把本体描述语言OWL的技术有机地结合到了语义检索模型中,设计了基于OWL本体的领域资源语义检索原型系统,其对检索系统的主要处理环节进行功能上的定义描述,对检索过程进行了详细的解释。

(6)刘林,秦杰的《基于Ontology的语义检索模型研究》(计算机与数字工程,2009.12.60-63),其提出一个基于本体的语义检索的模型,该模型将信息检索方法与语义查询技术相结合,且通过基于本体的知识库实现对检索信息的语义查询。此外,其同时研究了语义检索的关键技术---本体的构建以及语义推理。

(7)包冬梅的《网络信息语义组织和检索的实现路径》(图书情报工作,2006.12.12-16),其主要探讨了在受限领域中如何引入新兴的知识组织技术----本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径,如:基于本体的语义检索及基于主题图的知识导航。

(8)尹焕亮 等的《基于本体的Web智能检索研究》(计算机工程,2009.23.44-46+49),其在建立本体概念与文档内容关联关系的基础上,对用户的查询输入预处理,并利用本体计算两者的相似程度,给出与查询请求相关的排序后的文档。

(9)游宇的《基于本体的科技资源搜索引擎设计与实现》(硕士论文,复旦大学,2008年),其设计了一个基于本体的科技资源搜索引擎的框架。通过该搜索引擎,用户可以模糊输入查询需求,进而系统对问题进行语义分析、识别,最后再将该问题的相关科技资源信息反馈给用户,同时建立了一个科技资源领域的小型本体库,并对构建搜索引擎的主要方法和核心技术进行了研究和探讨,其中包括本体技术、语义理解、信心索引等知识。该构建的科技资源搜索引擎并不是对用户提交的关键词直接搜索,而是搜索相关的科技资源。用户只需要提供模糊关键字并选择搜索范围,该搜索引擎就可通过对用户需求的语义处理和相关资源的确定,理解用户对科技资源的搜索要求,从而提高在科技资源领域搜索的查全率和查准率。

此外,如中国专利申请号为“200710006752”,专利名称为“使用分布更新事件的语义网数据选择性跟踪的方法和系统” 的专利,其中包括以下步骤:提供语义WEB语句集;标识所述语义WEB语句集的一个或多个子集;在给定计算机系统上存储所述一个或多个子集;建立一个或多个跟踪器,每个所述跟踪器与所述子集的相应的一个相关联;并且当发布对所述集中的语义WEB语句的更新时,所述一个或多个跟踪器用于标识所述更新的哪些是对所述一个或多个子集中的语义WEB语句的更新。在这个方法中,每个跟踪器能够根据单个语句更新事件确定所述语句是否在与所述每个跟踪器相关联的子集中。

中国专利申请号为“200810241022”,专利名称为“信息查询方法及其装置” 的专利,其中方法包括:接收用户输入的查询请求;将输入的所述查询请求转换为本体查询请求;根据所述本体查询请求在预存领域本体、和/或模糊本体中进行查询;判断是否获得与所述本地查询请求匹配的查询结果;若判断结果为获得所述查询结果,则将所述查询结果进行显示;其中,所述领域本体是指对信息资源的语义的描述;所述模糊本体是指对信息资源所包含的词语、以及各个词语之间关系的描述。通过该方法利用基于语义网的技术获得领域本体和模糊本体来进行信息查询。

以及中国专利申请号为“200710051743”,专利名称为“一种语义网信息的索引与获取方法”的专利,该发明公开了一种语义网信息的索引与获取方法,在该方法中首先建立用于索引语义网实体和文档的倒排表,进而分别往两个倒排表中添加具体内容;其次,依据请求类型不同,分别检索对应的倒排表,获取中间结果集;对需要排序的中间结果集进行排序,再对需要更新操作的实例进行更新。该方法将语义信息同传统的关键字检索相结合,提供新的排序方法。

综合上述,在现有搜索引擎中基于关键字匹配和文本统计的计算,是无法实现语义分析理解,检索结果也难以满足检索需要。对于现有技术,网络资源的组织形式使用基于传统文献的信息模式和关键字索引,但不能对基于html页面语义标引,检索质量无法进行有效地控制,也不能揭示关键词之间丰富的语义关系。而基于现有检索模型进行局部技术细节改进的做法,虽然能够在一定程度上提高检索效率,但却治标不治本,无法达到人与机器的更有效交互检索的目的。 

现有所述的语义网技术是在Web上的资源附加了计算机可以理解的内容,给出一种方便计算机理解的资源描述手段,将传统的万维网进行有效的语义延伸。但目前有关语义网及本体的搜索引擎设计中,主要涉及的技术内容集中于对本体库本身建立管理、对查询请求的语义推理匹配方面。资源采集方面,虽有涉及到利用本体的采集策略,但都只是从语义相似度计算角度判断链接有用程度分析,并没有综合利用语义信息、结构化信息、用户反馈模式等信息来控制下载的整体策略;而领域本体的管理方面,多采用人工设计,缺少已有本体的导入方法,并且没有利用网页资源模式和用户检索进行自动学习和扩展能力;资源的存储和管理方面,缺少资源的本体化分析和资源的语义与关键字集成存储;用户检索方面,仅仅只是利用领域词汇进行匹配,缺少用户语义模式、用户关键词关联语义、领域语义的综合分析利用,查询的本体化也过于粗糙。

发明内容

鉴于现有技术存在的问题,本发明的主要目的在于提供了一种在可自学习的本体库基础上,可支持知识语义、结构化语义、用户模式语义约束控制的领域本体约束的垂直搜索引擎方法和系统。

为了达到上述目的,本发明所述领域本体约束的垂直搜索引擎方法包括以下步骤:

A,建立一个用本体语言描述的领域本体库,且构造一个领域本体生成器和一个领域本体导入器,提供有效本体生成手段;

B,从领域本体库中的各种本体模型出发,利用带有语义分析过滤器的网络爬虫,对于网络资源进行语义分析和本体描述,自动的进行资源符合度计算与分类,形成具有语义特征的分类信息;

C,在领域本体基础上的网络资源之间建立复杂与完备的语义联系,形成具有语义关联的领域资源,且完成单个网络资源的本体化描述并存储;

D,根据用户本体对用户检索进行语义化重新构造和映射,完成检索的语义分析和扩展,同时使得本体化的网络资源和用户检索作为输入,且依据本体化的资源描述和本体化的用户检索描述和模式,进行概念抽取、本体学习与规则抽取,进一步完成本体库的扩充与规则约束扩展,形成领域本体的二级本体;

其中,所述领域本体库包括知识本体、结构本体和用户本体;所述知识本体包括领域知识分类层次、知识关联、知识的包涵关系;所述结构本体包括领域资源网络链接关系和资源网页内部结构关系;所述用户本体包括检索模式分类、检索目的分类、检索用语关联关系、检索概念的上下位关系。

本发明所述领域本体约束的垂直搜索引擎系统包括用本体语言描述的领域本体库;用以设定垂直搜索的领域本体内容的领域本体生成器;快速导入领域本体的领域本体导入器;提供领域本体扩展和学习能力的本体学习进化器;利用资源的本体描述,分析内部的扩展链接语义符合度,增加新资源链接的资源结构及本体分析链接发现器;提供资源内容有效下载和下载调度的资源下载器;利用已有本体中的概念及规则,进行文本的元数据抽取和本体化描述的资源本体化分析器;在传统倒排索引的基础上,建立领域关键字的独立索引,便于检索加权和语义分析的领域关键字索引器;从检索关键词和用户类型,分析检索的内容,进行查询重写,完成本体化语义表达的检索本体分析器;利用本体库中的内容,对用户检索的形式化表达进行逻辑推理和检索扩展的本体推理分析器;利用倒排索引进行检索,对符合领域本体词汇约束的结果关联处理和结果加权的关键词检索器;对待下载的链接地址进行链接结构和语义匹配约束,过滤不相关内容的链接的语义分析过滤器。

此外,所述领域本体约束的垂直搜索引擎系统还包括具有形式化语义描述的领域关键字关联索引数据库和本体化网络资源索引数据库,以及与所述领域关键字关联索引数据库和本体化网络资源索引数据库有对应关系的网络资源正文数据库,并且还包括存储用户检索信息的用户检索日志库。

其中,所述领域本体库包括知识本体、结构本体和用户本体;所述知识本体包括领域知识分类层次、知识关联、知识的包涵关系;所述结构本体包括领域资源网络链接关系和资源网页内部结构关系;所述用户本体包括检索模式分类、检索目的分类、检索用语关联关系、检索概念的上下位关系。

本发明所述领域本体约束的垂直搜索引擎方法和系统的有益效果如下:

1)网络爬虫的设计不再是传统的页面链接简单扩展爬取方式,而是一种带有了语义约束的爬取方式;

2)避免了将语义检索的全部工作都放在用户输入检索数据之后进行,而是

事先将网络信息通过爬取进行分类与关联,从而在更大程度上节省了用户的检索时间,提高检索精度;

3)具有领域本体的导入工具,便于快速构建垂直搜索引擎本体库,本体库

扩展为支持知识本体、结构本体、用户本体,可更有效组织检索过程;

4)提供了利用本体化资源、本体化用户检索的本体学习进化器,能保证领

域知识的扩展和更新;

5)通过本体描述与传统索引关联的方法,实现了语义支持检索的优势,比

传统的基于关键词检索有着更高的准确度与命中率。

附图说明

图1为本发明所述领域本体约束的垂直搜索引擎方法的步骤图;

图2为本发明所述领域本体约束的垂直搜索引擎系统的结构原理图。

具体实施方式

下面结合附图和具体实施例来对本发明所述领域本体约束的垂直搜索引擎方法和系统的作进一步的详细说明。

参照图1,本发明所述领域本体约束的垂直搜索引擎方法是一种带有了语义约束的爬取方式,首先,建立一个用本体语言描述的领域本体库,构造一个本体生成器和一个领域本体导入器,提供有效本体生成手段(步骤100)。

在上述步骤100中,所述领域本体库包括了知识本体、结构本体和用户本体,其中所述知识本体包括领域知识分类层次、知识关联、知识的包涵关系;所述结构本体包括了领域资源网络链接关系和资源网页内部结构关系;所述用户本体包括了检索模式分类、检索目的分类、检索用语关联关系、检索概念的上下位关系。

其次,从所述领域本体库中的每个领域本体模型出发,利用带有语义分析过滤器的网络爬虫,对于网络资源进行爬取,并形成具有语义特征的分类信息(步骤101)。然后,使领域本体基础上的网络资源之间建立更加复杂完善的语义联系,且完成单个资源的本体化描述并存储(步骤102)。

最后,根据用户本体,对用户检索进行语义化重新构造和映射,完成检索的语义分析和扩展,同时,将本体化的网络资源和用户检索作为输入,且通过规则学习和模式分析,即依托本体化的网络资源描述和本体化的用户检索描述和模式进行概念抽取、本体学习与规则抽取, 形成领域本体的二级本体,丰富本体库的规模和内容(步骤103)。

 通过上述步骤可知,本发明所述方法是事先将网络资源通过爬取进行分类和关联,很大程度上的节省了时间和提高了检索精度。另外,通过该方法可快速地构建垂直搜索引擎本体库,保证领域知识的扩展和更新,实现了语义支持检索的优势,比传统的基于关键词检索有着更高的准确度与命中率。

见图2所示,其为本发明所述领域本体约束的垂直搜索引擎系统的结构原理图。

该所述领域本体约束的垂直搜索引擎系统包括领域本体库200、领域本体生成器201、领域本体导入器202、本体学习进化器203、资源结构及本体分析链接发现器204、资源下载器205、资源本体化分析器206、领域关键字索引器207、检索本体分析器208、本体推理分析器209、关键词检索器210和语义分析过滤器211。

其中,所述领域本体库200包含知识本体、结构本体和用户本体;所述知识本体包括领域知识分类层次、知识关联、知识的包涵关系;所述结构本体包括了领域资源网络链接关系和资源网页内部结构关系;而所述用户本体包括检索模式分类、检索目的分类、检索用语关联关系、检索概念的上下位关系。

所述领域本体生成器201可借助已有的本体工具,以人工或半自动方式,设定垂直搜索的领域本体内容。

所述领域本体导入器202支持对已有本体语言描述的领域本体的快速导入。

所述本体学习进化器203提供领域本体的扩展和学习能力。

所述资源结构及本体分析链接发现器204利用资源的本体描述,分析内部的扩展链接语义符合度,增加新的资源链接。

所述资源下载器205提供资源内容的有效下载和下载调度。

所述资源本体化分析器206利用已有本体中的概念及规则,进行文本的元数据抽取和本体化描述。

所述领域关键字索引器207在传统倒排索引的基础上,建立领域关键字的独立索引,便于检索加权和语义分析。

所述检索本体分析器208从检索关键词和用户类型,分析检索的内容,进行查询重写,完成本体化语义表达。

所述本体推理分析器209利用本体库中的内容,对用户检索的形式化表达进行逻辑推理和检索扩展。

所述关键词检索器210为利用倒排索引进行检索,对符合领域本体词汇约束的结果关联处理和结果加权。

所述语义分析过滤器211对待下载的链接地址进行链接结构和语义匹配约束,过滤不相关内容。

此外,见图2,在该所述领域本体约束的垂直搜索引擎系统中还包括具有形式化语义描述的领域关键字关联索引数据库212和本体化网络资源索引数据库213,以及与所述领域关键字关联索引数据库212和本体化网络资源索引数据库213有对应关系的网络资源正文数据库214,并且还包括存储用户检索信息的用户检索日志库215。

再参见图2中所示,在该系统中,第一步是构造一个领域本体生成器201和领域本体导入器202,通过领域专家以及信息检索专家合作,建立一个确定领域的领域本体库200,以本体语言(如RDF、OWL等)形式对于领域内本体进行描述并存储相应的描述规则;第二步则是设计一个资源结构及本体分析链接发现器204,它以领域本体库200中的各本体描述作为依据,对于网络上的URL资源链接进行语义分析和本体描述,自动的进行资源符合度计算与分类。

其中,在爬取过程中,使用的是具有语义分析过滤器211的网络爬虫,即在传统的网络爬虫基础上,将领域本体库200中的本体资源描述规则附加于爬虫前端,使得爬取过程不是简单的资源URL匹配,而是进行语义对比与分拣,从而使得被筛选的网络资源能够以符合特定领域知识和结构语义约束的方式进行,进而形成带有语义分类特征的领域资源分类信息的数据库;第三步,构建资源本体化分析器206和领域关键字索引器207,对于通过语义爬取之后而形成的分类领域资源进行进一步处理,建立资源之间的更为复杂与完备的语义联系,从而形成最终的具有充分语义关联的领域资源,构建具有形式化语义描述的领域关键字关联索引数据库212和本体化网络资源索引数据库213,并建立与网络资源正文数据库214的对应关系;第四步,构建用户检索的检索本体分析器208和本体推理分析器209,完成用户检索的语义化重新构造和本体描述,进而应用语义推理规则,进行语义层面的检索与扩展,形成用户语义检索;第五步,构建本体学习进化器203,依托本体化的资源描述和本体化的用户检索描述和模式,进行概念抽取、本体学习与规则抽取,从而进一步完成领域本体库200的扩充与规则约束扩展。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号