首页> 中国专利> 一种面向Web 服务描述的本体学习方法

一种面向Web 服务描述的本体学习方法

摘要

本发明公开了一种面向Web服务描述的本体学习方法,包括以下步骤:1:收集Web服务描述文档,得到文档中的输入输出参数,对每个输入输出参数预处理;2:使用hHDP方法以自下而上的学习方法生成主题的层次;3:使用“中国餐馆问题”采样方法估计层级主题;4:获得代表单词并构造初始本体,使用语义增强规则增强生成本体的语义形成最终本体。本发明的有益效果是:1.对使用WSDL描述的Web服务无监督学习生成本体,具有较好的通用性;2.既能够找出隐含的语义层次关系又能够利用保证学习出的本体语义丰富程度,具有较好的本体学习效果。3.学习的本体可以用于Web服务语义标注,能够支撑语义Web服务发现和推荐,具有较广泛的适用性。

著录项

  • 公开/公告号CN103530419A

    专利类型发明专利

  • 公开/公告日2014-01-22

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN201310524073.6

  • 发明设计人 何克清;田刚;王健;

    申请日2013-10-29

  • 分类号G06F17/30(20060101);

  • 代理机构武汉科皓知识产权代理事务所(特殊普通合伙);

  • 代理人张火春

  • 地址 430072 湖北省武汉市武昌区珞珈山武汉大学

  • 入库时间 2024-02-19 22:49:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2014-02-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131029

    实质审查的生效

  • 2014-01-22

    公开

    公开

说明书

技术领域

本发明属于服务计算技术领域,特别涉及一种面向Web服务描述的本体学习方法。

背景技术

伴随着互联网计算环境和软件体系结构的变化,基于互联网的软件服务开发已经日趋流 行。软件服务环境下各种计算资源高度分布和自治的本质特征对软件系统的开发带来了新挑 战。面向服务的架构能够应对这种动态、多变和复杂的问题,因此随着面向服务的架构和软 件即服务技术的发展,面向服务的软件开发开始蓬勃发展起来。在这种情况下,互联网上 Web服务的规模开始快速增长,如截止到2013年9月16日,Web服务编程网站 ProgrammableWeb上发布的Web服务数目已超过9900个,其它服务门户网站也发布了大量 的Web服务。此外,很多企业也把遗留软件系统进行碎片化拆分和封装得到的Web服务部 署到网络上。这样,Web服务规模的剧增为大众用户准确、高效地发现Web服务增加了困 难。由于基于关键字查询的方法的查询结果往往不够准确,因此基于语义的查询受到了越来 越多的关注,而语义查询的关键在于是否有可用的领域本体。手工方式建立本体的效率低下, 因此有必要建立一种从已有Web服务描述中进行本体学习的方法,从而能够辅助领域专家 建立高质量的领域本体。目前基于Web服务描述做本体学习的方法并不是很多,基于关联 规则的方法能够发现语义关系紧密的概念,但是却难以发现层次语义关系。基于层次聚类方 法的学习方法能够发现语义层次关系,但是在层次关系建立之后语义的进一步增强还有所欠 缺。因此,面对互联网上Web服务的规模化增长,针对已有的基于Web服务描述的本体学 习方法中存在的不足,如何进行准确、高效的Web服务本体学习,便成为服务计算领域中 一个亟待解决的关键技术问题。

发明内容

为了解决上述技术问题,本发明提供了一种基于WSDL的Web服务描述中学习生成本 体的方法,本发明具有良好的通用性。

本发明所采用的技术方案是:一种面向Web服务描述的本体学习方法,其特征在于, 包括以下步骤:

步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web 服务描述文档中的输入输出参数,并对Web服务描述文档中每个输入输出参数预处理,得 到一组原型单词的集合,对所述的原型单词进行进一步预处理,得到词性标注单词的集合;

步骤2:使用hHDP方法对步骤1中得到的原型单词以自下而上的学习方法生成原型单 词所属主题的层次;

步骤3:使用“中国餐馆问题”的HDP采样模式计算出步骤2中生成的每一层主题层次 的概率度量Gi,基准概率G0和主题数目;

步骤4:计算主题中包含的原型单词的覆盖率并排序,覆盖率最大的单词对该主题的覆 盖程度最大,将覆盖率最大的单词作为代表单词的候选,采用自下而上的方法抽取每个主题 对应的代表单词;对词性标注单词使用模式分析技术分析参数中词汇之间的关系,并将这些 关系的组织形式形成语义丰富的规则,当抽取出代表单词之后按照语义丰富的规则对生成的 本体进一步扩充语义。

作为优选,步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心 或Web服务门户网站。

作为优选,所述的步骤1,其具体实现包括以下子步骤:

步骤1.1:对Web服务描述文档进行解析,从中抽取该文档中的输入输出参数,对输入 输出参数做预处理,得到一组原型单词的集合;所述的预处理包括按照分隔符对参数断词、 扩充缩写词;

步骤1.2:针对步骤1.1的结果,将所述的原型单词进行词性标注,得到词性标注单词 的集合,为模式分析做准备。

作为优选,所述的步骤2,其具体实现包括以下子步骤:

步骤2.1:根据原型单词的集合聚类出第一层主题作为目标本体结构的叶节点;

步骤2.2:所有主题包含词分布组成估计下一层次的观测值,即把每个主题看作一个新 的文档,每个主题下面包含的单词又被当成新文档中的单词;

步骤2.3:使用Gibbs采样不断的重复上述的步骤2.1和步骤2.2,从而自动学习出主题 的层次。

作为优选,所述的步骤3,其具体实现包括以下子步骤:

步骤3.1:对于收集Web服务描述文档,在步骤2的基础上,输入第j个文档的现有主 题数目和参数α,根据“中国餐馆问题”的采样模式计算出第j篇文档中主题z的数目Tjz

步骤3.2:根据文档j中和主题z相关的单词数目njz采样得出Gj;基于因子采样得 出该层次的G0;根据上述计算出的Tjz获得本层次的主题数目;

步骤3.3:采用自下而上的方式迭代步骤3.1-3.2,根据Dirichlet过程“富者更富”的特 性,高层的主题数目逐步减少直至收敛至一个节点,得到每一层主题层次的主题数目;

其中,先验参数:α,γ, tz是主题z的总数,t.是主题的总数。

作为优选,所述的步骤4,其具体实现包括以下子步骤:

步骤4.1:在执行了HHDP方法的基础上,计算每个聚类主题中单词的覆盖率,并按照 覆盖率的大小倒序排列;

步骤4.2:采用自底向上的方式抽取代表单词并构造本体的语义层次;

步骤4.3:利用模式分析技术分析参数中词汇之间的关系,从而建立语义丰富规则,同 时在步骤4.2的基础上利用语义丰富规则对构造的本体语义进一步增强。

作为优选,步骤3中所述的每一层主题层次的主题数目,其具体计算方法如下:

p(zji=z|wji,zji)nj.z+αtzt.+γnj..+α·n.iz+Hn..z+VH(式一)

p(zji=znew|wji,zji)αγ(nj..+α)(t.+γ)·1V(式二)

其中,式一为其中一层现有主题z的采样数,式二为新主题znew的数目,先验参数: α,γ,H,V,nj.z文档j中和主题z相关的单词数目,nj..是文档j中的单词总数,tz是主题z 的总数,t.是主题的总数,n.iz是单词i在主题z下出现的总数,n..z是主题z中的单词总数。

作为优选,步骤4中所述的代表单词的抽取方法如下:

首先计算主题中包含的原型单词的覆盖率:

Coverage(wi,tz)=Σk=1n..tzp(wk|tz)*Bothi,k

其中,wi表示主题tz中的第i个单词,表示主题tz中所包含的单词总数,p(wk|tz)通 过使用贝叶斯公式从p(tz|wk)获得,表示wi和wk是否在同一个Web服务中出 现过,覆盖率表示了单词wi对主题tz的覆盖程度,即当wi和主题中的其他单词一起出现的概 率比较高的时候,说明它和其他单词的关系比较紧密,因此可以作为这个主题中与之相关单 词的“代表”;

然后计算代表单词:

RepWordtz={witz|Coverage(wi)=maxi1..n..tzCoverage(wi,tz)}

代表单词是主题tz中覆盖率最高的单词,它代表了主题的语义。

本发明相对于现有技术具有如下优点:

1.可以对使用WSDL描述的Web服务进行学习,从而无监督的生成本体,具有较好的 通用性;

2.“基于关联规则”的本体学习方法不能找出本体中概念的层次关系,而本方法能够找 出隐含的语义层次关系;与基于HDP方法的层次聚类学习隐含语义层次的方法相比,本方 法在保证相同语义层次的情况下还能够利用语义增强规则保证学习出的本体语义丰富程度 更高;

3.因为本方法采用的是无监督的学习方法,所以参数推导不需要过多的经验值,这提高 了方法的准确性;

4.学习方法生成的本体文件可以用于语义Web服务标注,从而支撑语义Web服务发现 和语义Web服务推荐,具有广泛的适用性。

附图说明

图1:是本发明实施例的流程示意图。

图2:是本发明实施例的本体层次学习过程示意图。

图3:是本发明实施例的执行hHDP算法之后的生成的部分隐含语义层次示意图。

图4:是本发明实施例的学习出的语义层次样式示意图。

图5:是本发明实施例的语义进一步增强之后的学习结果示意图。

具体实施方式

以下经结合附图和具体实施例对本发明做进一步的阐述。

请见图1、图2,本发明所采用的技术方案是:一种面向Web服务描述的本体学习方法, 其特征在于,包括以下步骤:

步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web 服务描述文档中的输入输出参数,并对Web服务描述文档中每个输入输出参数预处理,得 到一组原型单词的集合,对所述的原型单词进行进一步预处理,得到词性标注单词的集合; 其具体实现包括以下子步骤:

步骤1.1:对Web服务描述文档进行解析,从中抽取该文档中的输入输出参数,对输入 输出参数做预处理,得到一组原型单词的集合;所述的预处理包括按照分隔符对参数断词、 扩充缩写词;例如将参数cloud_height_min,拆成cloud,height,min三个词,然后扩充min 为minimum;

步骤1.2:针对步骤1.1的结果,将所述的原型单词进行词性标注,得到词性标注单词 的集合,为模式分析做准备;例如可以自利用wordnet等工具将步骤1.1中得到的单词cloud 标注为名词,height标注为名词,minimum标注为名词等;

其中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户 网站。

步骤2:使用hHDP方法对步骤1中得到的原型单词以自下而上的学习方法生成原型单 词所属主题的层次;其具体实现包括以下子步骤:

步骤2.1:根据原型单词的集合聚类出第一层主题作为目标本体结构的叶节点;

步骤2.2:所有主题包含词分布组成估计下一层次的观测值,即把每个主题看作一个新 的文档,每个主题下面包含的单词又被当成新文档中的单词;

步骤2.3:使用Gibbs采样不断的重复上述的步骤2.1和步骤2.2,从而自动学习出主题 的层次。

步骤3:使用“中国餐馆问题”的HDP采样模式计算出步骤2中生成的每一层主题层次 的概率度量Gi,基准概率G0和主题数目;其具体实现包括以下子步骤:

步骤3.1:对于收集Web服务描述文档,在步骤2的基础上,输入第j个文档的现有主 题数目和参数α,根据“中国餐馆问题”的采样模式计算出第j篇文档中主题z的数目Tjz

步骤3.2:根据文档j中和主题z相关的单词数目njz采样得出Gj;基于因子采样得 出该层次的G0;根据上述计算出的Tjz获得本层次的主题数目;

步骤3.3:采用自下而上的方式迭代步骤3.1-3.2,根据Dirichlet过程“富者更富”的特 性,高层的主题数目逐步减少直至收敛至一个节点,得到每一层主题层次的主题数目;

其中,对于每一层主题层次的主题数目,具体计算方法如下:

p(zji=z|wji,zji)nj.z+αtzt.+γnj..+α·n.iz+Hn..z+VH(式一)

p(zji=znew|wji,zji)αγ(nj..+α)(t.+γ)·1V(式二)

其中,式一为其中一层现有主题z的采样数,式二为新主题znew的数目,先验参数: α,γ,H,V,α=10.0,H=0.5,γ=1.0;nj.z文档j中和主题z相关的单词数目,nj..是文 档j中的单词总数,tz是主题z的总数,t.是主题的总数,n.iz是单词i在主题z下出现的 总数,n..z是主题z中的单词总数。

请见图3和图4,图3是本发明的执行hHDP算法之后的生成的部分隐含语义层次示意 图,图4是本发明的学习出的语义层次样式示意图;步骤2和步骤3执行的过程都是hHDP 算法的内容,直接调用hHDP算法即可达到如图3所示的效果,根据图3的结果构造如图4 所示的主题之间的层次关系。

步骤4:计算主题中包含的原型单词的覆盖率并排序,覆盖率最大的单词对该主题的 覆盖程度最大,将覆盖率最大的单词作为代表单词的候选,采用自下而上的方法抽取每个主 题对应的代表单词,对词性标注单词使用模式分析技术分析参数中词汇之间的关系,并将这 些关系的组织形式形成语义丰富的规则,当抽取出代表单词之后按照语义丰富的规则对生成 的本体进一步扩充语义。其具体实现包括以下子步骤:

步骤4.1:在执行了HHDP方法的基础上,计算每个聚类主题中单词的覆盖率,并按照 覆盖率的大小倒序排列;

步骤4.2:采用自底向上的方式抽取代表单词并构造本体的语义层次;

步骤4.3:利用模式分析技术分析参数中词汇之间的关系,从而建立语义丰富规则,同 时在步骤4.2的基础上利用语义丰富规则对构造的本体语义进一步增强。例如为StartMonth 添加到Month的子类关系语义等,请见图5,是本发明的语义进一步增强之后的学习结果示 意图,为最终形成的本体。

其中,代表单词的抽取方法如下:

首先计算主题中包含的原型单词的覆盖率:

Coverage(wi,tz)=Σk=1n..tzp(wk|tz)*Bothi,k

其中,wi表示主题tz中的第i个单词,表示主题tz中所包含的单词总数,p(wk|tz)通 过使用贝叶斯公式从p(tz|wk)获得,表示wi和wk是否在同一个Web服务中出 现过,覆盖率表示了单词wi对主题tz的覆盖程度,即当wi和主题中的其他单词一起出现的概 率比较高的时候,说明它和其他单词的关系比较紧密,因此可以作为这个主题中与之相关单 词的“代表”。

然后计算代表单词:

RepWordtz={witz|Coverage(wi)=maxi1..n..tzoverage(wi,tz)}

代表单词是主题tz中覆盖率最高的单词,它代表了主题的语义。

下面是应用本发明的方法进行本体学习的具体实施例:以ProgrammableWeb(PWeb)网 站上的Web服务进行基于Web服务描述的本体学习为实施例,详细描述本发明的实施过程。

ProgrammableWeb(http://www.programmableweb.com/)网站是目前互联网上可以公开 访问的著名mashup和Web服务注册中心,截至2013年9月16日,注册的Web服务已超过9900个, 包括遵循SOAP、REST、XML-RPC的各类Web API,并且提供了API服务的一些注册信息,比如 API描述、名字、标签等。对于采用SOAP协议的API服务,还提供了描述该Web服务的WSDL文 档。

首先,执行步骤1,使用PWeb网站提供的开放API从该网站收集Weather、Government等 领域的SOAP服务的WSDL描述文件,并对其进行预处理。

然后,对收集的Web服务描述文档进行预处理,具体包括:对收集的每个Web服务描述文 档进行解析,抽取该文档中的所有输入输出参数,并将参数做进一步处理,包括将参数拆分, 词干还原。然后使用WordNet(http://wordnet.princeton.edu)将所有的单词进行词性标 注。对参数的组成模式进行分析,并建立模式列表,方便步骤4对学习出的本体做语义增强。

接着,执行步骤2、3,使用基于HDP的无监督学习方法hHDP进行语义层次构建。在调用 hHDP方法之后,系统将得到表1所示的结果。主题和主题之间具有层次关系,同级主题之间 可以共享相同的子主题,但是共享子主题的概率是不相同的。通过主题与子主题的层次关系 表达主题之间隐含的层次语义关系。

表1 执行hHDP方法之后主题和主题之间的概率

每个主题下都包含若干的单词,每个单词属于本主题的概率都是一个确定的数值,根据 概率值可以得出该主题下单词分布,每个主题及其包含的单词的概率分布示例如表2所示。

表2 主题下top-10单词及其概率

请见图4,在得出每个单词在主题中的概率分布之后,基于这个概率分布计算每个单词 对所在主题的覆盖率。通过计算覆盖率得到每个主题的代表单词,然后根据上文所述的语义 层次构造算法建立语义层次,形成如图4所示的语义层次结构。

请见图5,根据在预处理阶段的模式分析建立的语义规则对生成的本体进行语义增强, 得到如图5所示的结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技 术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不 会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号