首页> 中国专利> 一种基于语义模型的WSDL半结构化文档相似性分析及分类方法

一种基于语义模型的WSDL半结构化文档相似性分析及分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种基于语义模型的WSDL半结构化文档的相似性分析及分类方法，利用WordNet词典建立WSDL半结构化文档语义模型，并通过最大熵模型消除词语歧义，建立WSDL半结构化文档语料库特征向量模型，生成WSDL半结构化文档的文档特征矩阵，从而对两个不同文档进行内容的分类与评估，最终得到服务功能的相似性比较。本发明所述方法提高了文档相似性判断准确度，提升了文档分类速度以及准确度，并对向量空间有降维效果。

著录项

公开/公告号CN104063502A

专利类型发明专利
公开/公告日2014-09-24

原文格式PDF
申请/专利权人中南大学;
展开▼

申请/专利号CN201410322692.1
发明设计人龙军;张祖平;王鲁达;李会玲;
展开▼

申请日2014-07-08
分类号G06F17/30(20060101);
代理机构43114 长沙市融智专利事务所;
代理人黄美成
地址 410083 湖南省长沙市岳麓区麓山南路932号
入库时间 2023-12-17 01:29:34

法律信息

法律状态公告日

法律状态信息

法律状态
2017-03-22

授权

授权
2014-10-22

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140708

实质审查的生效
2014-09-24

公开

公开

说明书

技术领域

本发明涉及Web服务与信息检索领域，特别涉及一种基于语义模型的WSDL半结构化文档相似性分析及分类。

背景技术

在信息检索领域，相似性和相关性分析的文档语料库的实现需要相应的表示不同文档的算法。典型的统计特征提取的方法包括TF-IDF基于词法词频率和瓦哈希基于连续条件算法。 TF-IDF是当前比较实用的一个文档分类算法，在基于向量空间模型的信息检索系统中， TF-IDF算法被广泛的应用在基于关键字的信息检索中。同样的，许多文档分类方法利用词的统计数据，比如Bag-of-Words和Minwise散列被视为统计措施文档表示的特征提取。然而，在信息检索领域，忽视词汇语义词统计方法，使得文档分析词的水平停留字符串基础上而没有通过消除歧义得到更准确的特征提取。

WSDL是一个用于精确描述Web服务的文档，WSDL文档是一个遵循WSDL XML模式的 XML文档。WSDL文档将Web服务定义为服务访问点或端口的集合。在WSDL中，由于服务访问点和消息的抽象定义已从具体的服务部署或数据格式绑定中分离出来，因此可以对抽象定义进行再次使用：消息，指对交换数据的抽象描述；而端口类型，指操作的抽象集合。用于特定端口类型的具体协议和数据格式规范构成了可以再次使用的绑定。将Web访问地址与可再次使用的绑定相关联，可以定义一个端口，而端口的集合则定义为服务。一个WSDL 文档通常包含7个重要的元素，即types、import、message、portType、operation、binding、service 元素。这些元素嵌套在definitions元素中，definitions是WSDL文档的根元素。

目前，许多文本分类算法依赖于基于统计的文档特征向量，但是，这些算法忽略了词汇条款和净化共同的信息，导致文本分类错误。

因此急需提出这一种针对WSDL半结构化文档分析不同标签元素中同义不同词的情况。

发明内容

本发明提供了一种基于语义模型的WSDL半结构化的文档相似性分析及分类方法，其目的在于，克服现有技术中文档相似性判断忽略了同义不同词的情况，从而导致判断结果准确度不高，进而影响文档分类的精度。

一种基于语义模型的WSDL半结构化的文档相似性分析方法，包括以下步骤：

步骤1：依次找出原文档中的每个原文词对应的一个或多个词根，利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集，并以每一个同义词集作为一个语义元素；

步骤2：对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集，采用数据元结构存储至语义元素的相关信息至数据表中；

步骤3：从步骤2中得到的数据表中提取相关数据进行计算，利用最大商模型f_i(x,c)进行计算，以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根，消除词根歧义；

$p (c | x) = \frac{1}{Z (x)} Π_{i = 1}^{K} α_{i}^{f_{i} (x, c)}$

其中，p(c|x)条件概率函数是表示原文词x被词根c映射到的频率，α_i是原文词x在语义元素i中的频率，K是词根c涉及到的语义元素的个数总和，Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值；x表示原文档中的原文词，c表示词根，i为语义元素编号，S_i是语义元素i中包含的词根个数，P_j是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值，原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数；

步骤4：建立WSDL半结构化文档语料库特征向量模型；

使用向量空间模型SVM对原文档进行划分得到m个标签元素，依据步骤3获得的每个原文词对应的唯一词根，确定每个原文词对应的同义词集，以同义词集的个数作为每个标签元素特征向量的行数，以标签元素中的包含的段落数作为每个标签元素特征向量的列数，建立WSDL半结构化文档语料库特征向量模型；

步骤5：生成WSDL半结构化文档文本特征矩阵；

利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中，得到各标签元素向量，即WSDL半结构化文档文本特征矩阵；

步骤6：对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵，计算两个文本特征矩阵之间的距离，判断两个文档的相似性。

所述步骤2中所述语义元素的数据元包括：

Synset ID，同义词集唯一标识，从WordNet词典获得；

Set of Synonym，同义词集合，同义词集中的所有词根；

Weight，同义词集在原文档中被原文词映射的次数；

Sample ID，同义词集所属原文档的原文档唯一标识，由用户自行设定；

Element ID，同义词集对应在原文档中的XML元素编号；

Semantic Member，语义成员链表，以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根；

Semantic Members Frequency，语义成员频率，包括语义成员链表中所涉及的每个原文词频率，同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。

所述步骤6中两个文本特征矩阵之间的距离为余弦距离。

一种基于WSDL半结构化的文档分类方法，采用所述的一种基于WSDL半结构化的文档相似性分析方法，采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值，利用文档所属类别的评估值大小对文档进行分类：

$score (d, c_{i}) = Weigh t_{i} (\underset{d_{j} \in KNN (d)}{Σ} Sin (d, d_{j}) δ (d_{j}, c_{i}))$

其中，函数score(d,c_i)计算得到将文档d归于分类c_i的评估值；函数Sim(d,d_j)表示文档d 与已知类别文档d_j的相似度，采用向量余弦距离计算；Weight_i为分类权重设定值；函数δ(d_j,c_i) 表示若文档d_j属于类别c_i，则该函数取值为1，否则，该函数取值为0；i表示第i类文档。

有益效果

本发明提出了一种基于语义模型的WSDL半结构化文档相似性分析及分类方法，它包括两个方面的改进：(1)根据WordNet词典形成词语的语义特征向量模型；(2)通过最大商模型消除词根歧义；

与传统的统计特征提取的方法相比，本发明采用WordNet词典提取出的同义词集形成的语义元素，通过记录同义词集在原文档中对应原文词的次数，以及同义词集在原文档中对应原文词的词根的次数，通过最大熵模型的计算，消除词根歧义，使得每个原文词对应一个同义词集，得到了一个唯一的含义；接着采用向量模型，对文档中的标签元素利用语义元素进行表征，形成文本特征矩阵；最后利用矩阵之间的距离大小来判断文档的相似性；利用相似性的结果对文档进行分类。

从实证的角度，采用了广受认可的传统算法NWKNN，并对Reuter-21758和其调整后的版本进行了比较实验，实验结果定量的展示了本发明所述方法的明显优势，提高了文档相似性判断准确度，提升了文档分类速度以及准确度，并对向量空间进行了降维。

附图说明

图1为本发明所述方法的流程图；

图2为XML格式文档样例图

图3为对原文词提取同义词集的示意图；

图4为图3的实例示意图；

图5为语义成员链表示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，为本发明所述的流程图，一种基于语义模型的WSDL半结构化的文档相似性分析方法，包括以下步骤：

通过对文档语料库分析，依赖词义统计会丢失涉及同义词的交互信息，因此我们利用 WordNet词典(英语词汇数据库)建立基于WSDL半结构化文档原文词。在WordNet词典中一个表格是由一个ASCII字符的字符串表示，一个词的意思由这些同一词集组成。同义是 WordNet词典的基本关系，因为WordNet词典利用这些同义词集来表示词的含义。

如图2所示，DocA和DocB是两个简单的XML文档被看作两个文档样本，如图3所示，一个原文词word对应一个或多个同义词集synonym set。

如图4所示，通过WordNet词典查找出human和man的同义词homo，从而得到原文词。

步骤2：对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集，采用数据元结构存储至语义元素的相关信息至数据表中；

所述步骤2中所述语义元素的数据元包括：

Synset ID，同义词集唯一标识，从WordNet词典获得；

Set of Synonym，同义词集合，同义词集中的所有词根；

Weight，同义词集在原文档中被原文词映射的次数；

Sample ID，同义词集所属原文档的原文档唯一标识，由用户自行设定；

Element ID，同义词集对应在原文档中的XML元素编号；

Semantic Member，语义成员链表，以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根；

利用语义元素来提取文档词语语义特征，并以词语语义特征向量表示一个样本文档。在每一个语义元素中，它的原文词的词尾变化以及词根的基本形式被语义元素链表收录。根据 WordNet词典，每当一个原文词涉及多个的词根，语义成员链表会扩展原文词的节点来记录词根，如图4所示语义成员链表。

$p (c | x) = \frac{1}{Z (x)} Π_{i = 1}^{K} α_{i}^{f_{i} (x, c)}$

最大熵模型P_j表示语义元素i在语义成员中的多样性，并以Shannon-Wiener 指数的形式表示。

根据WordNet词典的框架，每当一个原文词的被多组同义词集映射到，通过ME模型(最大熵模型)计算出哪组同义词词集最符合文档内容要求。ME模型(最大熵模型)是把来自多个异构词根按信息进行分类的框架。在我们的模型中，我们假设语义成员的多样性表示的语义元素的意义和存在的语义成员的合理性。

步骤4：建立WSDL半结构化文档语料库特征向量模型；

依据XML文档规则对原文档进行解析得到m个标签元素，依据步骤3获得的每个原文词对应的唯一词根，确定每个原文词对应的同义词集，以同义词集的个数作为每个标签元素特征向量的行数，以标签元素中的包含的段落数作为每个标签元素特征向量的列数，每个段落标号为步骤2中记录的XML编号，建立WSDL半结构化文档语料库特征向量模型；

建立标签元素特征向量是为了便于找出WSDL文档中相同标签元素之间对应的词语语义相似性，具体公式如下：

Δ_x＝[Δ_x(1)，Δ_x(2)，……，Δ_x(m)](3)

其中Δ_x∈R^n×m,m表示文档中标签元素的数量，n表示语义元素的个数，Δ_x(i)表示WSDL 文档中标签元素e_i的特征向量。

在本实例当中同样可以得到词频向量特征模型：

其中，e_i为标签元素，w_j表示语义元素在原文档所在的标签元素中出现的次数；

步骤5：生成WSDL半结构化文档文本特征矩阵；

利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中，得到各标签元素向量，即WSDL半结构化文档文本特征矩阵；

步骤6：对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵，计算两个文本特征矩阵之间的距离，判断两个文档的相似性。

所述步骤6中两个文本特征矩阵之间的距离为余弦距离。

一种基于语义模型的WSDL半结构化的文档分类方法，采用所述的一种基于WSDL半结构化的文档相似性分析方法，采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值，利用文档所属类别的评估值大小对文档进行分类：

$score (d, c_{i}) = Weigh t_{i} (\underset{d_{j} \in KNN (d)}{Σ} Sin (d, d_{j}) δ (d_{j}, c_{i}))$

为了评估文档分类系统，我们使用如下F1函数。这一函数结合查全率Recall和查准率Precision的F1函数如下：

$F 1 = \frac{2 \times Recall \times Precision}{(Recall + Precision)}$

运用F1函数，我们可以观察到一个文档分类系统不同类型对数据的影响。为便于比较，我们总结了F1的分数比使用宏观平均值F1分数的不同类别，于此同时，我们可以得到 Macro-Recall和Macro-Precision。

通过表1比较TF-IDF向量和本发明提出的Lexical-semantic向量得出我们的相似性方法更精确、有效。

表1TF-IDF向量和Lexical-semantic向量比较

可以看到，表1中所述本发明提出的Lexical-semantic向量，得到的分类结果明显高于现有技术中TF-IDF向量，尤其是平均准确率由原有的48.6702％提高到70.1861％。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于语义模型的WSDL半结构化文档相似性分析及分类方法 [P] . 中国专利： CN104063502B . 2017.03.22
2. 一种基于语义模型的WSDL半结构化文档相似性分析及分类方法 [P] . 中国专利： CN104063502A . 2014-09-24
3. Multilingual document similarity learning apparatus, multilingual document similarity determination apparatus, multilingual document similarity learning method, multilingual document similarity determination method, and multilingual document similarity learning program [P] . 日本专利： JPWO2015145981A1 . 2017-04-13

机译：多语言文档相似性学习设备，多语言文档相似性确定设备，多语言文档相似性学习方法，多语言文档相似性确定方法和多语言文档相似性学习程序
4. Determining structural similarity in semi-structured documents [P] . 美国专利： US7203679B2 . 2007-04-10

机译：确定半结构化文档中的结构相似性
5. Determining structural similarity in semi-structured documents [P] . 美国专利： US2005038785A1 . 2005-02-17

机译：确定半结构化文档中的结构相似性