首页> 中国专利> 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法

一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法，主要用于从初始需求描述和应用场景中获得合理的类及对象图，属于分布式计算和软件工程学技术交叉领域。在数据图谱上表达离散的实体、对象、属性和操作，记录每个实体、对象、属性或操作的频度，包括结构频度、时间频度和空间频度；在信息图谱上标记结点间的交互关系，计算交互频度即交互次数，当交互频度大于设定阈值时集成多个结点，产生的新结点作为实体继续标记结构频度、时间频度和空间频度；在知识图谱上对类之间的关系运用关系抽象规则进一步抽象，并可对需求表达的完整性进行补充，提升开发效率。

著录项

公开/公告号CN107038262A

专利类型发明专利
公开/公告日2017-08-11

原文格式PDF
申请/专利权人海南大学;
展开▼

申请/专利号CN201710394911.0
发明设计人段玉聪;邵礼旭;
展开▼

申请日2017-05-30
分类号G06F17/30(20060101);G06F17/27(20060101);G06N5/02(20060101);
代理机构
代理人
地址 570228 海南省海口市美兰区人民大道58号
入库时间 2023-06-19 02:59:30

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-23

授权

授权
2017-09-05

实质审查的生效 IPC(主分类):G06F17/30 申请日:20170530

实质审查的生效
2017-08-11

公开

公开

说明书

技术领域

本发明是一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法，主要用于从初始需求描述和应用场景中获得合理的类及对象图，属于分布式计算和软件工程学技术交叉领域。

背景技术

模型驱动工程(MDE)通过从模型生成代码来减轻软件开发方面的认知复杂性和努力。在MDE中，模型应该在一系列细化和抽象之后准确和完整地满足需求规范中的预期数据、信息和知识。UML是由Rational公司的三位面向对象领域的专家提出的一种标准的图形化建模语言，由四个部分组成：基础构造、上层构造、对象约束语言和图交换标准。UML支持13种图，6种结构图和7种行为图。结构图主要用来表达系统的静态结构，它包括类图，对象图、包图、组件图、部署图和组织结构图。行为图主要用来表达系统的动态行为，它包括活动图、交互图、用例图和交换机图，其中交互图是顺序图、通信图、交互概况图和时序图的统称。随着信息和网络技术的发展，产品设计过程中的信息通信和知识共享变得非常重要。分布式协作设计为开发人员之间共享信息和资源提供了有效的方法。在大型不断发展的设计模式中保持一致性是困难的，对模型和分布式协作设计的改变可能会引入不一致之处，需要进行检测和解决。基于类图的正确的抽象方式为有效重用和有效操纵包含的数据、信息和知识奠定了基础。

知识图谱已经成为用标记的有向图形式表示知识的强大工具，并给出文本信息的语义。知识图谱是通过将每个项目、实体或用户作为结点表示，并且通过边缘将彼此相互作用的那些结点链接起来构造的图形。结点之间的边可以表示任意关系。与UML类图相比，知识图谱具有更丰富的自然语义，表达机制更接近于自然语言，蕴含更多更完整的语义信息。现在很少使用UML来建模自动化应用程序，其中一个原因是UML缺乏正式的需要对应用程序的关键部分进行建模的语义，借助本发明提出的基于数据图谱、信息图谱和知识图谱的三层结构框架，促进从用户描述的初始需求和场景中获得设计合理的对象图和类图。

发明内容

技术问题：本发明的目的是提供一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法，用于解决如何从初始需求描述中获得合理的类及对象图和使用UML建模过程中存在的一些冗余、不一致和不完整等问题。本发明可显著地提高软件开发过程中需求语义建模的完整性和有效性。

技术方案：本发明是一种策略性方法，可以应用于解决分布式协作开发过程中出现的冗余、不一致、不完整等现象，基于数据图谱、信息图谱和知识图谱增强建模的完整性和有效性，在数据图谱上表达离散的实体、对象、属性和操作，记录每个实体、对象、属性或操作的频度，包括结构频度、时间频度和空间频度；在信息图谱上标记结点间的交互关系，计算交互频度即交互次数，当交互频度大于设定阈值时集成多个结点，产生的新结点作为实体继续标记结构频度、时间频度和空间频度；在知识图谱上对类之间的关系运用关系抽象规则进一步抽象，并可对需求表达的完整性进行补充，提升开发效率。

体系结构：

图1给出了数据图谱、信息图谱和知识图谱的形式化定义，图2给出了一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法的体系结构的流程图，将类里面的属性和操作映射到数据图谱上进行处理，在信息图谱上处理类和属性操作的包含关系，在知识图谱上处理类之间的语义关系。

下面给出数据图谱、信息图谱和知识图谱的具体说明：

数据图谱：数据图谱能记录关键词出现的频度，包括结构、时间和空间三个层次的频度。我们定义结构频度为数据出现在不同数据结构中的次数，时间频度为数据的时间轨迹，空间频度被定义为数据的空间轨迹。数据图谱上可以描述图中各个结点之间关联的紧密程度，我们称为密度，可以反映出哪些数据联系紧密，哪些数据联系稀疏。但数据图谱上未对数据的准确性进行分析，可能出现不同名称的数据但表示同一含义，即数据冗余。综上，数据图谱只能对数据进行静态分析，无法分析和预测数据的动态变化。

数据是通过观察获得的数字或其他类型信息的基本个体项目，但是在没有上下文语境的情况下，它们本身没有意义。数据图谱可以通过数组、链表、队列、树、栈、图等数据结构来表达。在数据图谱上，通过计算数据的频度，得出数据在数据图谱上的支持度和置信度来删除错误或无用数据，删除的条件是必须同时满足支持度和置信度的阈值要求，阈值过大不利于图谱表达的准确性，过小会不利于表达的完整性，可以根据计算图谱反馈的结果信息动态调整。

信息图谱：信息是通过数据和数据组合之后的上下文传达的，经过概念映射和相关关系组合之后的适合分析和解释的信息。信息图谱的可以通过关系数据库来表达。信息图谱上进行数据清洗，消除冗余数据，根据实体之间的交互度进行初步抽象，提高设计的内聚性。通过圈定特定数量的实体，计算内部交互度和外部交互度，内聚性cohesion等于内部交互度和外部交互度的比值，我们设定所圈定的实体之间必须是相互连通的。

知识图谱：知识是从积累的信息中获得的总体理解和意识，将信息进行进一步的抽象和归类可以形成知识。知识图谱的可以通过包含结点和结点之间关系的有向图来表达。知识图谱上可以包含各种语义关系，并能进行信息推理和实体链接，知识图谱的无结构特性使得知识图谱可以无缝链接，从而提高知识图谱的边缘密度和结点密度。信息推理需要有相关关系规则的支持，这些规则可以由人手动构建，但往往耗时费力。目前，它主要依赖于关系的同现，并使用关联挖掘技术自动查找推理规则。路径排序算法使用每个不同的关系路径作为一维特征，通过在知识图中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系。关系的正确度Cr可以通过以下公式衡量，Q表示实体E1到实体E2的所有关系，π表示一类关系，θ(π)表示关系的权重，可由训练得出，最后正确度超过某一阈值后认为该关系成立。

有益效果：本发明提出了一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法，在数据、信息和知识三个层面上对建模进行分析和处理，本发明具有如下一些显著优点：

(1)通过计算数据、信息和知识的频度直观反映出数据、信息和知识的重要程度以及结点之间的耦合性程度，提高建模质量；

(2)在数据、信息和知识层面上细化建模过程，提高对需求表达的完整性；

(3)运用关系抽象规则在知识图谱上抽象建模过程，提高建模效率。

附图说明

图1是对数据图谱、信息图谱和知识图谱的形式化定义。

图2是一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法的流程图。

具体实施方式

一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法，具体实施方案为：

步骤1)获取用户需求描述。需求可以由一个或多个用户来描述，多源的需求存在冗余性和不一致性，如果开发者以研究的方式收集用户的需求，用户群体会非常大，用户对需求的描述将会非常混乱；

步骤2)基于步骤1得到的需求描述，提取关键词并将关键词以结点的形式表达在数据图谱上，记录每种关键词出现的结构频度Str_f、时间频度Tem_f和空间频度Spa_f。本发明定义结构频度为数据出现在不同数据结构中的次数，限定每次计算在内的数据结构必须是数据所在最大数据结构(例如以图结构中树结构出现的频度按图结构计算，不再计算树结构的频度)，时间频度为数据在不同时间出现的次数，空间频度被定义为数据在不同空间位置出现的次数；

步骤3)基于步骤2中记录的数据的结构频度、时间频度和空间频度，将时间频度为1的结点标记为对象，并根据公式1计算数据的总频度frequency：

frequency＝Str_f*Tem_f*Spa_f(1)

步骤4)基于步骤3得到的数据的总频度，根据公式2和公式3计算数据在数据图谱上的支持度support(r_i)和置信度confidency以删除错误或无用数据，>

步骤5)基于步骤4)得到的数据图谱，由领域专家或学者对现有数据进行清洗，统一含义相同但表达方式不同的数据，减少小频率出现的数据；

步骤6)基于步骤5得到的图谱，对图谱上结点表示的关键词进行词性分析，将名词和名词短语当作属性或类，将动词或动词短语当作操作；

步骤7)基于步骤6得到的信息图谱，根据公式4计算结点间交互的频度。结点间交互的频度表示结点之间交互的次数，P表示结点之间所有完整的交互路径：

frequency(E1,E2)＝∑P(E1→E2)(4)

步骤8)基于步骤7得到的信息图谱，根据公式5计算有交互关系的多个结点的综合频度Total_frequency,Frequency_DG表示存在交互关系的结点在数据图谱上的频度之和，Frequency_IG表示实体在信息图谱上的交互频度，α和β是数据图谱频度和信息图谱频度所占权重，可由训练得出：

Total_frequency＝αFrequency_DG*βFrequency_IG(5)

步骤9)基于步骤8得到的信息图谱，计算连通结点的内聚性。根据公式6将实体内聚性确定为内部交互度和外部交互度的比值。Degree_EI表示圈定范围后的实体集与外部实体之间的交互。Degree_II表示圈定实体之间的内部交互。在外部交互度和内部交互度的计算中，我们忽略了实体之间的关系方向。计算多次后将具有最大cohesion的不同连通实体以属性和操作的形式集成，在信息图谱上以新结点的形式表达，增强模型的内聚性并提高抽象度：

步骤10)基于步骤9得到的信息图谱，转到数据图谱上标记新产生的结点的结构频度、时间频度和空间频度；

步骤11)基于步骤10)得到的信息图谱，完善实体之间的语义关系。结点之间可能存在选择关系、序列关系、并行关系和互斥关系以及诸如“与”，“或”，“异或”，“非”等逻辑关系。在知识图谱上能通过信息推理和实体链接提高知识图谱的边密度和结点密度，知识图谱的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持，通过推理得到的新关系的正确度Cr根据公式7进行计算，P表示实体1和实体2之间的一条路径，Q表示所有路径，θ(π)表示训练权重，当正确度超过某一设定阈值时认为该关系成立:

步骤12)基于步骤11得到的知识图谱，查找结点之间的关系是否有成环的现象，若有，根据关系抽象规则，对知识图谱进行简化，删掉不必要的连接关系。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法 [P] . 中国专利： CN107038262A . 2017-08-11
2. 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 [P] . 中国专利： CN107092705A . 2017-08-25
3. A METHOD FOR PROVIDING MULTI-USER GAMING SERVICES BASED ON KNOWLEDGE MAPS AND AN APPARATUS USING IT [P] . 韩国专利： KR20180097853A . 2018-09-03

机译：一种基于知识图谱的多用户游戏服务提供方法及其装置
4. TRADITIONAL CHINESE MEDICINE KNOWLEDGE GRAPH AND ESTABLISHMENT METHOD THEREFOR, AND COMPUTER SYSTEM [P] . 美国专利： US2019171656A1 . 2019-06-06

机译：中医知识图谱及其建立方法，计算机系统
5. TRADITIONAL CHINESE MEDICINE KNOWLEDGE GRAPH AND ESTABLISHMENT METHOD THEREFOR, AND COMPUTER SYSTEM [P] . 世界知识产权组织专利： WO2018205739A1 . 2018-11-15

机译：中医知识图谱及其建立方法，计算机系统