首页> 中国专利> 一种分类数据可视化方法

一种分类数据可视化方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种分类数据可视化方法，包括：基于词向量技术获取内容初始坐标；根据内容初始坐标计算并调整分类的坐标，生成类位置坐标；利用类位置及其内容所确定的区域，调整内容在分类内的坐标并确定；根据确定的内容坐标，生成相应的类的多边形表示，即生成分类边界，并依次由子类边界合成父类边界，直至合成整个分类数据的边界；将分类和内容按缩放需要计算相应的分类和标题缩放区间，并将数据内容分层，分配相应的缩放层级；将数据导入支持空间索引的数据库中，配合地图服务即可在前端以地图的交互方式可视化分类数据。

著录项

公开/公告号CN112612933A

专利类型发明专利
公开/公告日2021-04-06

原文格式PDF
申请/专利权人同方知网(北京)技术有限公司;中国学术期刊(光盘版)电子杂志社有限公司;
展开▼

申请/专利号CN202110010234.4
发明设计人李海卜;张振海;陈海涛;
展开▼

申请日2021-01-05
分类号G06F16/904(20190101);G06F16/906(20190101);G06F16/29(20190101);
代理机构11340 北京天奇智新知识产权代理有限公司;
代理人陈新胜
地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
入库时间 2023-06-19 10:29:05

说明书

技术领域

本发明涉及数字出版技术领域，尤其涉及一种分类数据可视化方法。

背景技术

传统的文献检索通常是首先输入要检索的关键词，再进行检索。随着知识的爆炸式增长，各种新的概念层出不穷，有时候人们无法准确描述需要检索的内容。另一方面，有时候人们只是想了解所关心领域当前的热门概念，或者只是想随意浏览下所关心领域的相关知识。此外，有时候人们可能期望找到更多的知识隐含的关联关系，以期望实现知识创新。以上需求都要求有一种简单直观的交互方式为用户展示所感兴趣的领域知识以及知识之间的关联关系，辅助用户快速获取信息，甚至是揭示隐含的知识。

知识通常以分类的形式进行组织，而分类通常具有层次结构，例如领域词表中的上下位关系，领域本体中的子类关系，中图分类法中的按学科领域的划分等。

可视化采用不同的视觉符号来表示不同类型的关系，这决定了层次数据可视化的两种主要方法。

节点链接法：将单个个体绘制成一个节点，节点之间的连线表示个体之间的层次关系。代表技术有空间树，锥形树等。这种方法直观清晰，特别擅长于表示承接的层次关系。但是，当个体数目太多，特别是广度和深度相差较大时，节点链接方法的可读性较差——大量数据点聚集在屏幕局部范围，难以较高地利用有限的屏幕空间。

空间填充法：用空间中的分块区域表示数据中的个体，并用外层区域对内层区域的包围表示彼此之间的层次关系。其中的代表方法是树图。和节点链接法相比，这种方法更适合于显示包含和从属的关系，且具有高效的屏幕空间利用率，可呈现更多的数据。此方法的缺点在于数据中的层次信息表达不如节点链接法清晰。

地图是一种典型的利用空间填充法表示地理空间数据的方式，通过区域包含表示地理范围的包含关系，通过点或者面表征地理位置上的具体特征，通过线来表示地理位置的连接关系。近年来，随着谷歌地图、百度地图等典型的基于Web的GIS系统的普及，特别是移动互联网的到来，使得地图已经成为一种人们日常使用频次很高的应用。本发明参照WebGIS的交互形式，将具有树形结构分类的知识放到地图中，用户可以使用拖拽，缩放等简单的交互手段快速浏览知识点，而不用手动输入相应的检索。地图也是一种树形导航系统，不同于普通的树形导航，地图不但可以显示类信息，而且可以将分类的内容显示出来，由于采用的分层、分区域按需加载的方式，地图可以支持大规模数据的应用。同时，地图还可以支持叠加各种应用图层和交互特效，例如数据上的统计视图。最后，通过分类间的临近关系，包含关系，通过词直接的临近关系，关联关系，通过类和词之间的包含关系，可以直观地揭示出知识之间的关系，甚至是某些隐含关系。

发明内容

为解决上述技术问题，本发明的目的是提供一种分类数据可视化方法，该方法将分类数据变换成空间数据，进而导入空间数据库中，再对接地图服务，实现了一种以地图的交互方式可视化分类数据的方法。

本发明的目的通过以下的技术方案来实现：

一种分类数据可视化方法，包括：

A基于词向量技术获取内容初始坐标；

B根据内容初始坐标计算并调整分类的坐标，生成类位置坐标；

C利用类位置及其内容所确定的区域，调整内容在分类内的坐标并确定；

D根据确定的内容坐标，生成相应的类的多边形表示，即生成分类边界，并依次由子类边界合成父类边界，直至合成整个分类数据的边界；

E将分类和内容按缩放需要计算相应的分类和标题缩放区间，并将数据内容分层，分配相应的缩放层级；

F将数据导入支持空间索引的数据库中，配合地图服务即可在前端以地图的交互方式可视化分类数据。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

该分类数据可视化方法尤其适用于大规模分类数据可视化的场景，特别是当分类层次过深，分类中内容过多时。上述优点也是空间填充法的优点，采用一般的节点链接法很难有效地可视化大规模分类数据，而通过空间填充法，更具体地，通过地图的形式，可以充分而高效地利用屏幕空间，基于地图上缩放的交互方式，巧妙地实现大规模数据可视化。如果缩放区间足够多，再结合相应的缓存技术，该方法所能可视化的分类数据规模几乎是没有上限的，因为缩放的交互方式使特定时刻屏幕所需展现的内容始终是可控有限的。

该分类数据可视化方法实现了一种任意分类数据转换为空间数据的有效方法，从而可以保证方法的广泛适用性。该分类数据可视化方法利用分类中内容的词向量生成初始坐标，再基于物理引擎对于力与运动的模拟，将内容视为物体，最终得到分类数据的空间坐标。该方法对于适用于任意内容以词为载体的分类数据。

该分类数据可视化方法可以在一定程度上可视化分类及其内容的关联关系。得益于自然语言处理中的词向量技术，内容的初始坐标能够大概率地将相近的概念放在一起，而之后基于物理引擎的调整，基本维持了内容间的相对方位关系，因此无论是分类的位置，还是内容的位置，都在一定程度上可以揭示相近或者相关概念。

该分类数据可视化方法为在分类数据上进一步可视化数据之间的关联、数据蕴含的其他相关信息提供了基础。例如，在中图分类法的地图上，可以叠加文献发文趋势的统计数据图层，从而揭示当前的研究热点。再如，可以通过内容之间的共现关联，找到不同内容之间的“路径”，从而为研究人员发现事物之间潜在的联系提供可视化工具。

附图说明

图1是分类数据可视化方法流程图；

图2是生成内容初始坐标示例；

图3是生成类位置坐标示例；

图4是调整分类内容位置后的示例；

图5是生成并合成分类边界示例；

图6是支持缩放的地图服务示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为分类数据可视化方法流程，包括：

步骤10基于词向量技术获取内容初始坐标；

步骤20根据内容初始坐标计算并调整分类的坐标，生成类位置坐标；

步骤30利用类位置及其内容所确定的区域，调整内容在分类内的坐标并确定；

步骤40根据确定的内容坐标，生成相应的类的多边形表示，即生成分类边界，并依次由子类边界合成父类边界，直至合成整个分类数据的边界；

步骤50将分类和内容按缩放需要计算相应的分类和标题缩放区间，并将数据内容分层，分配相应的缩放层级；

步骤60将数据导入支持空间索引的数据库中，配合地图服务即可在前端以地图的交互方式可视化分类数据。

上述步骤10具体包括：

生成内容初始坐标，一般通过自然语言处理中的词向量技术实现。利用词向量技术生成，并通过降维技术将词向量降到二维，避免降维后的二维坐标离群或者两个坐标过近，因此对坐标进行一次调整，该调整通过计算所涉及的所有坐标的中心点，利用物理引擎，通过力的作用进行扩散及聚合，最终得到的坐标即为内容初始坐标。基于词向量技术初始化的坐标具有较好的可解释性，能够做到相关概念的位置较为接近，从而达到可视化揭示内容关联的目的。典型的词向量技术有：word2vec，glove，ELMo和Bert等。

通常词向量是高维的，要做到有效地可视化，需要降到二维或者三维。典型的降维方法是t-SNE。

通常，降维后的数据还不能直接用于后续处理，主要原因在于内容的坐标可能过远或者过近。如果过远，分类内容会覆盖过大的空间，但在空间内的实际内容过于稀疏，而且会和其他分类覆盖的空间产生交集；如果过近，在后期可视化时，如果考虑内容重叠问题，可能需要放大很多级才能完全显示，甚至需要放大到最底层。因此，在降维后，通常需要借助物理引擎对内容的坐标做一次扩散和聚合操作，让同一个分类中的内容既保持相对的紧凑，又不至于过近。物理引擎使用一个刚体球来模拟一个关键词，利用刚体碰撞后不会重叠的特性使内容扩散开，然后给每个内容刚体一个向心力，使其向中间汇聚。如图2所示为生成内容初始坐标的示例，其中每个点代表具体内容。

上述步骤20生成类位置坐标基于步骤10生成的内容初始坐标进行计算，典型的计算方法是计算内容的中心坐标作为类位置坐标。

同时，依据类中内容的坐标，可以确定类的范围，以一定半径的圆表示；对类位置进行调整，同理，由于分类的位置在空间上可能过远或者过近，亦需要对分类位置进行一定地调整。同样基于物理引擎，使用一个刚体球来模拟一个分类，利用刚体碰撞后不会重叠的特性使分类扩散开，然后给每个分类刚体一个向心力，使其向中间汇聚。如图3所示为生成类位置坐标示例，其中每个圆代表一个具体分类，相应圆心即为其位置。

上述步骤30为调整内容坐标，在确定类位置坐标后，由于类是作为一个圆形物体进行建模，在物理引擎作用下趋于相对稳定后，在类之间会产生大量空隙，因此需打破圆形的概念边界，利用分类圆之间的中分线可以计算出包含分类圆的多边形边界，分类之间由圆形产生的间隙基本被多边形覆盖，通过作用力的模拟使内容扩散填充类间空隙，此时让分类内容在多边形内自由扩散，在保证分类内容不越过多边形边界的前提下尽量填充多边形区域，最终得到内容坐标。如图4所示是调整分类内容位置后的示例。

上述步骤40生成并合并分类边界，基于步骤30生成的内容坐标，即可生成分类边界。典型的生成分类边界的方法是构造泰森多边形，通过分类内容的泰森多边形边界即可生成分类的边界。由于分类通常具有层次结构，再将内容进行分层，使其能够随着分类的缩放逐步展示；所述内容分层依据内容权重，以保证权重高的内容率先显示。需要根据所有子类的边界进一步合成父类的边界。以此类推，可以合成所有分类的边界，直至根类。如图5是生成并合并分类边界示例。

上述步骤50计算缩放区间，内容数据分层具体包括：为了实现地图上的缩放操作，需要对分类计算缩放区间，如果有分类标题，还需要进一步计算标题的位置和缩放区间。在分类多边形内部查找一块较大的矩形区域，以矩形的中心作为标题位置，根据标题是否可在多边形内显示确定标题最小缩放值。之后，需要依据缩放区间对内容数据分层，将数据分布到不同的缩放区间中，使其能够随着分类的缩放逐步展示，从而实现地图上缩放操作时加载不同数据的需要，所述内容分层依据内容权重，以保证权重高的内容率先显示。

上述步骤60对接地图服务，地图是分类数据最终的可视化交互形式，如图6是支持缩放的地图服务示例。在步骤50之后，即可生成地图所需的空间数据，将该数据导入空间数据库中，所谓空间数据库一般指支持空间索引和空间运算，例如MySQL。生成的数据包括分类的边界数据、内容的坐标数据、缩放区间数据、类标题数据及地理特征数据。

地图显示内容主要包括分类多边形、分类标题、关键词、检索结果等，相应的后端需要提供分类多边形图层服务，分类标题图层服务，关键词图层服务以及关键词检索服务等。

在地图服务前端，负责地图的绘制及基础操作交互，例如采用Canvas进行绘制，响应拖拽、缩放、内容检索等基本操作。

为了实现较好的前端性能，通常在加载数据时需要采用一定的预取缓存技术，即预加载一部分视图框周边的数据，在缩放和拖动的过程中，在视图区域未超出数据区之前加载数据。

为了实现更好地揭示数据关联或者潜在知识的目的，通常需要在地图上增加更为丰富的可视化功能。例如统计数据图层，再如内容直接的关联路径。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种分类数据可视化方法 [P] . 中国专利： CN112612933A . 2021-04-06
2. 一种分类数据库的构建方法以及图书分类的方法 [P] . 中国专利： CN107862069A . 2018-03-30
3. A METHOD FOR IDENTIFYING CLUSTERS OF FLUORESCENCE-ACTIVATED CELL SORTING DATA POINTS [P] . 美国专利： US2017091282A1 . 2017-03-30

机译：一种识别荧光激活细胞分类数据点簇的方法
4. A method for the visualization of energy distributions, in particular of ultrasonic energy to the being free werkstoffpruefung [P] . 德国专利： DE879023C . 1953-06-08

机译：一种可视化的能量分布的方法，尤其是对自由的超声能量进行可视化的方法
5. An advertising Element comprising an advertising surface with a number of protrusions, which comprise a portion of a First Surface visualization Graphics applied to the surface, and Fragments of a Second Surface visualization Graphics applied to its Surface; and associated methods. [P] . CL2014003301A1 . 2015-10-02

机译：一种广告元素，其包括具有多个突起的广告表面，该广告表面包括施加到该表面的第一表面可视化图形的一部分以及施加到其表面的第二表面可视化图形的片段;及相关方法。