首页> 中国专利> 一种唐卡文化知识图谱展示系统及其构建方法

一种唐卡文化知识图谱展示系统及其构建方法

摘要

本发明公开了一种唐卡文化知识图谱展示系统及其构建方法,通过唐卡数据集的构建、唐卡文化命名实体识别、基于Bs‑Spert模型的实体及实体间关系的联合抽取及唐卡文化知识图谱展示系统搭建四个部分完成基于Web端的唐卡文化知识图谱展示系统的构建,实现了对唐卡自然语言文本的命名实体识别和关系抽取可视化查询功能,缓解当前以唐卡文化为主题的门户网站资源少,数据分散、知识浅显的窘迫困境。系统能够针对不同受众人群特点进行角色划分,并授予不同程度权限,使系统在满足不同人群的基础上增加不断改进功能。另外系统操作简单,界面简洁而丰满,适用于年龄偏大或不太擅长利用网络的用户。

著录项

  • 公开/公告号CN115687314A

    专利类型发明专利

  • 公开/公告日2023-02-03

    原文格式PDF

  • 申请/专利权人 青海大学;

    申请/专利号CN202211136388.9

  • 发明设计人 李长哲;刘晓静;

    申请日2022-09-19

  • 分类号G06F16/215;G06F16/26;G06F16/28;G06F16/951;G06N3/0464;G06N3/08;

  • 代理机构青海省专利服务中心;

  • 代理人周同永

  • 地址 810000 青海省西宁市城北区宁大路251号

  • 入库时间 2023-06-19 18:34:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-03

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及计算机图像描述技术领域,具体涉及一种唐卡文化知 识图谱展示系统及其构建方法。

背景技术

唐卡文化文本指在千百年的唐卡绘画发展过程中,人们通过对唐 卡绘画内容的记录、研究、描述、创作而留下来的自然语言文本,这 种自然语言文本大多是作为纸质书籍或者是口口相传的形式存在,存 在形式单一且受限于唐卡文化文本载体的局限,常常导致唐卡文化缺 失、遗漏、错误的现象。这种现象的出现无疑是对我国保护文化传承 的理念相左。由此唐卡文化文本的保护成为亟待解决的任务。

随着时代的发展,除了类似中国民协采用较为传统的出版书籍和 建档立项保护唐卡文化的方式外,以数字化的唐卡文化资源网站和百 度百科词条互联网保存方式不断涌现。其中唐卡文化资源网站的建设 主体由大学研究机构和少数民族地市图书馆扮演,但存在着由不同机 构不同地区建设资源分散、研究差异性的缺点。百度百科网站主要以 百度词条的形式展现,百度百科词条展示较为浅显单一,并不能详尽 的诠释唐卡文本中内在含义。由此,一个能够统一分散资源且深入理 解唐卡文化的解决方案的提出成为唐卡文化保护亟待解决的难题。

知识图谱根据应用场景的不同和在不同技术范畴内,所给出的知 识图谱的定义也不尽相同。由于本申请基于唐卡文化下的知识图谱构 建,主要专注于唐卡文化中的唐卡语料文本,是一种从自然语言角度 中构建知识图谱,因此从自然语言处理(NaturalLanguage Processing, NLP)的角度来看,知识图谱的构建过程可以看作是从唐卡文本中抽 取语义以及唐卡文本中的结构化信息,也就是抽取唐卡文本中的实体 以及实体间的依赖关系。简而言之,知识图谱可以被看作是以图的形 式表述现实世界的知识的工具,图中的每个结点代表一个实体,而图 中的边则代表知识图谱中两个实体间的关系。

发明内容

为了解决上述技术问题,本发明的目的是提供一种唐卡文化知识 图谱展示系统及其构建方法。

本发明保护一种唐卡文化知识图谱展示系统的构建方法,具体包 括如下步骤:

S1,唐卡知识图谱数据集构建:由唐卡文化数据集搜集整理以及 采用Brat工具对唐卡文化数据集进行标注两部分工作组成;

S1-1,数据集获取:首先,通过与唐卡文化具有强相关性的佛经 类网站针对性解析,编写对应网络爬虫,使用网络爬虫爬取数据集; 然后,采用人工方式获取数据并对补充校正;手工查阅并提取唐卡文 化强相关词条,通过OCR技术识别,进一步对上述爬取数据集补充 矫正;

S1-2,数据整理及清洗:对上述获取数据集存在数据噪声大、缺 失、重复、异常点问题进行整理及清洗,对数据缺失采用全局常量 Unknown进行填充;对数据异常点直接删除或赋为全局变量 Unknown;对数据异常点的直接删除或者异常离群点赋为全局变量Unknown;对数据重复的剔除冗余;在数据整理及清洗时要参考来自 OCR技术识别到的词条数据;

S1-3,数据集标注:采用Brat标注工具来实现数据集标注,首先, 对待提取唐卡文本数据生成同名后缀为ann文件,然后在 annotation.conf文件中配置初始实体和实体关系以及所在文本的位置 信息;并选用BIOES作为实体的标注方式;在获得上述实体及实体关系的基础上,按照训练集:测试集=8:2的比例划分数据集;在 Windows环境下采用VMware虚拟机软件安装Ubuntu系统环境,进 而部署Brat标注工具;

S2,唐卡文化命名实体识别:采用Bi-Lstm+CRF模型进行唐卡 命名实体识别,在Bi-Lstm模型的基础上引入条件随机场,将Bi-Lstm 作为特征提取器,该模型最终的输出看做条件随机场模型的输入,利 用条件随机场获得标注序列间状态转移规则;最后使用随机梯度下降 算法进行网络的学习;

S3,基于Bs-Spert模型的实体及实体间关系的联合抽取:

S3-1,Bs-Spert模型构建:该模型构成主要为Bert预训练模型模 块、集束搜索模块、跨度分类模块、跨度过滤模块及关系分类模块; 用Bert预训练模型作为Bs-Spert模型基础展开面向唐卡文本实体和 实体间关系的联合抽取;

S3-2,Bs-Spert模型训练:Bs-Spert模型在步骤2唐卡文本数据 集构建的基础上进行训练,Bert预训练模型采用Bert-Base-Chinese;

S3-3,唐卡文本实体和实体联合抽取任务实验:首先,测试 Bs-Spert模型在不同集束宽度Beam Width影响下的性能;然后,通 过测试不同池化函数在跨度分类模块上的Precision、Recall、F1-Score 值来选择池化函数;最后,在前两步结果的基础上,与信息抽取中经 典模型Bert-CNN以及LSTM-RNN进行横向比较,得出Bs-Spert模 型在唐卡文化数据集上的实验性能;

S4,唐卡文化知识图谱展示系统的搭建:首先,将唐卡文化知识 图谱的存储由唐卡文化实体导入和唐卡文化实体间关系两个步骤将 唐卡文化知识保存进Neo4j图数据库中;然后,由系统需求分析、系 统设计、系统测试三个步骤完成唐卡文化知识图谱web端展示系统 的搭建。

进一步的,所述步骤S3-3中,不同集束宽度Beam Width设置为 3、5、7、9、11;不同的池化函数为Average Pooling、Sum Pooling 以及Max Pooling。

进一步的,所述步骤S4中,所述需求分析包括界面需求分析和 功能需求分析;所述系统设计包括界面设计和功能设计;所述界面设 计包括登录界面和功能界面;所述系统测试包括登录测试和功能测 试,所述登录测试包括游客模式、用户模式和管理管模式;功能测试 包括唐卡命名实体识别、唐卡实体查询、唐卡实体关系查询及增添实 体或实体关系。

本发明还保护一种唐卡文化知识图谱展示系统,包括需求分析 层、界面登录层、功能层及数据存储层;

所述需求分析层,包括界面需求分析和功能需求分析,所述界面 需求分析用于分析满足不同用户操作使用、字体颜色及大小是否与界 面主色合理搭配的界面需求;功能需求分析用于分析唐卡文化爱好 者、唐卡文化研究者及平台管理员三种角色层面的功能需求;

所述界面登录层,用于不同用户的登录界面,基于需求分析层分 析后的数据,区分不同用户的目标,弹出与其相适应的访问登录界面;

所述功能层,用于不同用户的操作功能,所述操作功能包括唐卡 命名实体识别、唐卡实体查询、唐卡关系查询、增添唐卡实体或唐卡 实体关系、修改更正唐卡实体或唐卡实体关系、删除唐卡实体或唐卡 实体关系;

所述数据存储层,用于存储唐卡文化实体及唐卡文化实体间关 系。

进一步的,所述界面登录层有登录界面、新用户注册界面及修改 密码界面,登录界面适用于唐卡文化爱好者、唐卡文化研究者及平台 管理员;正常默认情况下登录界面不勾选管理员选项,系统默认为普 通用户登录,当游客模式访问时可直接点击右下角游客模式则自动跳 转至限制功能的平台界面下,当勾选管理员复选框时将切换为管理员 登录模式。

进一步的,所述以游客模式访问本系统的用户,则自动被划分为 唐卡爱好者人群仅授予限制性功能,仅可使用本系统的命名实体识 别、实体查询、实体关系查询三个功能,通过本系统正常注册登录用 户在被授予以上三个功能权限的基础上额外授予对本系统唐卡文化、 唐卡文化关系添加的功能;系统管理员则授予对唐卡文化知识图谱展 示平台所有的控制权限。

相比于现有的技术,本发明具有如下有益效果:

本发明方法通过唐卡数据集的构建、唐卡文化命名实体识别、基 于Bs-Spert模型的实体及实体间关系的联合抽取及唐卡文化知识图 谱展示系统的搭建四个部分完成基于Web端的唐卡文化知识图谱展 示系统的构建,实现了对唐卡自然语言文本的命名实体识别和关系抽 取可视化查询功能,缓解当前以唐卡文化为主题的门户网站资源少, 数据分散、知识浅显的窘迫困境。其中,Bi-Lstm+CRF在唐卡文化数 据集上兼顾时间开销的前提下可以比CRF和Bi-Lstm模型取得更优 的唐卡实体识别效果;Bs-Spert模型在唐卡文化数据集上具备优秀的 实体和实体关系联合抽取性能;系统能够针对不同受众人群特点进行 角色划分,并授予不同程度权限,使系统在满足不同人群的基础上增 加不断改进功能。另外系统操作简单,界面简洁而丰满,适用于年龄 偏大或不太擅长利用网络的用户。

附图说明

图1为本发明方法流程图;

图2为Brat工具标注唐卡数据集;

图3为Bi-Lstm+CRF模型架构图;

图4为不同Epoch下Bi-Lstm+CRF实验结果;

图5为不同Hidden_Size下Bi-Lstm+CRF实验结果;

图6为Bs-Spert的模型整体架构图;

图7为集束搜索Beam Search;

图8为不同Beam Width值下的实验效果;

图9为基于Web端的唐卡文化知识图谱展示系统设计架构图;

图10为唐卡文本命名实体识别;

图11为唐卡实体查询;

图12为唐卡关系查询;

图13为唐卡文化实体添加;

图14为唐卡文化关系修改。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

一种唐卡文化知识图谱展示系统的构建方法

1、唐卡知识图谱数据集构建

主要由唐卡文化数据集搜集整理以及采用Brat工具对唐卡文化 数据集进行标注两部分工作组成;

(1)数据集获取

首先,通过对与唐卡文化具有强相关性的佛经类网站针对性解 析,编写相对应的网络爬虫,使用网络爬虫爬取数据;例如在对相关 唐卡文化领域网站(佛教大辞典)词条爬取,累计获取95000左右条; 数据(累计获取95000左右条数据);对“中国唐卡网”等专题网站 进行针对性数据爬取工作,精准获取到唐卡文化259条词条,共34 万字左右;然后,采用人工手动的方式获取数据并对以上数据补充校 正;手工查阅并提取唐卡文化强相关词条,并通过OCR技术识别, 进而对上述网络爬虫获取的数据集补充矫正,共计150余条36000余字。

(2)数据整理及清洗

对上述获取数据存在的数据噪声大、数据缺失、数据重复、数据 异常点问题进行整理及清洗,具体方法为针对数据缺失采用全局常量Unknown进行填充;针对数据异常点直接删除或赋为全局变量 Unknown;针对数据数据异常点的直接删除或者异常离群点赋为全局 变量Unknown;针对数据重复的剔除冗余;在数据整理及清洗时还 要参考来自OCR技术识别到的150余条词条数据;

(3)数据集标注

采用Brat标注工具来实现数据集标注,首先,针对待提取的唐 卡文本数据生成同名后缀为ann文件,然后在annotation.conf文件中 配置初始的实体和实体关系以及所在文本的位置信息,目前配置收集 到的实体有[fo]_[age]_[name],[pusa],[tianmu],[tinanv],[shangshi], [jingang],[hufashen],[monk],[zunzhe],[book],[direction],[zuozi], [Loc],[jiaopai]_[believers],[shuliang],[shoushi],[faqi],[zhenyan],[yuyi],[faxiang],[qiguan],[nation],[job],[zuoji]等24类3942个, 实体关系有[Mentoring],[ToEast],[OtherName],[belong],[as], [previouslife],[previouslifeMother],[previouslifejob], [previouslifeBelong],[home],[relatives],[wife],[son],[verb],[own], [Means],[successful],[othername],[Create],[Birthtime],[Dietime], [BirthLoc],[DieLoc],[father],[mother],[xieshi]等26类1756条, 标注Brat标注的数据集(详见附图2);并选用BIOES作为实体的标注方式,标签“B“表示实体的开始,“I”标签表示在实体的内部, “O”标签表示无实体,“E”标签表示实体的结束,“S”标签表示 一个单独的实体(详见表1);在获得以上实体及实体关系的基础上, 按照训练集:测试集=8:2的比例划分数据集(详见表2)。

表1命名实体识别数据标注格式

表2唐卡文化数据集划分

在Windows环境下采用VMware虚拟机软件安装Ubuntu系统环 境,进而部署Brat标注工具(详见表3)。

表3唐卡数据集标注实验环境

2、唐卡文化命名实体识别

(1)Bi-Lstm+CRF模型的构建

Bi-Lstm最终的输出是经过全连接神经网络对标签进行分类,仅 仅是挑选出当前字的最大概率的标签进行输出,因此会导致每个标签 的输出仅是根据上下文决定。从构建条件随机场模型中可知,唐卡文 本中不同字之间的隐藏状态即标注序列间的状态转移规则。在 Bi-Lstm模型的基础上引入条件随机场用以解决CRF面对数据规模量 大速度慢以及Bi-Lstm模型不能很好利用序列隐含状态转移规则的缺 点,最终达到稳定提升实体识别的精度的目的。本申请将Bi-Lstm作 为特征提取器,将该模型最终的输出看做条件随机场模型的输入,利 用条件随机场能够获得标注序列间状态转移规则。Bi-Lstm+CRF模型 架构图(详见附图3)。

设Bi-Lstm的输出维度为L

然后使用Softmax函数为每个标签序列定义概率值如公式(2) 所示:

其中,

最后使用随机梯度下降算法进行网络的学习。

(2)不同处理下Bi-Lstm+CRF实验对比及分析

本实验结果均是计算数据集中所有类别的实体的平均精度,平均 召回率,以及相对应的平均F1-Score值。实验均依托于Ubuntu 20.04.2 LTS系统进行展开,实验环境配置如表4所示。

表4唐卡命名实体识别任务实验环境

1)不同Epoch下Bi-Lstm+CRF实验对比及分析

首先为了确定当Epoch为何值时Bi-Lstm+CRF模型能够取得最 好的实验效果,如附图4所示Epoch取值分别为Epoch=50,100,150, 200,250,300时Bi-Lstm+CRF的精确值、召回率以及F1-Score值, 由附图4可知,当Epoch=100时模型就可以取得较佳的实验效果。因 此在后文中的实验对比中Epoch变量设定为100。

2)不同Hidden_Size下Bi-Lstm+CRF实验对比及分析

在获得最优Epoch的前提下,对Bi-Lstm中的不同隐藏变量 Hidden_Size=64,128,256,512进行了探索,最终实验结果如图5 所示,当隐藏变量Hidden_Size=64时模型取得最佳实验结果。

3)不同Bi-Lstm层数下Bi-Lstm+CRF实验对比及分析

在实验中,本文发现当改变Bi-Lstm的层数时对实验的最终结果 影响较大,因此对Bi-Lstm的层数进行实验,在本次实验中首先将层 数从一层依次选取至十层,然后再抽取十层、二十层进行对比,实验 结果如下表5所示,模型实验效果先逐步增长而后逐步降低,且在第 四层时达到最优。

表5不同Bi-Lstm层数下Bi-Lstm+CRF实验结果

4)不同模型下实验对比及分析

在以上实验的基础上选定Bi-Lstm+CRF迭代次数为Epoch=100, Bi-Lstm模型隐藏层特征维度Hidden_Size=64,四层Bi-Lstm条件下 对比模型CRF、Bi-Lstm、Bi-Lstm+CRF在唐卡数据集上性能表现。 其中Bi-Lstm+CRF模型详细参数设置如表6所示。

表6 Bi-Lstm+CRF模型中的参数设置

实验结果如表7所示,CRF、Bi-Lstm、Bi-Lstm+CRF三个模型 在唐卡文化数据集上的性能表现Bi-Lstm模型最差,CRF模型比 Bi-Lstm模型提升了0.78%的Precision、2.46%的Recall及1.64%的 F1-Score值。传统的统计学模型CRF模型在唐卡数据集上的性能优于基于深度学习的Bi-Lstm模型主要原因有以下三点。其一是CRF 模型是统计学上的概率图模型,经过特征模板扫描输入文本,能够较 为优秀的整体性的考虑输入序列的局部特征线性加权组合,CRF计算 的是序列上的联合概率,是对序列整体的优化,而不是简单的每个时 刻的最优解拼接。其二是Bi-Lstm模型在对于每个时间片的输出时没 有考虑上一时间片的输出,不能很好的对序列中标注的规则进行建 模,仅仅使用Bi-Lstm模型进行命名实体识别时有可能会丢失上下文 的语义依赖。其三则唐卡文化数据集规模略小且CRF擅长处理数据 规模小的数据。而且如表8所示在三个模型的时间开销对比实验中 CRF模型相对于Bi-Lstm模型需要更大的时间开销,CRF模型相当于 利用时间资源换取性能的提升。

由于Bi-Lstm模型的基础为循环神经网络,针对神经网络英伟达 提供了多种如GPU加速,多级异步等数据训练加速技术,相较于CRF 模型可以更快的完成观测序列的特征提取,而CRF模型则可以比较 好的利用序列隐含状态中状态转移规则,更好的学习上下文语义依 赖。CRF模型与Bi-Lstm模型两者优缺点互为补充,最终如表4.4所 示在CRF模型算法上实现了0.7%的Precision、1.01%的Recall和 0.86%的F1-Score的性能提升。且在不同的模型时间开销对比中 Bi-Lstm+CRF模型相较于CRF模型大大缩短时间开销。

表7不同模型对比下的实验结果

表8不同模型的时间开销

3、基于Bs-Spert模型的实体及实体间关系的联合抽取

(1)Bs-Spert模型构建

该模型构成组件主要为Bert预训练模型模块、集束搜索模块、 跨度分类模块、跨度过滤模块、关系分类模块组成;用Bert预训练 模型作为Bs-Spert模型基础展开面向唐卡文本的实体和实体间关系 的联合抽取,将一条唐卡文本P{“释”,“迦”,“牟”,“尼”, “指”,“导”,“阿”,“难”,“修”,“行”}输入Bs-Spert 模型中,然后经过数据预处理后得到一组长度为m字节编码对 P={p

1)跨度分类模块

任意的可能存在的实体候选跨度均可以输入进跨度分类器(附图 图6中spanclass lfler模块),这里首先假设输入的跨度序列为,跨 度长度为k+1。然后参照第三章节中唐卡文本实体类别预定义实体集 合为,其中表示所有存在的可识别的唐卡文本实体类别,O表示不存 在或不能识别的实体跨度。

跨度分类器模块的输入由三部分组成:

A、跨度嵌入:通过Bert预训练模型获得的跨度嵌入使用融合函 数f组合为,f(q

B、跨度长度嵌入:将跨度长度嵌入与f(q

q(s)=f(q

C、句向量c:由预训练模型Bert得到,该向量表示该句文本的 上下文的历史信息,作用类似于一句话中的关键字。例如:文本{“现”, “在”,“佛”,“为”,“释”,“迦”,“牟”,“尼”,“佛”} 中的关键字“佛”是实体类别中“fo”的重要标签。同时,句向量c 利用上下文的历史信息能够有效的消除实体的歧义问题。最后拼接句 向量c后跨度分类模块的输入如公式(5)所示。

x

最后将x

y

这里W

2)跨度分类模块

公式(5)对每个实体类别分别进行评分,然后选取得分最高的 实体类别作为实体识别结果,最后将O类别即非实体跨度过滤,仅 将属于ψ实体类别跨度嵌入与跨度长度嵌入拼接后传入关系分类模 块。

3)集束搜索模块

Beam Search中只有一个参数Beam Width集束宽度,这里设为 k,选择当前条件概率最大的k个最优结果,当做候选输出序列的第 一个词,根据当前词在选出所有组合中条件概率最大的k个最优结 果,整个选择的过程一直保持着k个候选最优,最后再从所有的候选 中选出最优结果。如附图7所示为当搜索树宽k=2时集束搜索的搜索 流程。

4)关系分类模块

关系分类模块的输入主要由融合Bert模型处理后的跨度嵌入与 跨度长度的q(s)以及两个有效实体间的上下文历史信息两个部分组 成。由跨度分类模块中可以很轻易得出候选实体对(s

关系分类模块中输入的另一个组成部分为实体对(s

接下来采取类似跨度分类模块的拼接操作,将两个有效实体对的 跨度嵌入与实体对间的范围嵌入拼接,同时考虑到实体对间的关系不 对称现象,由此关系分类模块中的输入表示如公式(7)所示:

这里

(2)Bs-Spert模型训练

Bs-Spert模型在步骤2唐卡文本数据集构建的基础上进行训练, Bert预训练模型采用Bert-Base-Chinese,该预训练模型的参数:编码 器的Bert模型层数Bert_Layers为12,Bert模型自注意力头为12个; 词向量维度Bert_Dimension为768;模型中关系分类器的初始权重采用 正态分布(0,0.02)的随机数;模型中采用添加了预热学习率和线性 衰减学习率的Adam优化器;同时为了防止出现过拟合现象出现,分 别为实体抽取和关系抽取模块设定Dropout Rate=0.5;关系分类模块 中关系响应阈值设置为=0.4;Bs-Spert模型中详细参数设定如表9所 示;

表9实体和实体关系联合抽取Bs-Spert模型参数设置

(3)唐卡文本实体和实体联合抽取任务实验:

首先,测试了Bs-Spert模型在不同集束宽度(Width={3,5,7, 9,11})影响下的性能,并选择最佳的集束宽度值来确定进一步的实 验;其他实验参数保持不变。从附图8中可以看出,Beam Width=11 取得了显著的效果。然后,通过测试不同的池化函数(AveragePooling、Sum Pooling以及Max Pooling)在跨度分类模块上的 Precision、Recall、F1-Score值来选择池化函数;如表10所示,从 Max Pooling函数具有相对明显的提升。最后,在前两步结果的基础 上,与信息抽取中经典模型Bert-CNN以及LSTM-RNN进行横向比 较,得出Bs-Spert模型在唐卡文化数据集上的实验性能(详见表11)。

表10不同池化函数下的实验对比

表11不同模型在唐卡数据集上的实验对比

4、唐卡文化知识图谱展示系统的搭建

唐卡文化知识图谱的存储由唐卡文化实体导入和唐卡文化实体 间关系两个步骤将唐卡文化知识保存进Neo4j图数据库中;唐卡文化 知识图谱web端展示系统的搭建,由系统需求分析、系统设计、系 统测试三个步骤完成(详见附图9);所述需求分析包括界面需求分 析和功能需求分析;所述系统设计包括界面设计和功能设计;所述界 面设计包括登录界面和功能界面;所述系统测试包括登录测试和功能 测试,所述登录测试包括游客模式、用户模式和管理管模式;功能测 试包括唐卡命名实体识别、唐卡实体查询、唐卡实体关系查询及增添 实体或实体关系。

(1)唐卡文化知识图谱存储

1)唐卡文化实体的存储

唐卡文化的实体Thangka_Entity.csv文件,将该文件放置于” file:///neo4j-community-3.5.14/import”路径下的import文件夹中,然 后使用命令Load csv withheaders from"file:///Thangka_Entity1.csv"as linecreate(:Entity1{Entiy:line.Entity})将唐卡文化实体数据导入至 Neo4j图数据库中。

2)唐卡文化实体间关系的存储

唐卡文化的实体间关系Thangka_Relation.csv文件放置于” file:///neo4j-community-3.5.14/import”路径下的import文件夹中,然 后使用命令Load CSV withheaders from“file:///Thangka_Relation.csv” As lineMatch(entity1:fo{name:line.fo}),(entity2:faqi{name:line.faqi}) Create(entity1)-[r1:line.relation]->(entity2),将相互间存在联系的实体 连接在一起。

(2)系统需求分析

1)界面需求分析,分析满足不同用户操作使用、字体颜色及大 小是否与界面主色合理搭配的界面需求。

2)功能需求分析,分析唐卡文化爱好者、唐卡文化研究者及平 台管理员三种角色层面的功能需求。

(3)系统设计

1)界面设计,对用户登录注册界面以及功能界面的设计,基于 需求分析层分析后的数据,区分不同用户的目标,设计与其相适应的 访问平台界面。

2)功能设计,针对不同用户设置不同的登录功能和对唐卡文化 知识图谱的操作功能,其中,登录功能有注册及修改密码的功能;操 作功能包括对唐卡文化知识图谱的查询操作、增添操作、修改操作及 删除操作,这四种基本操作是面向实体及实体间的关系两个对象来实 现。其中,查询操作,用于识别并查询用户输入的唐卡文本中所有的 数据,同时也能够查询两个实体之间的关系;增添操作,能够向本平 台输入唐卡实体,来添加唐卡实体及唐卡实体之间的关系;修改操作, 能够对已输入本平台的唐卡实体或唐卡实体之间的关系进行修改更 正;删除操作,能够对已输入本平台中的唐卡实体及唐卡实体之间的关系进行删除。以游客模式访问本系统的用户,则自动被划分为唐卡 爱好者人群仅授予限制性功能,仅可使用本系统的命名实体识别、实 体查询、实体关系查询三个功能,通过本系统正常注册登录用户在被 授予以上三个功能权限的基础上额外授予对本系统唐卡文化、唐卡文 化关系添加的功能;系统管理员则授予对唐卡文化知识图谱展示平台 所有的控制权限。

(4)系统测试

1)登录界面测试

测试不同角色用户登录本系统后,基于其角色特点所赋予权限的 不同而展示的效果,初次访问的用户的注册界面,以及用户修改密码 操作。登录界面适用于唐卡文化爱好者、唐卡文化研究者及平台管理 员;正常默认情况下登录界面不勾选管理员选项,系统默认为普通用 户登录,当游客访问时可直接点击右下角游客模式则自动跳转至限制 功能的平台界面下,当勾选管理员复选框时将切换为管理员登录模 式。当用户初次访问本系统时需要注册用户,点击“马上注册”则会 跳转用户注册界面;当用户需要修改密码时在登录界面点击修改密 码,则会跳转至用户修改密码界面。

2)功能测试

挑选唐卡命名实体识别、唐卡文化实体查询、唐卡关系查询、唐 卡实体添加、唐卡关系修改等五个功能模块进行功能测试展示。

A、唐卡命名实体识别功能测试:如附图10所示,由管理员角 色进入本系统功能整体概览图,默认首页为唐卡命名实体识别界面, 该界面主要功能为用户在输入文本框中输入需要实体识别的唐卡文 本后,如下图文本{“大白伞盖佛母,两条主臂放在胸前,左手持金 刚杵,右手拿一柄白伞盖,脚下踩着六道众生,表示六道众生都能得 其庇护。”}点击确认按钮后,进行命名实体识别。识别结果为{“大 白伞盖佛母/tianmu|主臂/qiguan|胸/qiguan|左手/qiguan|金刚杵/法器|右 手/qiguan|白伞盖/法器|脚/qiguan|六道众生/法器”},其中/tianmu等类 型输出表示“大白伞盖佛母”的实体类型为“tianmu”,“|”则是用来表示分隔符功能。

B、唐卡文化实体查询:如附图11所示,用户通过输入栏键入文 殊菩萨字段,点击查询后会在下方的关系图一栏展示与文殊菩萨相关 的实体关系,图中中心点则为文殊菩萨实体,周围圆形表示其他类型 实体,实体间线条连接表示两个实体间的关系。通过该功能,不仅能 够查询该唐卡字段是否为唐卡实体,若该字段为唐卡实体,则还能展 示该实体相互联系的实体以及实体间关系。

C、唐卡关系查询:如附图12所示,用户输入两个具体的唐卡 实体来查询两个实体之间的是否存在实体关系。用户输入“释迦牟尼 佛”和“文殊菩萨”两个具体的唐卡实体查询两者之间的关系,下拉 栏里选择Unknow字段,表示两输入字段间关系未知,主要目标是查 询两字段间的关系,如图所示为“xieshi”关系,即“文殊菩萨”是 “释迦牟尼佛”的胁侍。第二种思路是,于第一个输入栏输入实体1, 下拉栏里选择关系,查询与输入第一个字段及选择的关系相匹配的实 体,由于该测试效果与第一种思路大同小异,故暂不做展示。

D、唐卡实体添加:如附图13所示,本功能模块主要面向通过 正常注册登录本系统的唐卡文化研究者开放,在当前模块中用户可以 通过输入栏输入所需添加的唐卡实体,点击添加即可向后台管理员发 送添加唐卡实体请求,经本平台管理员确认其添加实体的正确性后, 同意该用户添加实体请求,由此该实体方可添加至唐卡文化数据库 中,同理唐卡实体间关系添加操作流程与此大同小异。

E、唐卡关系修改:在本系统运行期间,不免会出现一些,唐卡 实体或者唐卡实体间关系定义添加错误的情况,此类错误可由平台管 理员发现并纠正。例如将上文中“文殊菩萨”“释迦牟尼佛”两对实 体间关系为“xieshi”更改为,“文殊菩萨”-[othername]->“释迦牟 尼佛”,则需要通过如附图14所示,在两个输入栏输入对应唐卡实 体名,然后选择需要修改为的实体间关系。点击修改按钮,即可完成 “文殊菩萨”-[xieshi]->“释迦牟尼佛”向“文殊菩萨”-[othername]-> “释迦牟尼佛”实体关系的修改。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术 人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这 些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权 利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号