首页> 中国专利> 面向多源异构建筑人文史料的建筑师知识图谱构建方法

面向多源异构建筑人文史料的建筑师知识图谱构建方法

摘要

本发明公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法。首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。近现代建筑师知识图谱可有效提升传统建筑人文史料梳理和分析的工作效率,具有较好的应用前景。

著录项

  • 公开/公告号CN113806563A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202111367313.7

  • 发明设计人 汪鹏;谢佳锋;汪晓茜;

    申请日2021-11-18

  • 分类号G06F16/36(20190101);G06F16/951(20190101);G06F40/194(20200101);G06F40/289(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人蒋昱

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 13:45:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-04

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2021113673137 申请日:20211118

    实质审查的生效

说明书

技术领域

本发明属于人工智能知识图谱和建筑人文交叉领域,具体涉及面向多源异构建筑人文史料的建筑师知识图谱构建方法。

背景技术

传统的建筑师史料研究工作以人力为主,大量纸质文献数据的整理工作耗费费力且容易出错。在建筑师史料人文研究中引入数字技术是一项备受关注的工作。知识图谱技术作为一种高效整理和分析多源异构数据的人工智能技术,在建筑人文研究中具有广阔的应用前景。知识图谱将数据、信息和关系聚合为高价值知识,实现认知智能服务,是大数据场景中高效组织数据和发现知识的重要技术。知识图谱通过知识构建、知识融合、知识存储、知识表示等共性技术,实现描述关联,链接实体,集成异构数据和赋能大规模知识推理等服务,有助于解决建筑人文研究当前的碎片化史料利用、海量纸质文献快速处理、全面分析建筑师及其作品等。

本发明将知识图谱技术运用到建筑学人文数据的分析中,通过建筑人文数据采集和处理、本体构建、知识抽取、知识融合、知识存储等过程,构建建筑人文领域知识图谱,推动建筑人文相关研究和应用。目前国内外在建筑人文分析方面使用知识图谱作为载体的工作较少,尚未有近现代建筑师知识图谱构建技术的公开发明和报道。

发明内容

为解决上述问题,本发明公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法,首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。

为达到上述目的,本发明的技术方案如下:

面向多源异构建筑人文史料的建筑师知识图谱构建方法,具体步骤如下:

1)多源异构建筑人文史料数据的采集:

一方面,采集纸质建筑师文献数据

另一方面,采集来源于互联网开源建筑人文数据

2)多源异构建筑人文史料数据的处理:

针对采集的纸质文献资料,通过文本识别、文本纠错以及文本规范化处理,将建筑师纸质文献数据转换成结构化数据

3)建筑师图谱本体构建:

建筑师图谱本体是对建筑师知识图谱中数据的形式化概念抽象描述和定义,建筑师知识图谱本体

建筑信息

4)建筑师知识抽取:

以实体、关系、事件为知识粒度抽取建筑师知识,对于半结构化的数据,采用词法分析和规则抽取的知识抽取方法,通过分析半结构化文本语句将其转化为词序列并标记各词的词性,然后以预定义建筑师规则模式识别出实体、关系、事件知识,针对非结构化文本数据,采用深度学习法学习获取建筑师文本特征,并根据预定义建筑师实体类型和关系类型抽取实体、关系三元组,以及根据预定义建筑师事件类型和论元角色抽取事件知识。

作为本发明进一步改进,所述步骤1)中的纸质建筑师文献数据

作为本发明进一步改进,所述步骤2)中的建筑师纸质文献处理,在传统的文本和图片识别基础上增加了自定义的建筑师文本识别策略,该策略设计一种文本过滤器,优先关注文本主体部分内容,并过滤与建筑师无关的信息,包括纸质文献的页码、页眉、页脚以及纸质文献中图片中的无关文字内容,从而保证数据采集阶段过程的全面性和精确性。

作为本发明进一步改进,所述步骤2)中文本纠错过程,提出一种建筑师纠错检测算法,通过添加建筑领域敏感词汇的注意力机制,在候选字词列表中计算权重值,得到最后的注意力,在文本识别中自动提示识别错误,并对错误文字提供可纠正字选项及权重分数。

作为本发明进一步改进,所述步骤3)中的本体

作为本发明进一步改进,针对建筑师本体的建筑师的教育经历设计子本体,针对生平工作经历设计子本体

作为本发明进一步改进,所述步骤3)中构建建筑师知识图谱本体

作为本发明进一步改进,所述步骤4)实体、关系、事件为知识粒度抽取的每条规则都根据建筑师群体总体特征和数据信息进行定制,在文本没有找到相匹配规则时,通过分析规则条目词列表和该条文本词的相似度,选出评分最高值,对文本抽取出完整的知识结构。

作为本发明进一步改进,所述步骤4)实体和关系知识抽取过程中的深度学习方法,在进行建筑师实体识别和关系抽取使用联合学习的多任务方法,给定的自然语言句子,根据设计的本体模型,结合深度学习预训练模型提取建筑师纯文本特征以及捕获句子的结构信息,输出文本-序列组成表,并分别对表及序列做表征,从而抽取出所有满足本体约束的知识三元组。

作为本发明进一步改进,所述步骤4)事件知识抽取过程中的深度学习方法,根据预先定义的事件类型和论元角色,结合深度学习预训练模型序列标注方案,进行触发词抽取和论元抽取,从而形成完整建筑师事件知识结构。

本发明的有益效果为:

本发明提出了面向多源异构建筑人文史料的建筑师知识图谱构建方法,对互联网数据和纸质文献的近现代建筑师群体史料进行采集和处理,结合实际建筑人文需求构建建筑师图谱本体,以本体为指导,使用分层次多方法抽取建筑师的知识,得到全面描述近现代建筑人文史料的建筑师图谱。近现代建筑师知识图谱可用于提升传统建筑人文研究中数据采集、处理和整理的效率,具有较好的应用价值。

附图说明

图1为本发明方法的逻辑框架;

图2为建筑人文互联网数据采集工作流程;

图3为建筑师知识图谱的本体;

图4为本发明的实体关系知识抽取方法;

图5为本发明的事件知识抽取方法;

图6为建筑师知识图谱示例一;

图7为建筑师知识图谱示例二。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明公开了一种面向多源异构建筑人文史料的建筑师知识图谱的构建方法。其中逻辑框架如图1所示,具体如下;

首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。近现代建筑师知识图谱可有效提升传统建筑人文史料梳理和分析的工作效率,具有较好的应用前景;

1)多源异构建筑人文史料数据的采集;

建筑人文史料数据包括纸质文献和互联网数据。纸质文献的数据主要来源于建筑人文领域专家筛选的文献数据,过滤指标为人物信息的完整性,包括人物生平经历、社会关系、建筑作品、言论文章等。文献数据包括《近代哲匠录》、《建筑师作品集》、《建筑师言论集》等近现代建筑师文献;

为填补纸质文献数据中可能存在的数据不完备问题,从百度百科数据源采集建筑师信息,使用爬虫技术获取互联网上的建筑师信息。本发明采用深度优先搜索策略爬虫。首先,将建筑师姓名和百科地址拼接为种子集,在种子的百科网页中进行建筑师资料的采集;然后,在当前建筑师百科网页的数据抓取过程中不断将获取新网址放入待爬取的网址队列中。附图2为深度优先搜索的建筑师网络爬虫工作原理图。该爬虫首先从一个预定义的种子网页开始,然后进入并采集数据和分析所选定网页内的其他链接。在进入的网页内选择一个最佳匹配的链接进行搜索和分析,并不断深入追踪更深层的链接对应的网页内容,直到达到指定深度或者满足爬取终止条件。由于浅层网页比深层网页有更多高价值的信息,深度优先策略爬取对网页值爬取进行相应优化:当网页X存在一个指向网页Y的链接,则Y对X的重要性尤为突出,从而把X的一部分重要性得分赋予Y。这个重要性得分值为:PR(X)/C(X),其中PR(X)为X的网页级别值,C(X)为X的外部链接总。网页Y的网页级别值PR为一系列类似于X的页面重要性的分值累加;

其中,PR(Y)表示网页Y的PR分值,Xi为指向Y的其他网页,d是一个调节系数,取值在范围0.75-0.85之间;

2)多源异构建筑人文史料数据的处理;

本发明将建筑师语料库中的纸质版文献资料扫描图像读入计算机,然后通过文字识别、文本纠错及文本规范化处理获得初步结构化数据

文字识别部分采用CRNN+CTC网络结构来对传统文献资料进行数据信息化。卷积神经网络(CNN)可以从纸质建筑文献文本图像中提取多尺度特征。循环神经网络(RNN)和连接时序分类(CTC)层遵循多尺度CNN将特征序列转换为预测标签序列。其中CTC是一种调整输入和输出的方法。转换过程是在每次预测的条件下找到最高概率。以每帧预测y=y

其中

在使用该模型对建筑师的文献文档资料文字识别时,首先需要训练CRNN模型。采用Synth数据集作为训练,该数据集包含几百万张的合成训练图像以及对应的文本。使用如下公式来评估模型识别文本性能:

其中,m代表预测准确的图片数量,N代表全部测试数据条数。

建筑师纸质文献图片包含大量文字内容,本发明使用文本切割方法将图片进行左右和上下的区域切割,每一张分割后的子图片记录分割顺序,每张图片获取10张子图片,通过训练好的模型对子图片内容进行测试识别。由于不同纸质文献文本排版不同,例如单栏式、双栏式、对角式等。根据纸质文献的文本结构特点,设计对应的文本语句识别算法。例如每个建筑师人物内容介绍的文本总体结构相似,主要内容包括建筑师姓名、字、生卒、籍贯、教育背景、人物图像、人物经历、作品等。而每个建筑师的内容结构有不同之处,例如部分资料建筑师的经历、作品、著作、其它材料内容数据量大概一致,在文档页中呈均匀分布,部分资料建筑师的著作内容相较经历和作品较多,著作内容分散在文档页左右两部分之中。此外,建筑师人物内容会分散在前后两页文档中,即一个文档页中会出现包含两位建筑师的基本人物信息。

根据这些不同情况的描述分析,以文本左右分布双栏式为例描述文本处理算法,具体算法步骤如下所述;

第1步:首先以

第2步:将

第3步:以1为循环条件开始值,列表

第4步:在上一个循环中,再以1为循环条件开始值,列表

第5步:最终获得左右两块区域的总文本内容

经过文本识别后仍然存在的识别错误,本发明设计了一种建筑师文本纠错检测工具实现不同文本错误类型纠错。该工具包可用于音似、形似错字纠正、中文拼音等多类错误的纠正。根据规则纠错的解决思路包括:错误检测和错误纠正。在错误检测中,通过中文分词器进行分词,由于句子中含有错别字或字词缺失等问题,切词的输出往往会有切分错误,从字粒度和词粒度两面进行错误检测。首先,第1次计算文本段来获取1个纠错结果r

其中ID代表文本改善程度,ppl的计算公式为;

其代表困惑度值,值越低,表示语句越流畅正确。计算获取文本语句的困惑度,并借助这两种粒度方法的困惑与一个预设置的阈值进行比较,若困惑度小于阈值,复原文本;若困惑度大于阈值则形成疑似的错误位置候选集并文本替换获取正确结果;

在文本纠错工具包的基础上加入文献数据的建筑师姓名及相应的建筑专有名词集合列表,并针对每个建筑师文献文本增加特定的文本错误类型。建筑师文本纠错检测工具对文字识别处理的数据按照每行或每句进行文本输入,在经过工具分析后分别输出原语句和纠错后的新语句;

3)建筑师图谱本体构建;

经过数据采集和处理,在进行知识抽取、知识融合以及图谱构建之前需要对本体模型做出设计。要构建中国近代建筑师的知识图谱就首先需要构建出建筑师图谱的本体,构建本体的概念及属性,值属性和关系属性本体。本发明构建建筑师知识图谱本体从本体概念结合已有文本数据出发,首先建立建筑师、教育经历、著作、作品、生平经历、其他材料、高校、机构组织等概念,根据不同维度数据建立子本体,以建筑师概念为本体核心,构建教育子本体,工作子本体等多个维度子本体,然后根据每一个概念的数据特征赋予其相应属性特征并且定义其属性的数据类型,这样就构建完成概念属性表和值属性表,将所有子本体叠加融合并去重消歧,得到总本体。在本发明中,实现子本体融合采用概念对齐、属性对齐和实体匹配的方式,制定融合规则对融合结果进行处理,从而形成总本体。概念对齐和属性对齐采用自动识别方法,了解不同建筑师子本体知识库中对同一概念、属性的不同描述,挖掘等价概念和等价属性,生成相应的匹配规则,从而实现建筑师多个子本体间概念层和属性层的对齐。在完成概念层和属性层的对齐之后,对实体进行匹配。因此,面向属性定义较准确的建筑师知识库内容,采用基于属性相似度的实体匹配算法。经过本体语言规范化后,设实体

其中T=|Property

此外,本发明建筑师知识图谱本体中引入了概念对和隶属度的形式,一个概念对相当于一个字符串,包含了两个实体,考虑概念对类中概念名称这一属性,对概念对进行排序组合后,计算概念对的相似度:

其中Property

4)建筑师知识抽取;

在构建完成本体模型后,进行数据信息的知识抽取,分别进行半结构化文本的词法分析和规则抽取,以及非结构化文本数据的深度学习模型抽取。

本发明使用基于规则的抽取方法的主要目标为不完整语句的半结构文本,大部分为建筑文献数据

表1半结构文本模式表

其中部分文本要素可以互换,这些文本没有主语,例如在描述建筑师杨廷宝的半结构文本数据中,一般省略杨廷宝这一主语,所以需要抽取的是谓语,宾语等成分。首先,通过词性识别抽取出人名(nr),地名(ns)等实体类型和带有关系的词组。

例如从“1934年与刘致平、王先泽等测绘杭州六和塔”该文本数据中可抽取出“刘致平、王先泽”等人物名(nr)、“杭州、六和塔”地名(ns)、“1934、年”时间词(t)。

在识别职业名词(np)时,首先需在识别出普通名词的基础上,对普通名词进行一个经过职位列表词

职位列表词

如有“师,员,士,生,长,顾问,主任,教授,秘书,主编,评委,监事,…”词列表。在此列表中,对经过检测得出的普通名词再在这个职位关键词列表中进行检索匹配,若名词中包含列表关键词,则可以判定为是职位关键词,若无匹配,则仍是普通名词。

在关系动词抽取后,若一个句子中有多个动词,则可根据该句中的其他名词来确定关联度最大的动词,若句子中没有动词,则需要通过文本中的地点名词,机构名词来设定预先定义好的关系动词,例如机构名词为学校可以匹配学习,机构名词为企业可以匹配担任。

在处理完较短的半结构化文本数据

这里,

完成实体和关系的三元组信息抽取后,建筑人文研究有时更需要了解特定的事件,以事件为核心的一个知识结构对人文探索有更加直接的帮助。本发明分别从建筑师半结构化数据源和建筑师纯文本信息源中抽取出对建筑人文具有显著研究效益的事件并以结构化的形式呈现。

半结构化数据形式相对单一,使用基于根据建筑师数据结构特征的模式匹配方法,对数据中建筑师的预分类事件作提取。本发明以建筑师人物事件为核心进行构建,构建从事件维度观察建筑师文献的事件知识图谱。在模式匹配中,主要以因果、时序两类事件间关系为事件抽取目标,对已有的各类半结构数据进行模式信息抽取,如下表2。

针对因果关系,首先抽取可能表示因果的文本语句,然后根据预设值抽取出因果关系的原因和结果,采用模式匹配,方法过程为全文本→因果文本→句子级因果事件→篇章级因果事件,通过句内因果关系抽取因果文本形成句子级因果事件,由句子级因果事件的句间因果关系将事件转化成篇章级因果事件。其中句内因果关系有“导致,产生,造成,发自,来源于,起源于,为了,依据,按照”等,句间因果关系有“离职–入职,毕业–就职,回国–工作,出国–求学,受伤–停职”等。在通过字词来判断句内和句间因果关系时,首先需要使用词法分析来提取出可能需要的因果关键词,然后使用预先定义的因果同义词词典来进行词义相似度匹配,若能够匹配,就将抽取事件标注相似度值最大的因果关系。

针对时序关系,主要按照文本时间名词进行抽取,直接按照每个文本语句的时间名词来对每个文本事件进行时序关系的抽取,进一步地按照词法分析方法抽取文本中的时间性质名词例如先–后,春–夏–秋–冬,早晨–上午–中午–下午夜晚等,根据这些代表时间序列的名词进行时序关系的抽取。

表2模式匹配事件关系抽取形式表

另一个部分是纯文本数据的事件知识抽取,给出语句n的序列

本发明的目标是学习一个函数

经过上述的实体、关系和事件的多源异构数据的知识抽取。从不同的数据源的获取的结构化数据之间必定存在大量的实体冗余等问题。进行实体对齐将异构建筑师数据源融合。本发明中由于以纸质文献为主,网页数据为辅,在知识融合过程中,赋予纸质文献实体权重远大于网页数据实体。将待对齐实体看成两个集合,然后以如下公式计算两个集合的相似性。若相似度值大于预设置阈值则可看成同一实体;

以上知识抽取工作完成后,得到的建筑师知识数据,可采用neo4j等图数据库进行存储数据,并构建整个近现代建筑师图谱

需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号