首页> 中国专利> 一种生态文明地理知识标准化知识库的构建方法

一种生态文明地理知识标准化知识库的构建方法

摘要

本发明涉及生态文明建设技术领域,提出了一种生态文明地理知识标准化知识库的构建方法,该方法包括系统调查与研究所涉及学科领域及其对知识的需求,以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系;利用科学文献资料、工具书及通用知识图谱,构建生态文明地理科学知识库;根据所述生态文明地理科学知识库构建涵盖自然和社会领域的生态文明地理本体库。本发明主要解决生态文明地理领域知识的形式化和规范化的问题,有利于搭建生态文明地理知识图谱的模式层。

著录项

  • 公开/公告号CN113282698A

    专利类型发明专利

  • 公开/公告日2021-08-20

    原文格式PDF

  • 申请/专利权人 中国科学院地理科学与资源研究所;

    申请/专利号CN202110632029.1

  • 发明设计人 袁文;袁武;

    申请日2021-06-07

  • 分类号G06F16/29(20190101);G06F16/36(20190101);

  • 代理机构51337 成都宏田知识产权代理事务所(普通合伙);

  • 代理人常利敏

  • 地址 100101 北京市朝阳区大屯路甲11号

  • 入库时间 2023-06-19 12:18:04

说明书

技术领域

本发明涉及生态文明建设技术领域,尤其涉及一种生态文明地理知识标准化知识库的构建方法。

背景技术

知识图谱(knowledge graph)是人工智能领域的分支,是大数据时代知识表示最重要的一种方式。本质上是由具有属性的实体通过关系链接而成的网状知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或者概念,而图的边代表实体/概念之间的各种语义关系。目前,知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。而地理知识图谱构建方面的工作,主要有地理实体抽取、拓扑和方位关系的抽取和地理知识图谱存储等。地理知识图谱应用方面,典型的有地理知识语义共享网络系统和基于地理知识的地名词典。

目前已构建了一些地理知识库,如GeoNames Ontoglogy、LinkedGeoData和GeoWorldNet等。但是,由于生态文明地理系统为多学科交叉的复杂巨系统,涵盖自然、环境和人文社会经济等领域,学科之间的知识体系可能存在较大语义鸿沟。目前已有专业部门制订了行业知识标准与规范,构建了地学数据本体库,但主要局限于行业内部的信息整合,行业之间、学科之间以及领域之间,依然横亘着巨大的“信息孤岛”,包括术语名称、概念、度量标准等,缺乏统一的标准和规范,缺乏基于语义的统一框架,并且现有的知识库仍依赖于人工构建与维护,严重阻碍了生态地理领域知识的共享和应用。

发明内容

因此,针对上述现有技术中存在的技术问题,本发明提出了一种生态文明地理知识标准化知识库的构建方法,实现学科和领域之间的知识基于语义的统一化,维护语义的一致性,实现生态文明地理知识体系的自动或半自动构建。

具体的,主要通过以下技术方案来实现:

一种生态文明地理知识标准化知识库的构建方法,包括:

系统调查与研究所涉及学科领域及其对知识的需求,以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系;

利用科学文献资料、工具书及通用知识图谱,构建生态文明地理科学知识库;

根据所述生态文明地理科学知识库构建涵盖自然和社会领域的生态文明地理本体库。

本发明通过系统调查与研究所涉及学科领域及其对知识的需求,以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系;利用科学文献资料、工具书及通用知识图谱,构建生态文明地理科学知识库;根据所述生态文明地理科学知识库构建涵盖自然和社会领域的生态文明地理本体库。主要解决生态文明地理领域知识的形式化和规范化的问题,有利于后续搭建生态文明地理知识图谱的模式层。

附图说明

1、图1为本发明实施例中提供的一种生态文明地理知识标准化知识库的构建方法逻辑流程图;

2、图2为本发明实施例中提供的原真地理特征本体库体系示意图;

3、图3为本发明实施例中提供的生态文明模式本体库体系示意图。

具体实施方式

为了使本领域技术人员更清楚的理解本发明的核心思想,下面将结合附图对其进行详细的说明。

由于生态文明地理系统为多学科交叉的复杂巨系统,涵盖自然、环境和人文社会经济等领域,学科之间的知识体系可能存在较大语义鸿沟,因此针对现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题,本发明公开了一种生态文明地理知识标准化知识库的构建方法,具体实施例如下。

一种生态文明地理知识标准化知识库的构建方法,如图1所示,具体包括:

步骤1,系统调查与研究所涉及学科领域及其对知识的需求。

收集包括新闻报纸书刊、行政沿革资料、近现代地方志及其他数字化历史文献资料、行业数据资料、社会调查与访谈资料、传记及回忆录、风土人情资料。

步骤2,利用基于开放域的生态文明地理实体的抽取技术挖掘生态文明地理知识。

知识图谱核心技术包括知识抽取、知识表示、知识融合以及知识推理技术,而知识抽取主要是面向开放的链接数据,通过自动化或者半自动化的技术抽取出可用的知识单元,并以此为基础,形成一系列高质量的事实表达存入到知识图谱。知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,因此,知识抽取主要包括实体抽取、关系抽取以及属性抽取3个过程(孙镇等2010)。其中,实体抽取指的是从原始数据语料中自动识别出命名实体,是知识抽取中最为基础与关键的一步。实体抽取方法分为3种,包括基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。

基于泛在网络采集生态文明地理知识数据,利用One-Pass的正文快速抽取方法,拟建立网页节点的能量评价模型,进行网页结构化特征抽取。

基于多通道的网络数据采集平台,覆盖主要新闻门户网站(如新浪、搜狐、腾讯、人民网、新华网等)、政府/行业机构网站(包括中央、省、地及县四级政府网站和国土、环境、规划、农林牧渔、工业、人口、灾害应急等行业管理机构网站)、微博客社交网站及社区论坛网站等。由于部分网站存在反爬虫封锁,网络采集平台将基于分布式架构,通过分布式部署、协同调度及访问策略调整,突破网站反爬控制。

目前主流的网页正文抽取算法把网页解析为DOM结构然后抽取正文,效率比较低下,易出现因网页语法错误引发的解析失败。针对这个问题,利用正文快速抽取方法,拟建立网页节点的能量评价模型,假设网页正文节点对正文抽取的能量贡献为正,而噪声节点对正文抽取的能量贡献为负,网页区块的能量贡献是所包含正文节点和噪声节点的相互叠加。正文以及链接节点是否是噪声,不仅取决于自身文字属性,也决定于上下环境。根据空间相关性利用卷积模型平滑正文与噪声能量分布,检测能量密度在网页区块上的变化,分割噪声和正文区块,实现对复杂网页结构的快速处理,满足巨规模网页抓取和预处理的需求。

步骤3,科学设计和梳理生态文明地理知识分类体系。

利用TextRank方法计算词的关联性,形成关键词候选集合,然后利用聚类方式手段,抽取生态文明地理实体,最终设计和梳理生态文明地理知识分类体系。

步骤4,利用科学文献资料、工具书及通用知识图谱,构建生态文明地理科学知识库。

收集、整理与集成生态文明地理专业词典工具书(如地球科学大辞典、现代地理科学词典、地理辞典、生态学词典、牛津生态学词典、环境与健康数据字典等)、百科知识网站(百度百科及维基百科等)、学术期刊(地学及人文社会期刊)及第三方知识图谱网站(如YAGO、FreeBase、CN-DBpedia、OpenKG等),抽取学术词汇-词条说明、题目-关键词-摘要等半结构化数据,构建科学知识数据库。

步骤5,以所述生态文明地理科学知识库作为数据基础,构建涵盖自然环境和人文社会经济领域的生态文明地理本体库。

生态文明地理知识包括原真地理特征和生态文明模式。生态文明地理本体库是一个多学科多领域交叉的复杂概念体系。因此,本体库建设必须支持原真地理特征与生态文明模式概念集、属性集和关系集的定义。其中原真地理特征概念集由自然景观资源特征概念集和人文景观资源特征概念集两个子集组成。自然景观资源特征概念集涵盖了地形地貌、气候、生物、水、土壤五个概念及其子概念,人文景观资源特征概念集涵盖产业,交通,劳动力结构,区位,科、教、文、卫等概念,如图2所示。生态文明模式知识库概念集包括生态经济、生态环境、生态制度,生态文化四大子概念集,如图3所示。原真地理特征与生态文明模式知识库的属性集包括海拔、高差、坡度、气温、降水、有机质含量、土壤质地、径流系数、含沙量、流量、水位等自然属性,以及价值、产业结构、教育质量、文化水平等人文属性。原真地理特征与生态文明模式知识库的关系集包括空间关系和语义关系两大类,其中空间关系主要包括拓扑关系、方向关系和距离关系,语义关系包括父子关系、等同关系、相似关系、互斥关系、概念实例关系等。

基于原真地理特征的概念集、属性集和关系集组织形成原真地理特征的实例体系,涉及不同区域原真地理特征和地理格局的资源、环境、生态、地形、地貌、气候、物候、人口、经济、文化等要素的结构化表达。整个原真地理特征本体库群体系以资源类别划分依据为主,以景观类型划分依据为辅,主要包括自然景观资源特征本体库和人文景观资源特征本体库。基于生态文明模式的概念集、属性集和关系集组织形成生态文明模式本体库群的实例体系,涉及生态文明建设不同地区、不同阶段,需要设置动态建设目标、建设主体、建设过程、推进机制等,主要包括生态空间本体库、生态环境本体库、生态经济本体库、生态文化本体库、生态制度本体库和生态人居本体库。

原真地理特征与生态文明模式的本体库群之间通过关联关系相互连接。原真地理特征本体库群为生态文明模式本体库群提供具体的定量化的指标,而生态文明模式本体库群为如何达到定量化的指标。

具体的,如图2所示,原真地理特征本体库体系包括自然景观资源特征知识库和人文景观资源特征知识库,自然景观资源特征知识库包括地形地貌、气候、生物、水和土壤;其中,地形地貌包括重力地貌、喀斯特地貌、黄土地貌、雅丹地貌、丹霞地貌、海岸地貌、风沙地貌、冰川地貌和流水地貌;气候包括温带季风气候、亚热带季风气候、热带季风气候、热带雨林气候、温带大陆性气候以及高原山地气候等;生物包括植被、动物和微生物有机体;植被包括含温性针叶林、落叶阔叶林、常绿阔叶林、季雨林和雨林、落叶阔叶灌丛以及草原植被等;动物包括食用动物资源、药用动物资源、工业用动物资源、实验动物资源以及观赏动物资源等;微生物有机体包括农业微生物、工业微生物以及医学微生物;水包括地表水和地下水,地表水包括河流、冰川、湖泊以及沼泽;地下水包括松散沉积区地下水、卡斯特分布区地下水、基岩山区地下水以及多年冻土区地下水;土壤包括红壤、棕壤、褐土、黑土、漠土以及潮土等。人文景观资源特征知识库包括产业、交通、劳动力结构、区位以及科教文卫;产业包括第一产业、第二产业以及第三产业;第一产业包括农业、林业、畜牧业以及渔业;第二产业包括采矿业、制造业、电力燃气及其生成供应业、建筑业;第三产业包括现代物流业、金融业、房地产业、教育、居民服务业等;交通包括铁路、公路、水路、空路和管道;劳动力结构包括年龄特征、性别结构、质量结构、产业结构、职业结构、地域结构;区位包括经纬度、海陆位置、行政区划、产业区位、能源供给;科教文卫包括科学技术、教育产业、文化遗产和医疗卫生。

如图3所示,生态文明模式本体库体系包括生态经济、生态环境、生态制度和生态文化;其中,生态经济包括单一性生态经济、结合性生态经济、复合型生态经济;生态环境包括水、土地、生物、气候资源;水包括地表水和地下水,地表水包括河流、冰川、湖泊以及沼泽;地下水包括松散沉积区地下水、卡斯特分布区地下水、基岩山区地下水以及多年冻土区地下水;土地包括耕地、园地、林地、草地、商务用地、工矿仓储用地、特殊用地等;生物包括植被、动物和微生物有机体;植被包括含温性针叶林、落叶阔叶林、常绿阔叶林、季雨林和雨林、落叶阔叶灌丛以及草原植被等;动物包括食用动物资源、药用动物资源、工业用动物资源、实验动物资源以及观赏动物资源等;微生物有机体包括农业微生物、工业微生物以及医学微生物;气候资源包括光能、热能、风、水;生态制度包括自然资源资产产权制度、国土空间开发保护制度、空间规划体系、资源总量管理和全面节约制度、资源有偿使用和生态补偿制度、环境治理体系、环境治理和生态保护市场体系、生态文明绩效考核和责任追究制度;生态文化包括生态文明观、绿色行政、绿色消费、传统历史文化。

本发明相较于传统的具有的优势:本发明通过以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系,利用科学文献资料、学术工具书、百科网站、学术期刊及通用知识图谱,构建生态文明地理科学知识数据库,然后再根据生态文明地理科学知识数据库构建涵盖自然和社会领域的生态文明地理本体库,包括原真地理特征本体库体系和生态文明模式本体库体系,实现学科和领域之间的知识基于语义的统一化,维护语义的一致性,实现生态文明地理知识体系的自动或半自动构建。解决了现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题。

以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号