首页> 中文学位 >命名实体识别在方志内容挖掘中的应用研究——以广东、福建、台湾三省《方志物产》为例
【6h】

命名实体识别在方志内容挖掘中的应用研究——以广东、福建、台湾三省《方志物产》为例

代理获取

摘要

中国方志类古籍起源早、持续久、类型全、数量多。据《中国地方志联合目录》的统计,仅保存至今的宋至民国时期的方志就有8264种,11万余卷,占中国古籍的十分之一左右。整理和使用方志资料,是我国历史上的一个优良传统。《方志物产》是20世纪50年代,我国著名农史学家、中国农史学科主要创始人之一的万国鼎先生,组织数十人历时6年,人工摘抄方志整理的专题性资料。该方志资料详细记载了物产的名称、性能、作用及分布情况,具有极高的农业科技和经济史料价值。信息技术日益发展的今天,如何利用现代信息技术整理方志资料,降低开发利用的难度,已成为一个十分现实的课题。本文将以《方志物产》为基础,探索方志类古籍整理的新方法,
   首先从方志整理的主要内容、基本手段、现有成果三方面论述方志的整理,详细介绍《方志物产》的缘起及其手工整理和数字化整理的过程,分析目前方志整理存在的问题,进而引出本研究的目的和意义;其次从命名实体识别的概念和作用、识别的任务、中文命名实体识别的特点和难点等方面阐述命名实体识别的基本语言学知识,重点讨论命名实体识别的方法,对目前国内外已有的相关研究作总结;然后结合方志类古籍的特点以及《方志物产》中地名的特点,制定《方志物产》地名识别方法.
   以广东、福建和台湾三省《方志物产》为例,构建《方志物产》地名识别系统,通过对地名识别结果的统计分析,进行《方志物产》内容挖掘。主要研究内容如下:
   (1)《方志物产》地名识别系统的设计和构建。该系统包括全文数据库和地名识别子系统两大功能模块。
   全文数据库构建,从三省《方志物产》物产叙述格式的特点出发,借鉴前人分析、提取的统一行文格式,对三省《方志物产》文本格式作规范处理,并以此为据设计数据库结构。全文数据库具有全文检索、关键词检索、聚类检索和数据统计等功能.
   物产地名识别子系统,采用规则与统计相结合的命名实体识别方法,结合方志类古籍自身的特点,实现物产地名的自动识别。物产地名识别子系统具有规则管理、地名识别、地名库修正、信息统计四大功能。经测试,该系统能够满足相关研究人员在方志类古籍领域进行古籍检索和知识发现的需要。系统的识别效果可通过规则的不断完善得以逐步优化。
   (2)《方志物产》的物产研究
   按历史时期、志书类型、地域位置对广东、福建、台湾三省《方志物产》的全部载述物产进行统计和分析。按历史时期统计分析的结果表明:从明代到清代再到民国时期,平均每部志书记载物产的数量呈递增趋势。按志书类型统计分析的结果表明:从通志到府志再到县志,平均每部志书所载物产的数量呈递减趋势。按地域位置统计分析的结果表明:广东、福建、台湾三省《方志物产》记述的不仅是这三省的物产,还包括海南省全部和广西部分地域的物产。
   (3)基于物产地名的《方志物产》内容挖掘研究,包括全部正确地名的统计分析、各省物产分布、物产传播和外来物产引进研究。
   全部正确地名的统计分析,基于7179条有效地名识别记录。各省《方志物产》地名识别结果分别按省内地名、省外地名、国外地名和宽泛地名分类统计。统计分析的结果表明:相比其他两省,台湾省同外界的物产交流、传播相对更为广泛。
   各省物产分布研究,基于相关统计数据,详细分析了广东、福建、台湾三省物产的具体分布情况,并利用ArcGIS软件绘制物产分布专题地图,全面、直观地显示相:关内容。研究结果表明:决定一个地域物产多样性的主要因素有两点,一是该地域的自然因素,包括其地理位置、自然环境和气候条件;二是该地域的人文因素.包括人类对自然资源的开发与利用、外来物产的引进和传播。
   各省物产传播研究,基于相关统计数据,详细分析了广东、福建、台湾三省物产的传播概况,同样利用ArcGIS软件绘制专题地图,进行全面、直观的显示。研究结果表明:地区间物产交流和传播的广度随地区间距离的扩大呈递减趋势。距离越远,物产交流和传播相对越少。
   各省外来物产引进研究,基于相关统计数据,分析、比较了广东、福建、台湾三省外来物产的引进概况。研究表明:促进物产引进和传播的原因有两点,一是地区间的贸易往来。二是殖民侵略和战争。
   (4)基于识别规则的《方志物产》内容挖掘研究,包括全部识别规则的统计分析、物产分布比较研究、物产引进和传播途径研究。
   全部识别规则的统计分析,同样基于7179条有效地名识别记录。根据规则表达的含义,将识别规则分为识别物产分布地名的规则和识别物产引进传播地名的规则两类,各类分别加以统计。
   物产分布比较研究,基于识别规则的相关统计数据,挖掘出志书对物产原产地、分布地、各地物产孰优孰劣、孰多孰少等相关内容的描述,进而归纳出部分物产的原产地、优产地和高产地。
   物产引进和传播途径研究,基于识别规则的分类统计数据,总结出明清时期外来物产引进和传播的主要途径:一是对外贸易,二是朝贡,三是朝廷使者或僧侣传入。
   总而言之,本文以农史资料《方志物产》为语料,将信息组织的理论、方法借助于命名实体识别技术实现《方志物产》的地名识别,通过对识别结果的文献计量学分析,进行《方志物产》内容挖掘研究,旨在探索一种基于内容的古籍整理新方法。本研究所做的主要工作和贡献在于:
   (1)将命名实体识别相关理论和方法尝试应用于方志类古籍文献,用来识别、挖掘方志文献中的地名;
   (2)运用文献计量学方法,分析《方志物产》地名识别结果中的物产名、物产地名和识别规则,获得物产分布、物产引进和传播等相关知识,实现基于内容的古籍数字化整理;
   (3)借助GIS专题地图,直观显示《方志物产》中物产分布、物产引进和传播等知识内容,突破传统的文字表达模式,使方志类古籍这一历史文化资源的时空特性得以充分揭示。
   命名实体包括人名、地名、组织机构名等,本文重点是对广东、福建和台湾三省《方志物产》中的地名进行识别,其他的诸如志书名称、成书年代、物产名称等命名:实体是文档处理过程中采用机器辅助粗分出来的。今后可通过修改或重新录入、组织规则,实现对其他省份的方志资料,或其他类型的古籍资料进行地名以外的人名、官职名、机构名等其他命名实体的识别研究,以求从多角度挖掘和利用古籍资料,为现代工农业生产和科学研究提供史料参证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号