首页> 中文学位 >非相关文献知识发现方法及在农业经济学中的应用
【6h】

非相关文献知识发现方法及在农业经济学中的应用

代理获取

摘要

科学知识,是人类科学活动的产出品,而科学文献则是记录、存贮、传播科学知识的载体,人类的科学知识一般以科学文献的数量计量。普赖斯在他的名著《巴比伦以来的科学》中揭示了科学知识与科学文献的指数增长规律。二战以来,以指数方式增长的科学知识和科学文献其数量已达到惊人的地步,这种现象被称为信息爆炸或知识爆炸。以期刊论文为例,2008年国内期刊当年发表的农业经济学期刊数量大约是1989年的17倍。在知识爆炸的时代,人类其实被自身创造的科学知识所淹没。人类科学知识的总量与人类的吸收能力之间的矛盾日益突出,科技工作者只能做选择性地阅读。任何一个农业经济学研究人员都无法通读当年的农业经济学文献。选择性地阅读带来的后果必然是对知识及知识与知识之间的联系的遗漏。即便是全面、完整地阅读,对隐含在海量文献之间的知识与知识之间的内在的、隐秘的联系仅凭人类个人的智力也很难发现。
   客观世界是普遍联系的世界,在海量的分裂状知识或科学文献之间存在着各式各样的联系,这些联系有相当一部分仅通过常规的查询与阅读是不能得到的。1986年,美国芝加哥大学的数学教授Don R.Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献的知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,非相关文献知识发现既涉及知识发现技术,也涉及具体的学科领域。二十多年来,非相关文献知识发现成为计算机、情报学和知识发现领域学科(如医学、生物、工程、管理)的共同研究对象,相关研究论文在各学科的学术期刊均有发表。各个学科的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续地研究,相继发现了更多的新知识、新联系,其知识发现应用领域也从单纯的医学、生物学领域拓展到了航空航天、工程技术乃至人文科学。
   农业经济是一门有自己的独特研究对象、研究方法、研究目的及悠久的历史与传统的成熟科学,与其它学科一样,现时代的农业经济也面临着专业细化、方向繁多的问题。农业经济学也无法避免Swanson所谓的知识片断化与分裂化倾向。即,农业经济学的知识总量与研究人员的吸收能力之间存在着巨大的差距;农业经济学内部的专业领域划分越来越细,专业之间的知识交流变得更加困难;一个专业领域的信息可能对另一个专业领域是有价值的,领域与领域之间存在着潜在的未被发现的关联。非相关文献知识发现方法及其在农业经济学中的应用研究,就是以Swanson的非相关文献知识发现思想为理论基础,以农业经济学科为学科领域,以国内核心期刊上发表的农业经济学论文为文献源,结合中文信息自动化处理的各项技术,研究适合农业经济学的非相关文献知识发现理论、算法和应用案例,寻找隐藏在现有文献间的关联概念,并以农业经济理论和方法论证关联概念的现实性,验证新知识的正确性。
   本文试图在两个方面取得突破。首先,在方法论方面,在分析、总结、比较非相关文献知识发现国内外现有研究成果与算法模型的基础上,本文试图结合国内期刊论文的特点和农业经济学的实际情况,为农业经济学文献设计一套逻辑上可行、操作上简便的知识发现方法,完整解决文献集合、词表体系、分词方案、算法模型等难点问题;其次,在知识发现实践方面,本文试图依据Swanson的非相关文献知识发现思想,以国内核心期刊上发表的农业经济学期刊论文为文献对象,发现若干对与农业经济有关的关联概念,也即发现新知识。
   本文首先在对国内外非相关文献知识发现的研究论文进行总结、归纳、分析的基础上,详尽地探讨了非相关文献知识发现思想模式下概念与概念之间的关联方式,针对Swanson的非相关文献知识发现的A-B-C模式和Gordon的中介文献思想,分别对应地提出了单一关联、单级关联、多级关联的概念,更进一步地,创建了多重关联和复合关联模型,给出了多级关联、多重关联和复合关联模式下非相关文献知识发现的开放式与闭合式知识发现过程的路径图。并借鉴在自然语言处理领域被广泛接受的向量空间模型,依据复合关联模式下非相关文献知识发现的开放式与闭合式过程路径图,设计了复合关联模式下非相关文献知识发现的算法模型,包括开放式算法模型与闭合式算法模型。
   然后,本文创建了农业经济学非相关文献知识发现语料库。首先以软件手段下载、转换得到用于非相关文献知识发现的农业经济学期刊论文题录数据库,该数据库包括了1989至2008年的二十年间国内所有核心期刊上发表的属于农业经济领域的全部研究论文,共87506篇,并建立了由停用词、通用词表、专业词表、同义词表构成的农业经济学非相关文献知识发现的词表体系。其中的专业词表是专门为农业经济学非相关文献知识发现而创建的,包括与农业经济有关的专业词汇96391个,设计并实现了用于文献集合自动分词的自适应分词算法。自适应分词算法在未登录词识别的召回率方面优于国内的其它算法,很适合非相关文献知识发现对专业领域的新词和概念重视程度较高的需求。
   接着,本文的研究进入农业经济学非相关文献知识发现实践阶段。通过自行编写的工具软件,实现了复合关联模式下基于向量空间模型的非相关文献知识发现算法,并以从维普期刊库中下载的题录为知识发现的文献集合,利用自行建立的词表体系,运行和实施了基于国内核心期刊农业经济学期刊论文的非相关文献知识发现过程,发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统三对关联概念。最后,遵循农业经济学的理论和逻辑验证并确认了这三对关联概念为农业经济领域的新知识。这些知识在此前从未引起国内农业经济领域研究人员的联想,在国内核心期刊公开发表的农业经济学文献中都没有报道,但这些知识隐藏在国内农业经济学期刊论文之间。
   本文的创新之处主要体现在以下三个方面:
   建立了非相关文献知识发现的复合关联模式。
   复合关联的概念与思想,在此前的国内外文献均未有类似提法。为了导出并描述非相关文献知识发现的复合关联模式,本文还分别提出了单级关联、多级关联、单一关联、多重关联的概念。单级关联、单一关联和多级关联的思想之前已经是研究者提出的成熟思想,但概念与提法为本文首次提出。本文将其纳入了复合关联的框架下并用新概念分别命名了对应的思想和方法。多重关联的概念与思想则是本文首次创立,已知文献中从未涉及。
   基于向量空间模型设计了复合关联模式下的非相关文献知识算法模型。
   本文基于向量空间模型设计了复合关联模式下的非相关文献知识发现的算法模型,并对算法效率进行了分析。该算法模型在Swanson及其它学者的论文中均没有涉及,文献调研中也没有发现相似或相近的算法。该算法模型效率较高,与文献集合做一次全局分析的时间代价相当。随后的程序实现和具体的农业经济学非相关文献知识发现实践也验证了该算法模型的可性行与合理性。该算法模型还充分考虑了汉语文献与农业经济领域的特殊性,解决了汉语文献自动分词以及农业经济领域专业词表与同义词的构建等问题。
   发现了三对隐含在文献中的关联概念,并证明这三对关联概念可作为国内农业经济学领域的新知识。
   以1989年至2008年的二十年间国内所有核心期刊上发表的与农业经济领域相关的期刊论文的篇名和摘要为对象,以自行开发的复合关联模式知识发现软件为工具,通过开放式和闭合式两阶段非相关文献知识发现过程的运行,本文发现了世界贸易组织与原教旨主义、马尔萨斯与生态学、区域农业保险费率与地理信息系统等概念之间的关联,并以农业经济学的理论与逻辑验证了这三对概念之间的关联的正确性,成为农业经济领域的新知识。检索国内文献,在目前能检索到的所有国内核心期刊上登载的农业经济学论文中对以上三对概念之间的联系从未涉及,相关文献为零。
   通过农业经济学非相关文献知识发现研究在方法论和知识发现实践两方面的工作,本文可以得出结论:在类似农业经济这样的人文社会科学领域,以国内的期刊文献为数据源,实现非相关文献的知识发现,是可行的,也是可以得出有价值的成果的,并能为农业经济学的研究提供新的方法与新的思路。
   此外,新知识发现是一个无止境的过程。本文在现有数据集的基础上发现了三条新知识,但这并不代表现有的数据集只隐含了这三条新知识。后续的研究者在现有数据集的基础上,经过细致的工作,一定可以挖掘、发现更多的农业经济领域的新知识。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号