首页> 中文会议>第六届全国地理信息科学博士生学术论坛 >网络中文文本蕴含地理实体关系的无监督抽取方法

网络中文文本蕴含地理实体关系的无监督抽取方法

摘要

地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的重要形式,而地理信息则是有关地理实体的一切有用知识.随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS)领域发挥着重要的作用.新地理信息时代,人们对地理实体的内容描述更加丰富、时空刻画更加精细、更新频率更加迅速.一方面,相比传统的点、线、面表达方式,泛化后的地理信息聚合了多源异构的资源,如音频、视频、图片、评论、问答等.另一方面,相比传统的只关注单个地理实体信息,泛化后的地理信息更加关注地理实体之间复杂的关系,如类别隶属、空间拓扑和语义关系等.近年来,移动互联网时代的来临引发了基于位置服务的热潮,O2O(Online to Offline)和SoLoMo(SocialLocation Mobile)模式也随之兴起,人们对地理信息的需求变得更加迫切.然而,目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”,导致位置服务应用中地理信息检索依赖于关键词,不能有效发挥基于实体关系的地理知识图谱搜索的优势,极大地限制了位置服务的能力.同时,地理信息的采集大多依靠传统的测量手段,地理实体的关系抽取还缺乏行之有效的措施.开放文本(如微博、百科、论坛、博客等)为实现地理实体关系抽取的自动化提供了可能.因此,如何识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,改善基于位置服务的用户体验,是地图服务行业面临的共同问题.关系抽取作为信息抽取技术的重要研究课题和知识图谱的构建基础,国内外研究学者已开展了大量研究,并已服务于人们的日常生活,如微软亚洲研究院的人立方关系系统、雅虎关系搜索、腾讯好友关系链等.在地理实体关系抽取方面也取得了初步的研究成果,如GeoWordNet、OSM Semantic Network、GeoName Semantic Web等.目前,实体关系抽取的方法分为三类:基于模式匹配的方法、有监督和无监督的机器学习方法.模式匹配需要对语料库进行深入分析,人工抽取组织关系模式,优点是准确性高,但是需要耗费大量的人力物力,不适用开放文本大范围的关系抽取研究.相比模式匹配的方法,监督学习方法在提取速度及准确率上都有所提升,但是该类方法需要人工标注的且具有一定规模的语料库,由于开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度.针对开放文本的地理实体关系抽取问题,无监督的机器学习方法人工干预少,不需要标注语料,能以独立于数据的方式工作,可直接揭示观测数据的内部结构和规律,因此对无监督的语义关系抽取方法已开展了大量的研究.部分研究者将语义关系抽取看做是语义聚类的过程,通过计算词频、词法或句征的相似性将实体对分组,进而提取组内的关系名称.如何设计有效的权值计算方法提取出准确的关系名称是其主要难点.无监督的空间关系抽取工作少有报道,现有的方法依赖于英文的空间本体,因受限于高质量的中文空间本体的可得性,无法移植到中文语料.目前,中文的空间关系抽取仍停留在监督的学习方法上,高成本的语料标注工作难以满足海量多元的网络文本关系抽取的要求.rn 针对中文的语义和空间关系抽取问题,本文将实体关系抽取转换成关键词提取的问题,实现了一种无监督地理实体关系抽取方法:对于句中的每一对地理实体,首先提取该句中的所有名词、动词和介词作为关系的候选关键词;然后基于向量空间模型,使用候选关键词构建词语-语境矩阵;并在基于词频统计的关键词提取方法中引入词语的位置、长度和词性的重要性,计算每个词语在当前语境中的权值,选择当前语境中权值最大的词语作为关键词;接着,借助词性识别出句中的空间词,同时根据关键词和空间词在句中的位置,按照句子原始的逻辑,调整各元素的顺序,自适应地构建关系元组;最后使用新浪旅游景点名称和百度百科简介进行了中文的地理实体关系抽取的实验,分析了Frequency、TF-IDF 和PPMI 三种权值计算方法在引入新特征前后关系抽取的性能差异.结果显示:在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长20%).此外,关系元组的重构保证了实体关系的语义表达的逻辑性,自适应的组织形式增强了地理实体间空间关系描述的完整性,有利于提升计算机对文本的理解和认知水平.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号