首页> 中国专利> 一种互联网文本蕴含地理实体关系的抽取方法

一种互联网文本蕴含地理实体关系的抽取方法

摘要

本发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号