首页> 中国专利> 一种基于自然语言处理的层次化专题属性抽取方法

一种基于自然语言处理的层次化专题属性抽取方法

摘要

本发明公布了一种基于自然语言处理的层次化专题属性抽取方法,旨在解决较少文本量,多属性类型情况下完整专题信息抽取的难题,包括以下步骤:将英文百科类介绍页面结构化,清洗并句子化,形成总句子语料库;从总句子语料库中随机抽取部分句子,标注其中含有某专业领域属性的句子,形成句子层的语料库;按照7:3的比例,将属性句子语料库划分为训练库和检验库,训练并检验随机森林分类器;(4)使用训练好的随机森林分类器对总句子语料库分类,获得属性句子库;使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词,标注该专业领域知识的各类型属性词,形成词语层的语料库;将介绍页面词语化,根据属性词语料库,抽取专题属性信息。

著录项

  • 公开/公告号CN109145089B

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 中国科学院遥感与数字地球研究所;

    申请/专利号CN201811005109.9

  • 发明设计人 梁勇奇;杨瑞霞;耿同;

    申请日2018-08-30

  • 分类号G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人陈霁

  • 地址 100094 北京市海淀区邓庄南路9号

  • 入库时间 2022-08-23 12:13:46

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号