首页> 中国专利> 基于模式学习的中文同义词迭代抽取方法

基于模式学习的中文同义词迭代抽取方法

摘要

本发明公开了一种基于模式学习的中文同义词迭代抽取方法:以百科词条的非结构化数据作为语料库,利用重定向获得的种子同义词对与语料文本进行匹配,获得词对间的文本作为候选模式;通过候选模式匹配,抽取出文本语句中模式前后的实体对作为候选同义词对;利用word2vec计算实体对间的语义相似度,评估词对相近程度;统计候选模式支持的种子数,并通过其抽取的词对质量计算候选模式的评分;接着利用模式评分、实体置信度、词对相似度对候选同义词进行评分,筛选出有效同义词实体对;利用抽取的高质量同义词作为新种子不断迭代,获得更多中文同义词对。本发明提出的方法成功从千万百科词条文本中抽取出了大量精确度较高的中文同义词实体,对于利用海量非结构化文本提取同义信息具有较大的应用意义。

著录项

  • 公开/公告号CN109522547B

    专利类型发明专利

  • 公开/公告日2020-09-18

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201811245894.5

  • 发明设计人 鲁伟明;俞家乐;吴飞;庄越挺;

    申请日2018-10-23

  • 分类号G06F40/216(20200101);G06F40/247(20200101);G06F40/289(20200101);G06F40/30(20200101);G06F16/35(20190101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人刘静;邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2022-08-23 11:14:15

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号