首页> 中国专利> 基于句子向量的多文档摘要自动提取方法及系统

基于句子向量的多文档摘要自动提取方法及系统

摘要

本发明公开了基于句子向量的多文档摘要自动提取方法及系统,包括以下步骤:S1、预处理文档集;S2、采用doc2vec模型训练生成句子向量;S3、聚类为各个子主题文档;S4、在各子主题文档中建立句子关系图模型;S5、计算句子权重;S6、抽取句子排序形成摘录。本发明通过大语料集训练doc2vec模型将目标文档集中所有句子用向量表示;用谱聚类聚为各个子主题,在每个子主题中抽取一个句子,从而避免句子冗余问题;按照句子在原文档中的位置排序组成文摘,提高文摘句子的前后连贯性。

著录项

  • 公开/公告号CN108090049B

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 山东工商学院;

    申请/专利号CN201810045090.4

  • 发明设计人 窦全胜;朱翔;

    申请日2018-01-17

  • 分类号G06F40/10(20200101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人黄海丽

  • 地址 264005 山东省烟台市莱山区滨海中路191号

  • 入库时间 2022-08-23 11:31:23

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号