首页> 中国专利> 一种基于N-Gram的新型关键词提取方法

一种基于N-Gram的新型关键词提取方法

摘要

本发明涉及一种基于N‑Gram的新型关键词提取方法,包含以下步骤:S1,获取用户输入的第一文本;S2,定义N=1,对所述第一文本进行N‑Gram分割,得到单字符合集,计算每个单字符的出现概率;S3,提取所述步骤S1中出现概率最高的第一数量的单字符合集,剔除第一文本中不包含所述单字符合集的句子,得到第二文本;S4,定义N=2;S5,提取所述步骤S4中出现概率最高的第一数量的双字符串合集,剔除第二文本中不包含所述双字符串合集的句子,得到第三文本;S6,对所述双字符串合集进行字符扩展,加入每个双字符串对应所述第三文本中的外围字符,得到多字符串扩展合集,计算并提取出现权重最高的第二数量的多字符串扩展,输出所述多字符串扩展作为关键词。

著录项

  • 公开/公告号CN112163421A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN202011072560.X

  • 发明设计人 陈骏轩;苏劲松;

    申请日2020-10-09

  • 分类号G06F40/216(20200101);G06F40/289(20200101);

  • 代理机构35101 厦门原创专利事务所(普通合伙);

  • 代理人黄伟敏

  • 地址 361000 福建省厦门市思明南路422号

  • 入库时间 2023-06-19 09:24:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-17

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号