首页> 中国专利> 一种基于多特征融合的主题词提取方法

一种基于多特征融合的主题词提取方法

摘要

本发明涉及一种基于多特征融合的主题词提取方法,包括以下步骤:通过用户输入的网址自动采集其能访问到的所有页面内容,以获取网页的藏文文本;根据藏文关键词表对获取的藏文文本进行匹配,将出现在藏文关键词表中的词汇选为候选主题词;对所述候选主题词进行权重计算,根据权重对所述候选主题词进行排序,并从排序后的候选主题词中确定一个或多个主题词。本发明提出了一种构建关键词表,将一些重要的低频词筛选为主题词的方法,有效的提高人们从海量数据中获取所需信息的准确性。

著录项

  • 公开/公告号CN107577671B

    专利类型发明专利

  • 公开/公告日2020-09-22

    原文格式PDF

  • 申请/专利权人 中央民族大学;

    申请/专利号CN201710847333.1

  • 发明设计人 胥桂仙;

    申请日2017-09-19

  • 分类号G06F40/216(20200101);G06F40/242(20200101);G06F40/289(20200101);G06K9/62(20060101);G06F16/951(20190101);G06F16/955(20190101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人陈霁

  • 地址 100081 北京市海淀区中关村南大街27号

  • 入库时间 2022-08-23 11:14:29

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号