首页> 中国专利> 大型语料库上的快速文本聚类方法

大型语料库上的快速文本聚类方法

摘要

本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

著录项

  • 公开/公告号CN108228721B

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN201711290927.3

  • 申请日2017-12-08

  • 分类号G06F16/28(20190101);G06F16/35(20190101);

  • 代理机构31200 上海正旦专利代理有限公司;

  • 代理人陆飞;陆尤

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2022-08-23 11:54:46

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号