首页> 中国专利> 大型语料库上的快速文本聚类方法

大型语料库上的快速文本聚类方法

页面导航

摘要
著录项
相似文献

摘要

本发明属于关系数据库技术领域，具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征，单纯基于数据相似度的聚类方法难以获得较好的效果，而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化，使总时间仅依赖于文档中不同单词的个数，从而在篇幅较长的文档中也能高效运行。

著录项

公开/公告号CN108228721B

专利类型发明专利
公开/公告日2021-06-04

原文格式PDF
申请/专利权人复旦大学;
展开▼

申请/专利号CN201711290927.3
发明设计人李林蔚;郭良琛;马会心;何震瀛;荆一楠;王晓阳;
展开▼

申请日2017-12-08
分类号G06F16/28(20190101);G06F16/35(20190101);
代理机构31200 上海正旦专利代理有限公司;
代理人陆飞;陆尤
地址 200433 上海市杨浦区邯郸路220号
入库时间 2022-08-23 11:54:46

相似文献

专利
中文文献
外文文献

1. 大型语料库上的快速文本聚类方法 [P] . 中国专利： CN108228721B . 2021.06.04
2. 大型语料库上的快速文本聚类方法 [P] . 中国专利： CN108228721A . 2018-06-29
3. Methods and systems for the analysis of large text corpora [P] . 美国专利： US9135242B1 . 2015-09-15

机译：大型文本语料库的分析方法和系统
4. Methods and Apparatus for Rapid Acoustic Unit Selection From a Large Speech Corpus [P] . 美国专利： US2013080176A1 . 2013-03-28

机译：从大型语音语料库中快速选择声学单元的方法和设备
5. Methods and apparatus for rapid acoustic unit selection from a large speech corpus [P] . 美国专利： US8315872B2 . 2012-11-20

机译：从大型语音语料库中快速选择声学单元的方法和设备