基于词聚类的多阶段文本主题自动划分

摘要

文本分类是信息检索的一个重要问题,而文本-词频矩阵的词频维数过大和过于稀疏两个特点,给计算造成了相当困难.为解决这一问题,本文提出了一套新的基于词聚类的文本主题自动划分流程,这一流程根据具体待处理数据类别的变换,结合使用了Fuzzy k-Modes、BIRCH以及k-means三种聚类方法.首先基于共现关联度构建词的关联网络并增加了优化处理,通过改进的复合权重公式筛选主题关键词,然后使用Fuzzy k-Modes算法进行关键词聚类后,使用各子主题词主题词的概念.在完成主题词聚类.为实现主题的层次性划分,特别引入了复用忖频作为特征对文本集施行层次聚类算法BIRCH以完成文本分类.在应用BIRCH的过程中,对分支因子作了改进.实验证明这是一套可行并有效的文本主题自动划分方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号