首页> 中文会议>第四届全国信息检索与内容安全学术会议 >基于协同聚类的两阶段文本聚类方法研究

基于协同聚类的两阶段文本聚类方法研究

摘要

作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类.实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类效果.同时,通过两阶段聚类方式不仅能有效地进行特征选择,而且聚类效果得到很大提高.本文最后还利用特征之间的语义关联关系在进行特征选择之后进行特征扩展,使聚类效果得到了进一步的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号