首页> 中文期刊> 《信息技术与信息化》 >融合统计和结构相似度的文档聚类

融合统计和结构相似度的文档聚类

         

摘要

提出了一个新的文档聚类框架,在这个框架下,从统计和结构两个方面对词条之间的交互进行建模.首先根据观测词条推断隐含词条,补充和细化文档中每个词条的权重.基于丰富的文档向量表示方法,便可以轻松地获得统计语义的相似度.同时,我们使用现有的依赖解析器提取词条之间的显式语义依赖,并用文档结构表示每个文档.接着采用结构匹配技术来获取结构语义的相似度.然后,将语义相似度和结构相似度通过线性组合,作为任意两个文档之间的最终相似度.最后,我们利用CLUTO聚类工具对文献进行聚类,并针对英语和汉语语料库进行了综合实验,实验结果表明,相比于现有基准,该方法在多个指标上都有显著的提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号