首页> 中文学位 >潜在语义索引在中文文本聚类中的应用研究
【6h】

潜在语义索引在中文文本聚类中的应用研究

代理获取

目录

文摘

英文文摘

声明及关于论文使用授权的说明

1.绪论

1.1文本聚类概述

1.2基于统计的文本聚类

1.2.1文本的表示

1.2.2聚类算法

1.3潜在语义索引模型

1.4本论文的主要内容

2.向量空间模型

2.1向量空间模型概述

2.2向量空间模型的优缺点

3.隐含语义索引技术

3.1概述

3.2矩阵的奇异值分解

3.3 LSI技术的理论基础

3.3.1词—文档矩阵

3.3.2词—文档矩阵的奇异值分解

3.4基于LSI文本聚类的主要步骤

4.切词

4.1中文切词概述

4.1.1汉语自动切词的必要性[39]

4.1.2自动切词算法的分类

4.2一种改进的高效电子词表结构和快速切词算法

4.2.1中文字的编码体系

4.2.2文献【10】中的电子词表的数据结构和切词算法

4.3一种新的电子词表结构和切词算法

5.聚类算法

5.1聚类算法概述

5.1.1主要的聚类方法[34]

5.1.2聚类的划分方法[34]

5.2文本聚类算法

6.文本聚类系统的设计与实现

6.1系统设计

6.1.1系统功能结构设计

6.1.2界面设计

6.2模块设计

6.2.1预处理模块

6.2.2切词模块

6.2.3特征提取模块

6.2.4模型构建模块

6.2.5聚类模块

6.2.6维护模块

7.实验研究

7.1评估标准

7.2测试数据和实验结果

7.2.1单次试验结果展示

7.2.2综合试验数据分析

8.总结

致谢

参考文献

展开▼

摘要

该文对潜在语义索引模型进行系统的研究和探讨,包括奇异值分解等相关矩阵理论、词-文档矩阵等;同时该文研究和探讨了潜在语义索引模型在中文文本聚类中的具体应用和实现,包括文本间相似度的度量、词-文档矩阵、奇异值分解的具体实现;同时该文对中文文本聚类所涉及的其他一些中文处理技术,包括向量空间模型、电子字典、切词、k-means聚类算法等也进行了研究和探讨.提出改进的电子字典结构、改进的切词算法,和相应的具体的聚类算法;提出了基于潜在语义索引模型的文本聚类系统的结构;同时作者在windows下用VC++实现了一个中文文本聚类系统,该系统采用作者提出提出的电子词表结构和切词方法来实现切词,该系统支持潜在语义模型和常用的向量空间模型,该系统采用作者提出的具体的基于k-means的聚类算法进行聚类分析;该文对采用传统的向量空间模型的聚类效果和采用潜在语意索引模型的聚类效果进行了相应的实验比较研究;给出了聚类效果的评估方法和实验结果,以及对试验结果的具体分析.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号