首页> 中文学位 >隐含语义索引在文本分类中的应用研究
【6h】

隐含语义索引在文本分类中的应用研究

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

1.1研究背景

1.1.1 Web挖掘和Web文本挖掘

1.1.2隐含语义索引与自然语言理解

1.1.3隐含语义索引技术在国内外的研究现状

1.2研究内容和方法

1.3论文内容安排

第二章中文文本分类的若干问题

2.1语料库

2.1.1什么是语料库

2.1.2语料库的作用

2.2汉语分词技术

2.2.1自动分词

2.2.2汉语文本词性标注和标记集

2.3文本分类方法综述

2.3.1文本分类方法综述

2.3.2几种文本分类算法的讨论

2.4本章小结

第三章文档特征表示和数据预处理

3.1向量空间模型

3.2文本特征表示

3.2.1文本表示

3.2.2词条-文本矩阵和权重计算

3.3模型评价

3.4数据预处理相关算法分析

3.4.1数据预处理总体模型

3.4.2数据预处理相关实现算法讨论

3.5算法优化分析

3.5.1数据库索引

3.5.2适当的数据结构和算法

3.5.3数据表的设计

3.6本章小结

第四章基于隐含语义索引的文本分类应用研究

4.1 LSI/SVD技术和数学模型

4.1.1 LSI(Latent Semantic Indexing)

4.1.2 SVD(Singular Value Decomposition)

4.1.3 LSI的数学依据

4.2 LSI技术的几个应用领域

4.2.1中英文双语查询

4.2.2信息过滤和邮件分类

4.2.3数字图像逼近和基于语义的图像检索

4.2.4双语交叉过滤

4.2.5其它方面的应用

4.3 LSI理论中K秩近似矩阵的选取

4.4 SVD计算

4.4.1软件包和程序库

4.4.2计算工具Matlab及应用

4.4.3动态数据处理

4.5基于隐含语义索引的支持向量机分类简介

4.5.1数据格式

4.5.2基于SVMlight数据格式的SVD数据处理算法讨论

4.6本章小结

第五章实验与结果分析

5.1实验方案设计

5.1.1基于SVM的文本分类实验

5.1.2基于隐含语义索引的支持向量机分类(LSI+SVM)实验

5.2实验结果和讨论

5.3本章小结

结论

参考文献

攻读学位期间己发表的学术论文

致谢

附录实验结果数据

展开▼

摘要

该文对隐含语义索引(简称LSI)技术作了深入的研究.提出了将该技术应用到文本分类的构思,并对同一语料库中不同规模的文本集分别进行LSI与支持向量机结合的文本分类效果测试,取得了相当详实的实验数据.研究结果表明,LSI技术用于文本分类,能在某种程度上提高查准率和查全率.研究结果也表明在K=300时,效果是最佳的,即在一方面有效地提高查准率和查全率的平均值,同时在算法的时间复杂度方面也取得了均衡.该文还从理论上探讨了K值的解法,给出了一个参考解的范围,并通过实验加以验证它的有效性.该文对SVD的计算环境、计算工具、方法、实验过程以及诸多领域的应用进行了详细的讨论.该文是LSI技术研究的补充,具有较高的理论意义和实践意义,对进一步深入研究LSI技术,无疑具有相当大的实用价值.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号