文摘
英文文摘
华南理工大学学位论文原创性声明及学位论文版权使用授权书
第一章绪论
1.1研究背景
1.1.1 Web挖掘和Web文本挖掘
1.1.2隐含语义索引与自然语言理解
1.1.3隐含语义索引技术在国内外的研究现状
1.2研究内容和方法
1.3论文内容安排
第二章中文文本分类的若干问题
2.1语料库
2.1.1什么是语料库
2.1.2语料库的作用
2.2汉语分词技术
2.2.1自动分词
2.2.2汉语文本词性标注和标记集
2.3文本分类方法综述
2.3.1文本分类方法综述
2.3.2几种文本分类算法的讨论
2.4本章小结
第三章文档特征表示和数据预处理
3.1向量空间模型
3.2文本特征表示
3.2.1文本表示
3.2.2词条-文本矩阵和权重计算
3.3模型评价
3.4数据预处理相关算法分析
3.4.1数据预处理总体模型
3.4.2数据预处理相关实现算法讨论
3.5算法优化分析
3.5.1数据库索引
3.5.2适当的数据结构和算法
3.5.3数据表的设计
3.6本章小结
第四章基于隐含语义索引的文本分类应用研究
4.1 LSI/SVD技术和数学模型
4.1.1 LSI(Latent Semantic Indexing)
4.1.2 SVD(Singular Value Decomposition)
4.1.3 LSI的数学依据
4.2 LSI技术的几个应用领域
4.2.1中英文双语查询
4.2.2信息过滤和邮件分类
4.2.3数字图像逼近和基于语义的图像检索
4.2.4双语交叉过滤
4.2.5其它方面的应用
4.3 LSI理论中K秩近似矩阵的选取
4.4 SVD计算
4.4.1软件包和程序库
4.4.2计算工具Matlab及应用
4.4.3动态数据处理
4.5基于隐含语义索引的支持向量机分类简介
4.5.1数据格式
4.5.2基于SVMlight数据格式的SVD数据处理算法讨论
4.6本章小结
第五章实验与结果分析
5.1实验方案设计
5.1.1基于SVM的文本分类实验
5.1.2基于隐含语义索引的支持向量机分类(LSI+SVM)实验
5.2实验结果和讨论
5.3本章小结
结论
参考文献
攻读学位期间己发表的学术论文
致谢
附录实验结果数据