首页> 中文学位 >基于扩展的VSM中文文本分类方法
【6h】

基于扩展的VSM中文文本分类方法

代理获取

目录

文摘

英文文摘

第1章 绪 论

1.1 论文研究目的和意义

1.2 国内外研究和发展现状

1.3 论文的研究内容和结构安排

第2章 基于VSM真实语料的文本分类方法

2.1 文本表示

2.1.1 分词

2.1.2 文档特征

2.1-3 VSM模型

2.1.4 特征项权重的计算方法

2.2 构建VSM的特征

2.2.1 文档频率

2.2.2 互信息

2.2.3 CHI统计量

2.2.4 权重排序

2.2.5 期望交叉嫡

2.3 文本分类方法

2.3.1 贝叶斯方法

2.3.2 Rocchio算法

2.2.3 k近邻算法

2.3.4 支持向量机算法(SVM)

2.4 本章小结

第3章 语义在文本分类中的应用

3.1 概念词典的建立

3.1.1 知网简介

3.1.2 义原

3.1.3 建立概念词典

3.2 语义在文本中的应用

3.2.1 文本的语义特征向量表示

3.2.2 基于语义的分类

3.3 本章小结

第4章 基于语义扩展VSM的文本分类方法

4.1 预处理

4.2 创建原始空间向量模型

4.2.1 TFIDF

4.2.2 获得类中心向量

4.3 语义重构VSM模型

4.3.1 计算义原权值

4.3.2 提取特征义原算法

4.3.3 扩展特征向量

4.3.4 对同义词的处理

4.3.5 VSM模型的融合

4.4 进行分类

4.5 阈值的确定

4.6 本章小结

第5章 实验过程与结果分析

5.1 实验环境

5.1.1 实验语料

5.1.2 分词系统

5.2 评估指标

5.3 实验过程

5.4 实验结果与分析

5.4.1 不同特征选择算法构建VSM对分类的影响

5.4.2 VSM维数对分类的影响

5.4.3 基于扩展VSM的文本分类

5.5 本章小结

结 论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致 谢

展开▼

摘要

随着因特网的迅猛发展,作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。
   文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的,通过人工建立分类规则确定特征项,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法确定特征项得到应用,并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制,机器学习能力也有局限性。有很多对类别有贡献的特征项,通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果,所以机器学习生成的向量空间模型是需要重新构造的。
   本文提出了一种基于扩展空间向量模型(VSM)的方法用于中文文本分类。该方法对每类文本特征项进行分析,并通过合适的舰则抽取了最能代表主题的特征义原,然后用Hownet对这些特征义原扩展,并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型,和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原,设定特征项合适的权值和重构向量空间模型方法。实验表明,该方法能增加有效的向量空间维数,使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望,指出基于扩展VSM的文本分类尚需研究和改进的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号