首页> 中文学位 >词聚类用于文本分类的方法研究
【6h】

词聚类用于文本分类的方法研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 论文选题背景

1.2 国内外研究现状

1.3 论文主要工作

1.4 论文组织结构

第二章 词语相似度计算和文本分类技术基础

2.1 基于知网的词语相似度计算

2.1.1 《知网》的知识描述语言

2.1.2 相似度计算方法

2.2 基于语料库的词语相似度计算

2.2.1 词的特征表示

2.2.2 特征权重

2.2.3 相似度计算方法

2.3 文本分类

2.3.1 文本分类的一般过程

2.3.2 文本特征抽取

2.3.3 文本特征选择

2.3.4 文本分类器

2.3.5 评估指标

2.4 小结

第三章 中文文本分类的两步特征选择法

3.1 引言

3.2 向量空间模型

3.3 两步特征选择

3.3.1 类别区分词

3.3.2 最优特征子集

3.4 实验结果与分析

3.4.1 实验数据集

3.4.2 性能评价指标及实验参数

3.4.3 实验结果

3.5 小结

第四章 中文低频词语相似度计算方法研究

4.1 引言

4.2 低频词语的组合相似度计算

4.2.1 基于知网的相似度计算

4.2.2 基于构造语料的相似度计算

4.2.3 组合相似度计算方法

4.3 实验

4.3.1 实验设计

4.3.2 实验数据

4.3.3 相似度性能评估指标

4.3.4 实验参数确定

4.3.5 实验结果

4.4 小结

第五章 基于词聚类的短文本分类初探

5.1 引言

5.2 基于词聚类的特征扩展

5.2.1 词语分布相似度计算

5.2.2 词聚类

5.2.3 特征扩展

5.3 实验

5.3.1 实验方法

5.3.2 实验数据

5.3.3 实验结果

5.4 小结

第六章 总结及未来的工作

6.1 总结

6.2 未来的工作

致谢

攻硕期间从事的科研工作及取得的研究成果

参考文献

展开▼

摘要

短文本分类问题是基于短文本应用领域的必须解决的具有挑战性的基础性关键问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,短文本分类的可行途径是利用外部资源中的可用信息来扩展短文本所描述的概念。
   通过词聚类方法可以建立词语对之间的语义关系,进而用来扩展短文本所描述的概念,因此它是用于改善文本分类、特别是短文本分类的有效手段之一。词聚类用于短文本分类时存在两个必须解决的问题:
   (1)在语料类别不平衡时,如何有效地在分类过程中利用词聚类技术?这需要开发一种考虑语料类别不平衡条件下的特征选择方法,从而使词聚类技术能够较好的用于文本分类。
   (2)在短文本中,低频词语所占比例较大,在词聚类技术中所采用的常规相似度计算方法无效。这需要研究一种适合于短文本分类的低频词语相似度计算方法。
   对第一个问题,本文提出一种中文文本分类的两步特征选择方法,首先根据词语的类间分布进行区分词的定义,选出区分度较大的词作为某一类别的核心特征,然后用传统的特征选择方法从每个类别的核心特征中选出最佳特征子集,最后将各个特征子集合并起来作为结果。该方法不仅重点选出类别区分能力较强的特征,还尽可能保留传统特征选择方法选出的优秀特征,从而更好地捕获了分类信息。实验结果证明该方法明显优于传统的特征选择方法。
   对第二个问题,本文提出了一种低频词语相似度计算的方法。该方法利用语义资源《知网》和基于Internet的构造语料进行相似度计算:对那些能够在《知网》中查到的词对,直接利用《知网》进行相似度计算;否则,利用构造语料进行相似度计算。实验结果表明,该方法在一定程度上解决了中文低频词语相似度计算问题。
   最后,论文对词聚类技术如何有效用于短文本分类这一问题进行了初步探讨,并进行了相关实验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号