首页> 中文学位 >基于词和基本短语模式的特征提取方法
【6h】

基于词和基本短语模式的特征提取方法

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1研究背景及意义

1.2研究现状

1.2.1国内外研究现状

1.2.2当前研究重点问题

1.3本文的研究工作及组织

第2章 文本分类技术概况

2.1文本分类的基本概念

2.2文本分类的一般过程

2.3文本预处理

2.3.1中文分词

2.3.2中文词性标注

2.4文本表示

2.4.1特征项的选择

2.4.2布尔模型

2.4.3向量空间模型

2.5特征选取

2.6权重计算

2.7文本分类方法

2.7.1 k-近邻方法

2.7.2支持向量机方法

2.8本章小结

第3章 基本短语的识别

3.1特征项类型的比较

3.2基本短语的界定和语义分析

3.2.1基本名词短语的界定

3.2.2基本动词短语的界定

3.2.3基本短语的语义分析

3.3基本短语的分析流程

3.4基本短语识别的实现

3.5实验结果与分析

3.6本章小结

第4章 基于词和基本短语模式的中文文本分类方法

4.1基于词和基本短语模式的中文文本分类方法的实现

4.2文本预处理

4.3停用词处理和语义的消歧

4.3.1停用词的处理

4.3.2语义的消歧

4.4特征选取

4.5权重计算方法的改进

4.6实验评估函数

4.7实验结果及分析

4.7.1实验数据

4.7.2实验结果及分析

4.8本章小结

第5章 结论与展望

5.1结论

5.2展望

参考文献

攻读硕士期间发表论文情况

致谢

展开▼

摘要

Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值和商业价值。
   文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键,而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。
   本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明,分类的准确率和召回率都得到了提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号