首页> 中文学位 >用于文本分类和文本聚类的特征选择和特征抽取方法的研究

【6h】

用于文本分类和文本聚类的特征选择和特征抽取方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

目录

文摘

英文文摘

致谢

第1章总体介绍

1.1文本分类和文本聚类的重要性

1.2文本分类和文本聚类所面临的挑战

1.3特征选择和特征抽取的研究现状

1.3.1特征选择的研究现状

1.3.2特征抽取的研究现状

1.4本文的研究

1.5论文大纲

第2章文本数据的数学描述

2.1文本预处理

2.1.1词根还原

2.1.2停用词过滤

2.1.3英文文本预处理的过程

2.2向量空间模型

2.2.1文本向量表示

2.2.2距离计算方法

2.3单词权重计算方法

2.3.1单词权重的考虑因素

2.3.2 TF*IDF

2.3.3其他单词权重调整方法

第3章文本分类

3.1文本分类的简单介绍

3.1.1文本分类的定义

3.1.2文本分类的过程

3.1.3单分类和多分类

3.2常用的文本分类算法

3.2.1 K最近邻算法

3.2.2支持向量机

3.3文本分类结果的评价方法

3.3.1 Precision、Recall和F-Measure

第4章文本聚类

4.1文本聚类的简单介绍

4.1.1文本聚类的定义

4.1.2文本聚类的过程

4.2常用的文本聚类算法

4.2.1 K-Means

4.2.2 Single-Link

4.2.3 DBSCAN

4.3文本聚类结果的评价方法

4.3.1 Entropy

4.3.2 Precision

第5章用于文本聚类的特征选择算法

5.1特征选择简介

5.1.1特征选择的概念

5.1.2为什么要特征选择

5.1.3特征选择的分类

5.1.4特征选择的过程

5.2各种特征选择算法

5.2.1信息增益(IG)

5.2.2 X2统计(CHI)

5.2.3互信息(MI)

5.2.4文档频数(DF)

5.2.5单词权(TS)

5.2.6单词熵(EN)

5.2.7其他算法

5.3三种新的无监督特征选择算法

5.3.1单词贡献度(TC)

5.3.2迭代特征选择算法(IF)

5.3.3基于K-Means的特征选择算法(KFS)

第6章用于文本分类的特征抽取算法

6.1特征抽取简介

6.1.1特征抽取的概念

6.1.2为什么要特征抽取

6.1.3特征抽取的过程

6.1.4特征抽取算法

6.2潜在语义索引(LSI)

6.2.1 LSI的基本概念

6.2.2 LSI应用举例

6.2.3 LSI的讨论和分析

6.3 LSI在文本分类上的应用

6.3.1全局LSI(Global LSI)

6.3.2局部LSI(Local LSI)

6.4局部相关加权LSI(LRW-LSI)

第7章用于文本聚类的特征选择算法实验

7.1实验设计

7.1.1标准数据集及其预处理

7.1.2聚类算法

7.1.3评价标准

7.2有监督特征选择算法实验(理想实验)

7.3无监督特征选择算法实验

7.4迭代特征选择算法实验

7.5基于K-Means的特征选择算法实验

第8章用于文本分类的特征抽取算法实验

8.1实验设计

8.1.1标准数据集及其预处理

8.1.2分类算法

8.1.3奇异值分解算法

8.1.4评价标准

8.2全局LSI和局部LSI实验

8.3局部相关加权LSI实验

第9章总结

9.1用于文本聚类的特征选择

9.2用于文本分类的特征抽取

附录1中英文关键词对照表

参考文献

英文参考文献

中文参考文献

展开▼

摘要

文本分类和文本聚类是文本数据挖掘中两个非常重要的技术,它们已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域,比如大多数的搜索引擎都使用文本分类技术来实现网页的自动分类、同时又使用文本聚类来提高信息检索的质量和组织搜索引擎返回的结果来方便用户浏览等.

著录项

作者
刘涛;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科控制理论与控制工程
授予学位博士
导师姓名吴功宜;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本分类; 文本聚类; 特征选择; 特征压缩;
入库时间 2022-08-17 11:19:16

相似文献

中文文献
外文文献
专利

1. 用于文本分类和文本聚类的特征抽取方法的研究 [J] . 孟春艳 . 微计算机信息 . 2009,第009期
2. 一种用于Web文本聚类的特征选择方法 [J] . 王卫玲 ,刘培玉 ,刘克非 . 计算机应用与软件 . 2007,第001期
3. 用于中文文本分类的基于类别区分词的特征选择方法 [J] . 周奇年 ,张振浩 ,徐登彩 . 计算机应用与软件 . 2013,第003期
4. 用于文本分类的特征选择方法 [J] . 龚静 ,曾莉 . 湖南环境生物职业技术学院学报 . 2008,第003期
5. 一种用于文本分类的特征选择方法 [J] . 周晗 ,赵卫东 ,季军 . 电脑知识与技术 . 2008,第034期
6. 文本聚类中基于知网的特征抽取方法 [C] . 王智超 ,季铎 ,蔡东风 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 文本聚类中特征选择方法研究 [A] . 华珍 . 2016

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号