文摘
英文文摘
声明
第一章绪论
1.1研究背景与意义
1.2数据挖掘技术
1.2.1数据挖掘的定义
1.2.2数据挖掘的对象
1.2.3数据挖掘的特点
1.2.4数据挖掘的过程
1.2.5数据挖掘的常见任务
1.2.6数据挖掘算法的分类
1.2.7数据挖掘算法的体系
1.3本文的研究工作及内容安排
第二章课题中的相关技术
2.1 HABM
2.2 支持向量机
2.2.1支持向量机概述
2.2.2标准支持向量分类机
2.2.3支持向量机的特点与优势
2.3文本聚类概述
2.3.1含义及作用
2.3.2文本聚类算法简介
2.3.3 K-Means聚类算法
2.3.4聚类结果的评测
2.4 Web文本处理
2.4.1基于Web文本的挖掘模型
2.4.2中文分词
2.4.3 TF-IDF向量空间模型
2.4.4对象串行化
2.5本章小结
第三章Web文本热点抽取系统
3.1设计思想
3.2算法说明
3.3系统处理流程
3.4关键模块解析
3.4.1磁盘散列文件
3.4.2文章分词及索引
3.4.3 HABM的相关计算
3.4.4热点筛选
3.5系统环境
3.6参数选择及真实数据运行结果
3.6.1系统运行截图
3.6.2参数选择
3.6.3真实数据抽取结果举例
3.7本章小结
第四章Web文本分类系统
4.1算法与思想
4.2系统结构
4.3 LibSVM的修改与使用
4.3.1转换数据格式
4.3.2缩放数据
4.3.3尝试分类核函数
4.3.4利用交叉验证获得最佳参数
4.3.5训练分类模型
4.3.6预测未知数据
4.4系统环境
4.5参数选择及真实数据运行结果
4.5.1系统运行截图
4.5.2参数选择
4.5.3真实数据分类结果举例
4.6本章小结
第五章Web文本聚类系统
5.1 K-Means算法的改进
5.2系统结构
5.3关键模块解析
5.3.1 TF-IDF二进制索引文件
5.3.2改进版K-Means实现
5.4系统环境
5.5参数选择及真实数据运行结果
5.5.1系统运行截图
5.5.2.参数选择
5.5.3真实数据骤类结果举例
5.6本章小结
第六章 总结与展望
6.1本文总结
6.2课题展望
参考交献
发表论文和科研情况说明
致谢
天津大学;