首页> 中文学位 >基于机器学习算法的Web文本挖掘应用研究
【6h】

基于机器学习算法的Web文本挖掘应用研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景与意义

1.2数据挖掘技术

1.2.1数据挖掘的定义

1.2.2数据挖掘的对象

1.2.3数据挖掘的特点

1.2.4数据挖掘的过程

1.2.5数据挖掘的常见任务

1.2.6数据挖掘算法的分类

1.2.7数据挖掘算法的体系

1.3本文的研究工作及内容安排

第二章课题中的相关技术

2.1 HABM

2.2 支持向量机

2.2.1支持向量机概述

2.2.2标准支持向量分类机

2.2.3支持向量机的特点与优势

2.3文本聚类概述

2.3.1含义及作用

2.3.2文本聚类算法简介

2.3.3 K-Means聚类算法

2.3.4聚类结果的评测

2.4 Web文本处理

2.4.1基于Web文本的挖掘模型

2.4.2中文分词

2.4.3 TF-IDF向量空间模型

2.4.4对象串行化

2.5本章小结

第三章Web文本热点抽取系统

3.1设计思想

3.2算法说明

3.3系统处理流程

3.4关键模块解析

3.4.1磁盘散列文件

3.4.2文章分词及索引

3.4.3 HABM的相关计算

3.4.4热点筛选

3.5系统环境

3.6参数选择及真实数据运行结果

3.6.1系统运行截图

3.6.2参数选择

3.6.3真实数据抽取结果举例

3.7本章小结

第四章Web文本分类系统

4.1算法与思想

4.2系统结构

4.3 LibSVM的修改与使用

4.3.1转换数据格式

4.3.2缩放数据

4.3.3尝试分类核函数

4.3.4利用交叉验证获得最佳参数

4.3.5训练分类模型

4.3.6预测未知数据

4.4系统环境

4.5参数选择及真实数据运行结果

4.5.1系统运行截图

4.5.2参数选择

4.5.3真实数据分类结果举例

4.6本章小结

第五章Web文本聚类系统

5.1 K-Means算法的改进

5.2系统结构

5.3关键模块解析

5.3.1 TF-IDF二进制索引文件

5.3.2改进版K-Means实现

5.4系统环境

5.5参数选择及真实数据运行结果

5.5.1系统运行截图

5.5.2.参数选择

5.5.3真实数据骤类结果举例

5.6本章小结

第六章 总结与展望

6.1本文总结

6.2课题展望

参考交献

发表论文和科研情况说明

致谢

展开▼

摘要

本论文从热点信息抽取、Web文本分类、Web文本聚类三方面对机器学习算法在Web文本信息挖掘中的应用与研究进行了深入地分析:
   1、实现热点信息抽取系统时,提出了一种名为热点算法基础矩阵(HABM)的技术,其根据对比某单一词条在一段历史时期内的词频与目前的词频,判断该词条是否为热门词汇。拥有一定数量热门词汇的文章便成为热门文章被抽取出来。
   2、Web文本分类系统依据支持向量机(SVM)技术,对LibSVM工具进行二次开发来实现多类分类。鉴于此工具无法直接处理文字信息,将文字信息转换为TF-IDF空间向量模型后再做运算。另外还对LibSVM添加了杂质分离的功能。
   3、Web文本聚类系统采用了改进版的K-Means聚类算法,包括重新设计了聚类初始中心点的选择算法、添加了分块处理数据的能力、新增语料杂质的分离等功能,使得算法在时间和空间上到达到处理大规模数据的要求。
   课题实现了一系列的优化技术,包括磁盘散列文件、对象串行化、中文分词、线程调度等。课题还采用了国际上通用的准确率一召回率(P-R)评测方法,用于评测最终挖掘结果的好坏。经过一系列的实验证实,三个系统均已达到实用目的,并有着令人满意的挖掘结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号