声明
第1 章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 研究内容
1.4 本文组织结构
第2 章理论基础及相关技术
2.1 Python编程语言
2.2 Python网络爬虫
2.3 MySQL数据库
2.4 Jieba分词工具
2.5 Numpy
2.6 Pandas
2.7 Matplotlib
2.8 Scikit-Learn
本章小结
第3 章商品数据采集及数据清洗
3.1 数据采集
3.1.1 引入Python网络爬虫的目的
3.1.2 电商平台分析
3.1.3 爬虫方法
3.1.4 搜索策略
3.1.5 反爬策略
3.1.6 爬虫流程
3.2 数据清洗
3.2.1 数据清洗目的
3.2.2 数据清洗方法
本章小结
第4 章商品数据预处理
4.1 分词方法
4.1.1 英文分词方法
4.1.2 中文分词方法
4.2 分词优化方法
4.2.1 建立分词语料库
4.2.2 建立停用词库
4.3 特征向量化
4.3.1 词袋模型
4.3.2 TF-IDF模型
4.4 特征降维
4.4.1 主成分分析算法
4.5 特征选择
4.5.1 前向选择特征
4.5.2 反向删除特征
本章小结
第5 章决策树算法和随机森林算法研究及优化
5.1 Bagging算法
5.1.1 Bagging算法流程
5.2 决策树算法
5.2.1 决策树算法介绍
5.2.2 划分选择方法
5.3 随机森林算法
5.3.1 随机森林算法介绍
5.3.2 随机森林算法生成流程
5.3.3 结合策略之投票法
5.3.4 性能评价指标
5.3.5 随机森林算法特征选择改进
5.3.6 随机森林算法超参数优化
本章小结
第6 章商品自动分类系统实现
6.1 系统实现的意义
6.2 系统需求分析
6.3 系统模块详细设计与实现
6.3.1 数据清洗模块的设计与实现
6.3.2 数据预处理模块的设计与实现
6.3.3 分类模块的设计与实现
6.3.4 结果展示模块的设计与实现
6.3.5 数据存储模块
6.4 系统测试
本章小结
第7 章实验与结果分析
7.1 概要介绍
7.2 实验环境
7.2.1 硬件环境
7.2.2 软件环境
7.3 数据来源
7.4 实验结果与分析
7.4.1 数据不平衡对比实验
7.4.2 决策树算法和随机森林算法对比实验
7.4.3 随机森林算法特征选择改进对比实验
本章小结
结论与展望
1. 研究结论
2. 不足与展望
致谢
参考文献
西南交通大学;