首页> 中文学位 >基于商品名称的电商平台商品自动分类的研究与实现
【6h】

基于商品名称的电商平台商品自动分类的研究与实现

代理获取

目录

声明

第1 章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究内容

1.4 本文组织结构

第2 章理论基础及相关技术

2.1 Python编程语言

2.2 Python网络爬虫

2.3 MySQL数据库

2.4 Jieba分词工具

2.5 Numpy

2.6 Pandas

2.7 Matplotlib

2.8 Scikit-Learn

本章小结

第3 章商品数据采集及数据清洗

3.1 数据采集

3.1.1 引入Python网络爬虫的目的

3.1.2 电商平台分析

3.1.3 爬虫方法

3.1.4 搜索策略

3.1.5 反爬策略

3.1.6 爬虫流程

3.2 数据清洗

3.2.1 数据清洗目的

3.2.2 数据清洗方法

本章小结

第4 章商品数据预处理

4.1 分词方法

4.1.1 英文分词方法

4.1.2 中文分词方法

4.2 分词优化方法

4.2.1 建立分词语料库

4.2.2 建立停用词库

4.3 特征向量化

4.3.1 词袋模型

4.3.2 TF-IDF模型

4.4 特征降维

4.4.1 主成分分析算法

4.5 特征选择

4.5.1 前向选择特征

4.5.2 反向删除特征

本章小结

第5 章决策树算法和随机森林算法研究及优化

5.1 Bagging算法

5.1.1 Bagging算法流程

5.2 决策树算法

5.2.1 决策树算法介绍

5.2.2 划分选择方法

5.3 随机森林算法

5.3.1 随机森林算法介绍

5.3.2 随机森林算法生成流程

5.3.3 结合策略之投票法

5.3.4 性能评价指标

5.3.5 随机森林算法特征选择改进

5.3.6 随机森林算法超参数优化

本章小结

第6 章商品自动分类系统实现

6.1 系统实现的意义

6.2 系统需求分析

6.3 系统模块详细设计与实现

6.3.1 数据清洗模块的设计与实现

6.3.2 数据预处理模块的设计与实现

6.3.3 分类模块的设计与实现

6.3.4 结果展示模块的设计与实现

6.3.5 数据存储模块

6.4 系统测试

本章小结

第7 章实验与结果分析

7.1 概要介绍

7.2 实验环境

7.2.1 硬件环境

7.2.2 软件环境

7.3 数据来源

7.4 实验结果与分析

7.4.1 数据不平衡对比实验

7.4.2 决策树算法和随机森林算法对比实验

7.4.3 随机森林算法特征选择改进对比实验

本章小结

结论与展望

1. 研究结论

2. 不足与展望

致谢

参考文献

展开▼

摘要

随着大数据、云计算等新兴技术的不断涌现和我国电商平台的迅速发展,互联网中产生了大量的商品数据。伴随着时间的推移,商品的数量越来越多,如何在庞杂无章的海量商品中获取需要的商品,并且精细而准确地挖掘出自己所需商品的信息和对这些多种多样的商品进行分门别类的组织和管理就显得尤为重要。本文使用机器学习的流程将这些商品数据进行统计分析以获得规律,然后再运用这些规律对未知商品数据进行预测和分类。主要研究内容和结果如下:  1.对原始数据集进行简单建模发现商品数据特征和数据类别存在数据不平衡的问题,研究爬虫方法、搜索策略和反爬策略,使用Python网络爬虫技术在电商平台采集数据生成新的数据集。对数据集进行数据清洗,包括简单数据清洗、重复值、缺失值、异常值处理,目的是为了保证数据的一致性、完整性、唯一性等,使其具有较高的“质量”。  2.对数据进行预处理,包括中英文分词、特征向量化、特征降维、特征选择等处理,将数据转化成在建模阶段能够使用的数据。分词可以将句子或段落分解成词语,这样,计算机就可以将词语作为最小基本单位进行处理,理解其中的含义,而通过删除停用词、添加语料库等优化方法可以使分词更为准确。由于分类器只能处理数值型的数据,所以需要对数据进行特征向量化,但分词后的词语数量太多,生成的向量维度会很大。通过使用特征降维方法可以极大地降低向量值的维度,同时,使用特征选择中的前向选择特征和反向删除特征方法可以删除无关特征和冗余特征。  3.研究了在Bagging算法的基础上扩展,将决策树作为基本单元的随机森林算法,对随机森林算法的生成流程和结合策略进行了分析和介绍。将传统的决策树算法与随机森林算法进行了对比,并结合了利用基尼系数选取特征和指定生成特征子集的大小对随机森林算法的特征选择方法进行了改进,提升了模型的分类性能。  4.本文使用Python编程语言、Html语言、MySQL数据库实现了基于商品名称的电商平台商品自动分类系统。对系统各个模块进行了详细的设计和实现,最后对系统进行了功能测试,展示了系统的分类功能界面。系统完成了商品数据的分类任务,根据商品名称就可以比较准确的预测出该商品所属的类别,具有比较重要的现实意义。  5.在实验阶段,通过实验数据验证了解决数据不平衡问题的实验效果,进行了决策树算法和随机森林算法对比实验和随机森林算法特征选择改进对比实验。首先使用留出法将数据集中的数据随机抽取20%的数据作为验证集,剩下80%的数据作为训练集,然后使用将交叉验证方法和模型评估方法结合的网格搜索算法调整决策树算法和随机森林算法中的超参数,最后利用性能评价指标评估模型的性能,对实验结果进行分析和对比,得出结论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号