基于商品名称的电商平台商品自动分类的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据、云计算等新兴技术的不断涌现和我国电商平台的迅速发展，互联网中产生了大量的商品数据。伴随着时间的推移，商品的数量越来越多，如何在庞杂无章的海量商品中获取需要的商品，并且精细而准确地挖掘出自己所需商品的信息和对这些多种多样的商品进行分门别类的组织和管理就显得尤为重要。本文使用机器学习的流程将这些商品数据进行统计分析以获得规律，然后再运用这些规律对未知商品数据进行预测和分类。主要研究内容和结果如下：　　1.对原始数据集进行简单建模发现商品数据特征和数据类别存在数据不平衡的问题，研究爬虫方法、搜索策略和反爬策略，使用Python网络爬虫技术在电商平台采集数据生成新的数据集。对数据集进行数据清洗，包括简单数据清洗、重复值、缺失值、异常值处理，目的是为了保证数据的一致性、完整性、唯一性等，使其具有较高的“质量”。　　2.对数据进行预处理，包括中英文分词、特征向量化、特征降维、特征选择等处理，将数据转化成在建模阶段能够使用的数据。分词可以将句子或段落分解成词语，这样，计算机就可以将词语作为最小基本单位进行处理，理解其中的含义，而通过删除停用词、添加语料库等优化方法可以使分词更为准确。由于分类器只能处理数值型的数据，所以需要对数据进行特征向量化，但分词后的词语数量太多，生成的向量维度会很大。通过使用特征降维方法可以极大地降低向量值的维度，同时，使用特征选择中的前向选择特征和反向删除特征方法可以删除无关特征和冗余特征。　　3.研究了在Bagging算法的基础上扩展，将决策树作为基本单元的随机森林算法，对随机森林算法的生成流程和结合策略进行了分析和介绍。将传统的决策树算法与随机森林算法进行了对比，并结合了利用基尼系数选取特征和指定生成特征子集的大小对随机森林算法的特征选择方法进行了改进，提升了模型的分类性能。　　4.本文使用Python编程语言、Html语言、MySQL数据库实现了基于商品名称的电商平台商品自动分类系统。对系统各个模块进行了详细的设计和实现，最后对系统进行了功能测试，展示了系统的分类功能界面。系统完成了商品数据的分类任务，根据商品名称就可以比较准确的预测出该商品所属的类别，具有比较重要的现实意义。　　5.在实验阶段，通过实验数据验证了解决数据不平衡问题的实验效果，进行了决策树算法和随机森林算法对比实验和随机森林算法特征选择改进对比实验。首先使用留出法将数据集中的数据随机抽取20%的数据作为验证集，剩下80%的数据作为训练集，然后使用将交叉验证方法和模型评估方法结合的网格搜索算法调整决策树算法和随机森林算法中的超参数，最后利用性能评价指标评估模型的性能，对实验结果进行分析和对比，得出结论。

著录项

作者
黄超;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科软件工程
授予学位硕士
导师姓名赵宏宇;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
商品自动分类,机器学习,随机森林,特征选择,超参数优化;
入库时间 2022-08-17 11:23:30

相似文献

中文文献
外文文献
专利

1. 基于自注意力机制的冗长商品名称精简方法 [J] . 傅裕 ,李优 ,林煜明 . 华东师范大学学报（自然科学版） . 2019,第005期
2. 基于文化语境的商品名称翻译研究 [J] . 徐文文 ,徐艺 . 兰州教育学院学报 . 2016,第003期
3. 基于音译法的商品名称翻译 [J] . 徐文文 . 牡丹江教育学院学报 . 2015,第005期
4. 基于概念树的文本自动分类系统的研究与实现 [J] . 熊亮 . 计算机工程与应用 . 2005,第030期
5. 基于向量空间模型的文本自动分类系统的研究与实现 [J] . 武旭 ,须德 . 北京交通大学学报 . 2003,第002期
6. 从我国不同商品名称石英质玉石的宝石学特征探讨其定名 [C] . CHEN Hua ,陈华 ,KE Jie . 2015中国珠宝首饰学术交流会 . 2015
7. 注册商标与商品名称、商品装潢的混淆认定 [A] . 林彦 . 2015

基于商品名称的电商平台商品自动分类的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅