基于并行机器学习的大规模专利分类

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

当今社会很多实际问题都可以归结为大规模的模式识别问题，比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题，即使像SVM等高效算法依然难以真正突破这个瓶颈。另一方面，现在计算资源越来越丰富，利用丰富的并行计算资源来解决大规模的实际问题是一个可行的方法。专利文本分类问题是一个大规模、不平衡问题，实现专利分类具有很高的现实意义，例如分析某领域技术发展趋势等。为了解决专利文本分类等实际问题，我们利用现在越来越丰富的计算资源，采用基于并行的算法结构，从而实现对原问题有效的模式分类。吕宝粮和他的合作者提出了一种并行的支持向量机，称为最小最大模块化网络(M3)，它是基“分而治之”的思想解决大规模问题的有效的学习算法。M3将大规模问题进行分解，使其转变为大量小规模问题，从而实现了并行化。被分解成的小规模问题相对简单，容易解决，而且这些问题相互独立，最后将子问题的解规则进行合并，从而得到原问题的解。专利分类要求分类精度高、分类效果好，为了解决实际问题，我们在非对称选择算法、对称选择算法和决策树选择算法的基础上，提出了基于辅助分类器的集成策略。实验证明，基于辅助分类器的集成策略可以有效提高分类精度。同时，我们采用了多种将大规模问题转化为小规模问题的划分策略和多种子模块集成策略，进行组合实验并进行了详细比较，相对于传统支持向量机，采用基于专利数据集先验知识的划分方法和辅助分类器集成策略有很好的性能表现。基于辅助分类器集成策略有较强的一般性和适应性，可以自动拟合子分类器权重，本文的大量实验验证了上述观点。

著录项

作者
孔旗;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机软件与理论
授予学位硕士
导师姓名吕宝粮;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
并行机器学习; 专利分类; 模块化设计; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 基于机器学习的专利质量分析与分类预测研究——以区块链技术专利为例 [J] . 符川川 ,陈国华 ,袁勤俭 . 现代情报 . 2021,第007期
2. 基于机器学习的类目映射方法——国际专利分类法与中国图书馆分类法 [J] . 靳雪茹 ,齐建东 ,王立臣 . 计算机应用 . 2011,第007期
3. 基于机器学习的专利文本分类算法研究综述 [J] . 刘红光 ,马双刚 ,刘桂锋 . 图书情报研究 . 2016,第003期
4. 面向大规模中文文本分类的朴素贝叶斯并行Spark算法 [J] . 刘鹏12 ,赵慧含3 ,滕家雨4 . 中南大学学报 . 2019,第001期
5. YLT:一个基于大规模并行计算机的并行文件系统 [C] . 杨学军 . 全国第九届信息存储技术学术会议 . 1996
6. 基于机器学习的大规模文本分类 [A] . 王晓林 . 2013

基于并行机器学习的大规模专利分类

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅