首页> 中文学位 >基于并行机器学习的大规模专利分类
【6h】

基于并行机器学习的大规模专利分类

代理获取

目录

封面

声明

上海交通大学学位论文答辩决议书

中文摘要

英文摘要

目录

主要符号对照表

第一章 绪论

1.1 研究的背景、目的及意义

1.2 模式识别概述

1.3 并行机器学习

1.4 论文安排

第二章 专利文本分类

2.1 引言

2.2 问题定义

2.3 文本分类系统

2.4 预处理

2.5 分类器模型

2.6 性能评价标准

2.7 本章小结

第三章 最小最大模块化网络

3.1 最小最大模块化网络简介

3.2 最小最大模块化网络整体结构

3.3 任务分解策略

3.4 子分类器并行学习

3.5 子分类器集成

3.6 最小最大模块化网络时间复杂度分析

3.7 本章小结

第四章 基于辅助分类器的自适应分类器集成策略

4.1 引言

4.2 分类器选择算法

4.3 基于辅助分类器的集成策略

4.4 实验结果与分析

4.5 本章小结

第五章 辅助分类器策略在大规模专利分类问题上的应用

5.1 引言

5.2 平衡专利分类实验

5.3 不平衡专利分类实验

5.4 不平衡度相关性实验

5.5 时间复杂度研究

5.6 本章小结

全文总结

5.7 本文的贡献

5.8 进一步的研究工作

参考文献

致谢

攻读学位论文期间发表的学术论文目录

展开▼

摘要

当今社会很多实际问题都可以归结为大规模的模式识别问题,比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题,即使像SVM等高效算法依然难以真正突破这个瓶颈。另一方面,现在计算资源越来越丰富,利用丰富的并行计算资源来解决大规模的实际问题是一个可行的方法。专利文本分类问题是一个大规模、不平衡问题,实现专利分类具有很高的现实意义,例如分析某领域技术发展趋势等。为了解决专利文本分类等实际问题,我们利用现在越来越丰富的计算资源,采用基于并行的算法结构,从而实现对原问题有效的模式分类。吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。M3将大规模问题进行分解,使其转变为大量小规模问题,从而实现了并行化。被分解成的小规模问题相对简单,容易解决,而且这些问题相互独立,最后将子问题的解规则进行合并,从而得到原问题的解。专利分类要求分类精度高、分类效果好,为了解决实际问题,我们在非对称选择算法、对称选择算法和决策树选择算法的基础上,提出了基于辅助分类器的集成策略。实验证明,基于辅助分类器的集成策略可以有效提高分类精度。同时,我们采用了多种将大规模问题转化为小规模问题的划分策略和多种子模块集成策略,进行组合实验并进行了详细比较,相对于传统支持向量机,采用基于专利数据集先验知识的划分方法和辅助分类器集成策略有很好的性能表现。基于辅助分类器集成策略有较强的一般性和适应性,可以自动拟合子分类器权重,本文的大量实验验证了上述观点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号