首页> 中文学位 >基于用户特征的文件分类技术研究
【6h】

基于用户特征的文件分类技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 问题提出

1.2 国内外研究现状

1.2.1 文本分类算法的研究

1.2.2 知识的分类及转化过程

1.3 研究目标、研究内容、研究方法与技术路线

1.3.1 研究目标

1.3.2 研究内容

1.3.3 研究方法与技术路线

1.4 论文章节安排

第2章 基于概念向量空间的文本语义表示方法

2.1 向量空间模型概述及基于TF-IDF权重计算的方法

2.1.1 向量空间模型及特征权重算法概述

2.1.2 基于TF-IDF权重计算的改进方法

2.2 基于本体的概念向量空间文本语义表示方法

2.2.1 概念特征的提取

2.2.2 概念集合的消重

2.2.3 概念权重的计算

第3章 基于粗糙集的用户文件分类习惯提取方法

3.1 粗糙集理论概述

3.2 用户分类习惯的问题域特征分析

3.3 基于条件熵的属性约简算法

第4章 文件分类模拟器的增量学习机制与算法

4.1 规则匹配方法

4.1.1 传统的规则匹配方法

4.1.2 基于相似度的匹配方法

4.2 分类规则增量学习算法

第5章 原型系统的设计与实证分析

5.1 原型系统架构及主要功能模块设计

5.1.1 预处理

5.1.2 文件语义表示模块

5.1.3 属性约简及规则抽取

5.1.4 基于相似度的规则匹配

5.1.5 文件存储操作监听

5.2 实验结果评价及分析

5.3 系统部分截图

第6章 总结与展望

6.1 全文总结

6.2 工作展望

参考文献

致谢

展开▼

摘要

随着计算机应用的日益普及,数字化文件已逐渐替代传统纸质文档而成为各类文件存储和交换的主要形式。在日常文件管理中由于自然人在文件管理中自身内隐性记忆的不确定性,导致随着时间的不断推移和文件数量的持续递增,各个类别中文件的语义会逐渐偏离原类别的语义,进而导致原始文件分类的失效并造成文件管理混乱。针对这一问题的存在具有普遍性,同时作为传统文本分类研究的逆向工程,具有一定的学术研究价值和现实意义。
   论文从用户文件分类管理过程的问题域特征分析入手,在充分借鉴、融合现有文本分类、自然语义理解、知识挖掘和机器学习等相关领域取得的研究成果基础之上,围绕基于用户分类习惯及语义理解特征的文件分类管理技术,从基于自然语言的文本语义特征提取、用户分类习惯与语义理解特征识别以及半监督学习机制的设计等三方面开展了以下探索性研究工作:
   首先对国内外相关领域文献收集整理的基础上,结合文本分类、自然语义分析和知识挖掘领域研究成果以及对文件分类管理问题特征分析,提出了课题研究的基本思路和技术路线;
   其次,针对文本语义特征提取技术,结合研究课题的问题域特征,考虑具体实现和计算法复杂性等方面问题,提出了基于SUMO本体概念的文本语义表示模型。在此基础上运用粗糙集理对用户文件分类规则进行提取,借鉴基于条件熵的启发式属性约简算法,提取出用户的分类规则,构建了文件分类模拟器;
   第三,为提高文件分类模拟器的预测精度并不断强化用户关于文件分类的内隐性记忆,提出以人机交互方式对文件分类模拟器的分类规则进行增量学习方法,并针对学习策略中完全匹配与部分匹配的缺点,提出一种基于相似度的匹配算法,并对规则的增量学习算法进行了初步研究。
   最后,结合论文研究的理论成果,对基于用户文件分类及语义理解习惯的计算机辅助文件分类管理系统进行了初步设计和原型开发,同时借助原型系统对主要的研究成果进行了实验验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号