文摘
英文文摘
声明
第一章 绪论
1.1引言
1.2现代汉语的研究
1.2.1现代汉语规范
1.2.2现代汉语的特点
1.3自然语言理解概述
1.3.1什么是自然语言理解
1.3.2现代汉语的研究现状概述
1.3.3传统计算语言学
1.3.4 HNC理论
1.3.5基于内涵模型论的语义分析
1.4文本自动分类现状
1.5本文的主要工作
第二章文本自动分类概述
2.1文本分类的概念
2.1.1文本分类方法的两个类型
2.1.2有指导的文本分类
2.1.3分类模式
2.1.4文本分类的应用领域
2.1.5分类的一般过程
2.2基于向量的文本分类算法
2.2.1“基于向量分类法”的文本表示
2.2.2基于词频特征项的权重
2.2.3特征项的筛选
2.2.4其它相关技术——数据平滑技术
2.2.5常见“基于向量的文本分类算法”简介
2.3自然语言处理中的“概念”
2.3.1在面向领域的文本分类中使用“概念”的分析
2.3.2关于“概念”的相关概念
2.3.3“概念”在文本分类中的应用
2.4小结
第三章“领域确定”模块词频特征的提取
3.1“领域确定”模块综述
3.1.1“领域确定”的意义
3.1.2“领域确定”子模块的处理对象
3.1.3“领域确定”模块不能确切给出文档所属领域的原因
3.2“领域确定”模块的结构
3.2.1“领域确定”模块的两个方面
3.2.2领域特征
3.3提取领域词频特征
3.3.1基于词频的分类器的现状
3.3.2基于词频的领域特征的提取
3.3.3提取领域特征的步骤
3.3.4对表现领域特征的词汇表进行排序并降维
3.4领域特征词汇表
3.4.1表现领域特征的词汇表的形式
3.4.2关于“Noise”的思考
3.5小结
第四章“领域确定”模块的设计
4.1“领域确定”模块简介
4.2一种基于“概念”文本分类算法
4.2.1基于“概念”的文本分类算法的设计思想
4.2.2基于“概念”的文本分类算法在“领域确定”模块中的应用
4.2.3关于“基于概念文本分类算法”的思考
4.3一种基于词频的朴素的文本分类算法
4.3.1待测文本的词频特征提取
4.3.2基于词频的朴素的文本分类算法
4.3.3基于词频的朴素的文本分类算法在“领域确定”模块中的应用
4.4最大熵数学模型
4.4.1一个简单例子引出“最大熵”模型
4.4.2熵和信息熵
4.4.3最大熵通用数学模型
4.4.4 IIS算法
4.4.5其它相关算法——特征引入算法
4.5最大熵数学模型在文本分类中的应用
4.5.1最优后验概率的特征的选取
4.5.2特征函数的确定
4.5.3关于“最大熵模型在文本分类中的应用”的思考
4.6小结
第五章文档自动分类在机械产品设计中的应用
5.1机械产品设计中的领域汉语理解
5.2领域汉语理解中智能分词和文本分类模型的建立
5.3领域确定模块的具体实现
5.3.1实际的解决方案
5.3.2智能分词工具
5.3.3使用到的模板(数据结构)
5.3.4部分领域的试探性统计结果
5.4不同机理的分类器串联使用在“工程”上的“意义”
5.5小结
第六章总结和展望
致谢
参考文献
研究成果
西安电子科技大学;