首页> 中文学位 >面向分布式文本知识管理的中文分词与文本分类研究
【6h】

面向分布式文本知识管理的中文分词与文本分类研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 论文研究的背景

1.2 论文研究的意义

1.3 文本知识管理系统常用的模型及研究进展

1.4 中文分词及国内外研究进展

1.5 文本分类模型及国内外研究进展

1.6 本论文研究的内容

2 自适应中文分词算法研究

2.1 文本知识管理系统对中文分词的要求

2.2 中文分词方法的理论基础

2.3 SAWSA自适应中文分词算法

2.4 SAWSA的实验与分析

3 一种降维的近似支持向量机分类算法

3.1 理论基础

3.2 近似支持向量机

3.3 基于降维的近似支持向量机学习算法

3.4 降维近似支持向量机的文本分类实验

4 基于本体的层次文本分类算法

4.1 本体论及其研究现状

4.2 层次文本分类及其方法

4.3 基于本体的层次文本分类算法

4.4 基于本体的层次文本分类算法实验

5 分布式文本知识管理系统eKnow

5.1 文本知识管理系统eKnow

5.2 P2P网络模型分析

5.3 基于Super-P2P结构的分布式文本知识管理模型

6 总结与展望

6.1 论文的主要贡献与创新

6.2 下一步的研究工作

致谢

参考文献

展开▼

摘要

我们正处于一个知识经济的时代,知识正继传统的土地、自然资源、资本和劳动力之后成为推动社会进步与发展的重要力量。知识经济时代在客观上要求有与之相适应的管理模式和理论及有效的技术手段。基于这个背景,本论文着重研究和探讨了文本知识管理中基础性的中文分词技术以及文本分类技术,并提出分布式知识管理系统的架构等。具体有以下几个方面:
  (1)提出了一种自适应分词算法。中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。本论文基于“2-gram”统计模型而实现一种能很好适应语料信息的分词算法,且时间和精度都能满足文本知识管理系统的应用需要。利用“分而治之”的思想来处理句长和词长的情况,用局部概率与全局概率相结合来识别生词和消歧,取得了很好的效果,从而使本论文提出的算法能够自动适应行业领域的知识管理。
  (2)提出了一种新的基于降维近似支持向量机的分类算法PSVM。近似支持向量机与标准支持向量机的主要区别在于它们所对应的优化问题的约束条件不同。即支持向量机是将问题归结为线性不等式约束二次规划问题,而近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题。从理论上证明了该算法的时间复杂度和空间复杂度比传统的SVM算法均有降低,在此基础上提出了新的学习算法。实验表明,提出的新算法与主要的分类算法相比有较好的性能。尽管较之标准SVM算法的精度有所下降,但训练的时间比标准SVM算法要快,可以满足文本知识管理系统对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。
  (3)提出了一种基于本体的层次文本分类算法。通常讨论的分类问题是单层分类,而层次分类是指多层类别关系下的分类问题。实际应用的文本知识管理系统通常是面向特定的行业和领域,并且具备一定的模糊性而存在多种分类的特性。用户对于知识的关联性及多概念粒度的分类有较高需求,这就需要采用更好的多层信息组织方式。针对文本知识管理系统中常见的多层类别关系下的分类问题,提出了一种基于本体的层次文本分类算法,该方法利用知识管理系统的知识本体和受控关键词表,并基于概念之间的相似度来实现文本的精确分类、查询和检索。而且,该方法同样也适用于单层分类。
  (4)提出了一种分布式文本知识管理系统模型。为了适应现有分散性组织的发展模式,使有效的分布式文本知识管理成为知识管理的发展趋势之一。本论文提出的分布式文本知识管理系统模型是将Super-P2P技术应用于文本知识管理,以解决集中式文本知识管理所遇到的问题,并对模型提供的知识服务进行了研究和论述。
  在以上工作的基础上,在上海“浦东科技发展基金”和宝信软件的支持下,我们实现了一个基于Super-P2P、而集成工作流驱动的文本知识管理系统eKnow。本论文总结了eKnow的设计思想、系统框架和技术路线。该系统已经应用于多个案例,取得了较大的经济效益。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号