面向分布式文本知识管理的中文分词与文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

我们正处于一个知识经济的时代，知识正继传统的土地、自然资源、资本和劳动力之后成为推动社会进步与发展的重要力量。知识经济时代在客观上要求有与之相适应的管理模式和理论及有效的技术手段。基于这个背景，本论文着重研究和探讨了文本知识管理中基础性的中文分词技术以及文本分类技术，并提出分布式知识管理系统的架构等。具体有以下几个方面：
　　（1）提出了一种自适应分词算法。中文分词的难点在于处理歧义和识别未登录词，传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词，特别是对于各种行业领域的知识管理。本论文基于“2-gram”统计模型而实现一种能很好适应语料信息的分词算法，且时间和精度都能满足文本知识管理系统的应用需要。利用“分而治之”的思想来处理句长和词长的情况，用局部概率与全局概率相结合来识别生词和消歧，取得了很好的效果，从而使本论文提出的算法能够自动适应行业领域的知识管理。
　　（2）提出了一种新的基于降维近似支持向量机的分类算法PSVM。近似支持向量机与标准支持向量机的主要区别在于它们所对应的优化问题的约束条件不同。即支持向量机是将问题归结为线性不等式约束二次规划问题，而近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题。从理论上证明了该算法的时间复杂度和空间复杂度比传统的SVM算法均有降低，在此基础上提出了新的学习算法。实验表明，提出的新算法与主要的分类算法相比有较好的性能。尽管较之标准SVM算法的精度有所下降，但训练的时间比标准SVM算法要快，可以满足文本知识管理系统对训练时间敏感和需要处理大量文本的苛刻环境要求，从而具备较大的实用价值。
　　（3）提出了一种基于本体的层次文本分类算法。通常讨论的分类问题是单层分类，而层次分类是指多层类别关系下的分类问题。实际应用的文本知识管理系统通常是面向特定的行业和领域，并且具备一定的模糊性而存在多种分类的特性。用户对于知识的关联性及多概念粒度的分类有较高需求，这就需要采用更好的多层信息组织方式。针对文本知识管理系统中常见的多层类别关系下的分类问题，提出了一种基于本体的层次文本分类算法，该方法利用知识管理系统的知识本体和受控关键词表，并基于概念之间的相似度来实现文本的精确分类、查询和检索。而且，该方法同样也适用于单层分类。
　　（4）提出了一种分布式文本知识管理系统模型。为了适应现有分散性组织的发展模式，使有效的分布式文本知识管理成为知识管理的发展趋势之一。本论文提出的分布式文本知识管理系统模型是将Super-P2P技术应用于文本知识管理，以解决集中式文本知识管理所遇到的问题，并对模型提供的知识服务进行了研究和论述。
　　在以上工作的基础上，在上海“浦东科技发展基金”和宝信软件的支持下，我们实现了一个基于Super-P2P、而集成工作流驱动的文本知识管理系统eKnow。本论文总结了eKnow的设计思想、系统框架和技术路线。该系统已经应用于多个案例，取得了较大的经济效益。

著录项

作者
李志国;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位博士
导师姓名吴中福;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
分布式文本; 知识管理; 自适应分词算法; 分类算法PSVM;

相似文献

中文文献
外文文献
专利

1. 基于自适应中文分词和近似SVM的文本分类算法 [J] . 冯永 ,李华 ,钟将 . 计算机科学 . 2010,第001期
2. 结合中文分词的贝叶斯文本分类 [J] . 魏晓宁 ,朱巧明 ,梁惺彦 . 苏州市职业大学学报 . 2008,第001期
3. 基于多元神经网络融合的分布式资源空间文本分类研究 [J] . 刘孝保 ,陆宏彪 ,阴艳超 . 计算机集成制造系统 . 2020,第001期
4. 基于Spark计算框架的分布式文本分类方法研究 [J] . 唐慧丰1 ,郭威2 ,张乐2 . 数据挖掘 . 2018,第004期
5. 面向文本分类的中文文本语义表示方法 [J] . 宋胜利 ,王少龙 ,陈平 . 西安电子科技大学学报（自然科学版） . 2013,第002期
6. 面向中朝跨语言文本分类的双语主题词嵌入模型的研究 [C] . Wang Qi ,王琪 ,TIAN Mingjie . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 面向模糊文本分类的文本表示模型研究 [A] . 坎启轩 . 2019

面向分布式文本知识管理的中文分词与文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅