首页> 中文学位 >基于本体的中文文本聚类技术研究
【6h】

基于本体的中文文本聚类技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景与意义

1.2文本聚类技术的研究现状

1.2.1国外文本聚类技术研究现状

1.2.2国内文本聚类技术研究现状

1.3本体的发展状况

1.4本文的研究内容和组织结构

第二章文本聚类技术

2.1文本聚类的概念

2.2文本的表示

2.2.1预处理

2.2.2文本表示模型

2.2.3文本相似度计算

2.2.4文本特征选择

2.3聚类算法

2.3.1划分方法

2.3.2层次方法

2.3.3基于简单贝叶斯方法

2.3.4基于K-最近邻参照聚类方法

2.3.5基于蚁群的聚类方法

2.3.6基于SOM神经网络的方法

2.4本章小结

第三章本体论

3.1本体的定义

3.1.1本体论的哲学意义

3.1.2本体论的发展

3.1.3本体的定义

3.2本体的构成

3.3本体的研究现状

3.3.1 CYC

3.3.2 WordNet--网上英语在线词典

3.3.3 MindNet

3.3.4盘古常识库简介

3.3.5国家知识基础设施(NKI)简介

3.4本体的分类

3.5本体的作用

3.6本体的主要应用领域

3.6.1电子商务

3.6.2知识管理

3.7.本章小结

第四章基于主题概念聚类的中文文本聚类

4.1问题的提出

4.2 HOWNET本体库

4.3基于主题概念聚类的文本聚类

4.3.1表示文档内容的概念生成

4.3.2主题概念聚类

4.3.3基于主题概念聚类的文本聚类

4.4算法时间复杂度分析

第五章总结和展望

参考文献

致谢

攻读学位期间所发表的学术论文

展开▼

摘要

近年来,随着Internet技术的发展和信息传播手段的进步,人们可以从互联网上得到的信息越来越丰富,尤其可以获得数目惊人的文本文档。如何对这些文档进行有效的导航、总结、组织,以方便人们有效管理和检索海量的文本资源,已经成为计算机科学和信息科学急需解决的问题之一。 随着文本聚类技术研究的深入和广泛的应用,基于关键词的经典文本向量空间的高稀疏性,文本中的同义词、近义词和多义词问题,在很大程度上影响了文本聚类算法的效率和聚类的效果。本体理论的应用成为解决这一问题的很好的途径。 起源于哲学的本体论技术是人工智能领域中的一种先进的知识表示技术,它通过概念和概念间的关系,反映事物或现象的抽象本质,并建立抽象模型。近年来受到信息领域的广泛关注,被广泛地用于许多领域如语义网、搜索引擎、电子商务、自然语言处理、知识工程、信息提取、多Agent系统、数据库设计和数字图书馆等等。 本文对中文文本聚类技术进行了探讨,提出了一种新的基于HowNet(知网)本体库的中文文本聚类方法。在文中,利用HowNet作为背景知识,对同义词、多义词进行处理,将单纯的词映射到概念,然后采用Chameleon(变色龙)聚类算法,将这些概念进行聚类,最终完成文本聚类。该算法采用了一种不断进行聚类,以达到最终完成文本聚类的思想。用概念代替单个词条表示文本,减少了文本特征之间的依赖关系,有效的降低了文本聚类的时间复杂度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号