基于本体的中文文本聚类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着Internet技术的发展和信息传播手段的进步，人们可以从互联网上得到的信息越来越丰富，尤其可以获得数目惊人的文本文档。如何对这些文档进行有效的导航、总结、组织，以方便人们有效管理和检索海量的文本资源，已经成为计算机科学和信息科学急需解决的问题之一。随着文本聚类技术研究的深入和广泛的应用，基于关键词的经典文本向量空间的高稀疏性，文本中的同义词、近义词和多义词问题，在很大程度上影响了文本聚类算法的效率和聚类的效果。本体理论的应用成为解决这一问题的很好的途径。起源于哲学的本体论技术是人工智能领域中的一种先进的知识表示技术，它通过概念和概念间的关系，反映事物或现象的抽象本质，并建立抽象模型。近年来受到信息领域的广泛关注，被广泛地用于许多领域如语义网、搜索引擎、电子商务、自然语言处理、知识工程、信息提取、多Agent系统、数据库设计和数字图书馆等等。本文对中文文本聚类技术进行了探讨，提出了一种新的基于HowNet(知网)本体库的中文文本聚类方法。在文中，利用HowNet作为背景知识，对同义词、多义词进行处理，将单纯的词映射到概念，然后采用Chameleon(变色龙)聚类算法，将这些概念进行聚类，最终完成文本聚类。该算法采用了一种不断进行聚类，以达到最终完成文本聚类的思想。用概念代替单个词条表示文本，减少了文本特征之间的依赖关系，有效的降低了文本聚类的时间复杂度。

著录项

作者
杨彩莲;
展开▼
作者单位

辽宁师范大学;

展开▼
授予单位辽宁师范大学;
学科计算机应用技术
授予学位硕士
导师姓名谢福鼎;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
本体; 中文; 文本聚类; 本体库; 知识表示;

相似文献

中文文献
外文文献
专利

1. 基于本体的中文多项选择题自动生成技术研究 [J] . 丁向民 ,顾宏斌 . 计算机工程与设计 . 2010,第006期
2. 基于SOM文本聚类的领域本体学习研究 [J] . 黎九平 . 情报探索 . 2012,第011期
3. 一种基于本体的文本聚类方法 [J] . 朱会峰 ,左万利 ,赫枫龄 . 吉林大学学报（理学版） . 2010,第002期
4. 一种基于本体相似度计算的文本聚类算法研究 [J] . 王刚 ,钟国祥 . 计算机科学 . 2010,第009期
5. 基于本体及相似度的文本聚类研究 [J] . 王刚 ,邱玉辉 . 计算机应用研究 . 2010,第007期
6. 基于WEKA的中文文本聚类研究 [C] . 韩普 ,刘艳云 . 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIBOSS2011)学术研讨会 . 2011
7. 中文文本聚类关键技术研究 [A] . 邵明来 . 2015

基于本体的中文文本聚类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅