首页> 中文学位 >互联网短文本信息分类关键技术研究
【6h】

互联网短文本信息分类关键技术研究

代理获取

摘要

本文对互联网短文本信息分类的关键技术做了较深入的讨论。结合基于改进KNN算法的文本分类方法,对传统的文本分类进行改进,有效地提高了互联网短文本信息分类的准确率和普适性。 本文首先讨论了短文本信息的特点,与普通文本相比,短文本有其鲜明的特点。现有的短文本包括网络论坛、博客上频繁出现的信息,即主要是BBS/Blog上内容精悍的主贴、回复等。鉴于此,本文主要研究目前网络论坛、博客上频繁出现的短文本。现有的诸多方法在短文本分类中的效果不理想,即还不能有效地对短文本进行分类,因此研究针对短文本的分类算法有着一定的理论指导意义。鉴于此,本文提出了一种基于改进KNN算法实现网络媒体信息智能分类的分类技术应用于互联网短文本、离散文本,即主要应用于BBS/Blog上内容精悍的主贴、回复等。 接着,本文还讨论了文本分类问题的研究,回顾了文本分类领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文本分类的重要性。 在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法做了详细说明。现在的诸多方法在互联网短文本分类中的效果不理想,鉴于此本文通过认真分析短文本的特点,认为在基于改进KNN算法的分类方法中可以适当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,本文提出的综合的方法,可以有效地对短文本进行分类,进而搭建智能分类系统。 相信随着基于自然语言理解领域传统文本分类算法实现互联网短文本信息智能分类的不断发展,将对于互联网信息监管、舆论引导工作起到广泛而深远的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号