首页> 中文学位 >基于内容的Web新闻文本自动分类问题研究
【6h】

基于内容的Web新闻文本自动分类问题研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

第二章Web 文本分类技术

第三章中文命名实体识别技术

第四章面向事件报道的Web 新闻文本内容研究

第五章基于新闻实体要素的Web 新闻文本分类

第六章总结与展望

参考文献

附录

致谢

展开▼

摘要

随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网络信息的大量增长,传统的人工处理网络信息的方式已不能适应时代的需要。网络上的信息大都以文本形式出现。因此,Web文本的自动分类研究成为了一个日益重要的研究领域。
   本文的研究内容主要有以下几个方面:
   (1)分析了Web 文本分类中的特征表示、特征项提取、分类方法等关键技术,探讨和研究了存在的难点和突出问题。
   (2)提出了规则和统计相结合的中文命名实体识别方法。提出了一种在构造外部和内部规则的同时采用概率统计的中文命名实体的识别方法,实验结果表明,该方法可以获得较高的准确率和召回率。
   (3)讨论了Web 新闻文本中的新闻实体要素对其主题的限定作用。并以这些新闻实体要素的组合为特征,对Web 新闻文本进行主题分类。实验结果表明,该方法获得了较好的主题识别效果。
   (4)提出一种利用新闻新闻实体要素作为特征来表示Web 新闻文本的模型——SNE模型,在此基础上,构建了分类器。实验结果表明,建立在该模型基础上的新闻实体要素组合的Web 新闻文本的主题分类方法可以达到较好的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号