首页> 中文学位 >三网融合下实时文本新闻的选择与分类技术研究
【6h】

三网融合下实时文本新闻的选择与分类技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 课题研究的目的意义

1.2 文本分类技术的研究现状

1.3 本文主要研究内容

1.4 本文的组织结构

2 HUSTRIM系统的新闻监管

2.1 HUSTRIM系统概述

2.2 HUSTRIM系统的新闻监管

2.3 HUSTRIM新闻选择的功能设计

2.4 HUSTRIM新闻分类的功能设计

2.5 本章小结

3 HUSTRIM新闻提取与选择

3.1 HUSTRIM的网络爬虫

3.2 HUSTRIM的正文提取

3.3 HUSTRIM新闻选择的设计

3.4 本章小结

4 HUSTRIM的新闻分类

4.1 文本的分类

4.2 HUSTRIM贝叶斯分类算法

4.3 HUSTRIM-k均值聚类算法

4.4 HUSTRIM新闻分类的设计

4.5 本章小结

5 系统实验与测试

5.1 实验系统环境

5.2 系统测试方案

5.3 系统功能测试结果

5.4 本章小结

6 总结与展望

6.1 论文总结

6.2 研究展望

致谢

参考文献

展开▼

摘要

近年来随着科技与社会的发展,三网融合成为大势所趋。然而,三网融合在带来更全面﹑更快捷﹑更广泛服务的同时,也带来了巨大的安全隐患。互联网的特点是实时﹑便捷﹑全面,然而信息量大﹑信息质量参差不齐。因此,三网融合后对网上信息内容的监管成为三网融合需要解决的重要问题。新闻是网络上信息传递的主要载体,对网络新闻的监管是内容监管的重要组成部分。文本分类与聚类技术是文本挖掘领域的重要技术,分类后的新闻易于管理与鉴别。分类在一定程度上解决了信息杂乱的问题,是信息过滤﹑目标营销﹑性能预测和医疗诊断等领域的基础,因此对文本分类的研究具有重要意义。
  HUSTRIM系统是三网融合环境下的内容监管系统。通过对内容的安全监控和管理为全网内容可监可管提供保证,其新闻选择分类为三网融合下新闻内容的监管提供支持。HUSTRIM采用网络爬虫﹑新闻链接分析﹑基于行块分布函数的正文抽取等技术,获取有效的新闻正文信息;采用朴素bayes与k-means相结合的方法对新闻进行先分类再聚类。
  HUSTRIM新闻选择分类包括新闻获取模块﹑正文提取模块﹑朴素bayes分类模块和 k-means聚类模块。从互联网爬取了近700个网页新闻信息,借助搜狗实验室文本分类语料库对这700个网页新闻进行了分类和聚类。通过实验得到了正文抽取过程的最佳阀值﹑朴素bayes分类的最佳特征属性维数和k-means聚类的最佳k值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号