首页> 中文学位 >基于进化模糊规则的Web新闻内容分类技术研究
【6h】

基于进化模糊规则的Web新闻内容分类技术研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 研究内容

3. 基于进化模糊规则的Web新闻内容分类

1.4 论文组织结构

第2章 相关理论与模型框架

2.1 Web新闻文本内容识别提取

2.1.1 新闻的要素和特点

2.1.2 Web新闻的结构特点

2.2 Web新闻图片和视频字幕中的文本提取

2.2.1 Web新闻图片中的文本特征

2.2.2 二值化处理

2.2.3 边缘检测

2.3 BP神经网络理论

2.4 新闻分类

2.5 进化模糊规则

2.6 模型框架

2.7 本章小结

第3章 Web新闻内容的识别提取

3.1 基于Web新闻文本识别提取方法

3.1.1 网页类型区分

3.1.2 网页的解析

3.1.3 新闻主题内容抽取

3.1.4 算法实现

3.2 基于Web新闻图片内容的识别提取

3.2.1 方法概述

3.2.2 图片中文字定位的特点分析

3.2.3 研究近况

3.2.4 初步定位区域的获得和它的二值化与灰度投影

3.2.5 频谱分析

3.2.6 构建BP神经网络分类器

3.3 实验结果与分析

3.3.1 实验阈值的选取

3.3.2 Web新闻图片和视频帧中的文字定位效果评估

3.3.3 自然场景中文本定位效果的评估

3.4 本章小结

第4章 进化模糊分类器的构建

4.1 基于模糊规则的分类器

4.2 模糊集和数据集

4.3 模糊推理机制

4.4 eClass0分类器

4.4.1 模糊分类器的改进

4.5 本章小结

第5章 基于进化模糊规则的Web新闻内容分类

5.1 方法概述

5.1.1 传统分类方法

5.1.2 特征选取与权重计算

5.1.3 权重计算

5.2 文本预处理

5.2.1 分词处理

5.2.2 滤除停用词

5.3 术语过滤

5.4 进化模糊规则的文本分类

5.4.1 进化模糊规则的创建与更新

5.4.2 规则改变举例

5.5 实验及分析

5.5.1 数据集

5.5.2 术语过滤和阈值修剪

5.5.3 实验性能比较

5.6 本章总结

第6章 总结与展望

6.1 课题总结

6.2 课题展望

参考文献

攻读学位期间的研究成果

展开▼

摘要

在如今的大数据时代,网络每分每秒都会产生大量的行业数据,数据量之大几乎超出了现有的处理及分析工具的能力。另外,随着现代技术和生活水平的发展,人们对事物的认识也在不断演变。其中,Web新闻是人们每天都要接触的,他作为一种非常具代表性的数据,Web新闻内容以其多种多样的内容,实时发生且不断更新的性质,一直以来都是人们获取知识,了解时事的必要渠道。面对爆炸式出现的新闻内容时,如何快速直接的找到个人想要了解的新闻内容,并且能适应人们不断进步的认知,这是一个热门的研究课题。那么如何适应Web新闻类属繁杂且不断更新和演变的现状和趋势,对大量的新闻数据实现进化模糊机制的分类,就有着非常重要的研究价值。本课题围绕在进化模糊规则下对Web新闻内容分类的目标,从Web新闻内容的提取,并基于进化模糊规则对新闻内容进行分类研究,研究内容如下:  1.基于进化模糊规则的新闻内容分类模型框架的建立。通过对各种已有的方法进行理解和实验评估,明白了现有框架如何建立的前提下,本文构建了基于进化模糊规则的Web新闻内容分类模型框架。确立了该框架的两个重要核心部分:Web新闻内容的识别提取和基于进化模糊规则的新闻内容分类。将文本的分类问题转化成为对自然语言的处理。  2.Web新闻内容的识别提取。Web新闻内容的识别提取是基于进化模糊规则的分类方法的前提和必要条件。通过对构建分类模型的分析,确定了Web新闻内容识别提取十分重要,关系到后面最终分类的效果。本文从Web新闻的文字内容和新闻图片视频字幕内容两个部分来提取识别。文字内容部提出了结合网页分类用法和基于网页内容分割的主题内容抽取方法,Web新闻图片和视频帧图像字幕内容部分提出了采用边缘聚类初步定位,然后再使用基于BP神经网络与频谱分析的非文本滤除定位方法。通过实验和一些现有的方法相比,两种方法在我们研究的课题内容环境下都有一定的提高,而且后者对文字定位方法的准确率在一定条件下有着较大的提高。  3.基于进化模糊规则的新闻内容分类。基于得到的Web新闻文字信息和视频文字信息,在不影响性能的前提下,对所提取的文字信息进行预处理步骤。本文利用互信息和词频-逆向文档频率(TF-IDF)算法相结合的方法滤除术语集来提高算法的执行效率,再通过改进一种基于模糊规则(FRB)的分类器,从而实现对Web新闻内容的进化模糊分类。通过实验与其它一些现有的方法对比,本方法分类的效果在给定一定阈值和类别数量时,在准确率和查全率两个重要评价指标方面都有所提高,可以实现较好的适应不断加入和演变的文本。  本文的突出贡献有:在Web新闻内容文字的识别提取阶段,本课题提出了基于BP神经网络和频谱分析的非文本滤除定位方法;在Web新闻内容的分类阶段,本课题结合了互信息和词频-逆向文档频率方法来过滤掉描述能力过低的术语,通过改进现有的模糊规则分类器,实现了基于进化模糊规则的Web新闻内容的分类,从而使得新闻内容分类的准确率和查全率有了较好提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号