基于进化模糊规则的Web新闻内容分类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在如今的大数据时代，网络每分每秒都会产生大量的行业数据，数据量之大几乎超出了现有的处理及分析工具的能力。另外，随着现代技术和生活水平的发展，人们对事物的认识也在不断演变。其中，Web新闻是人们每天都要接触的，他作为一种非常具代表性的数据，Web新闻内容以其多种多样的内容，实时发生且不断更新的性质，一直以来都是人们获取知识，了解时事的必要渠道。面对爆炸式出现的新闻内容时，如何快速直接的找到个人想要了解的新闻内容，并且能适应人们不断进步的认知，这是一个热门的研究课题。那么如何适应Web新闻类属繁杂且不断更新和演变的现状和趋势，对大量的新闻数据实现进化模糊机制的分类，就有着非常重要的研究价值。本课题围绕在进化模糊规则下对Web新闻内容分类的目标，从Web新闻内容的提取，并基于进化模糊规则对新闻内容进行分类研究，研究内容如下：　　1.基于进化模糊规则的新闻内容分类模型框架的建立。通过对各种已有的方法进行理解和实验评估，明白了现有框架如何建立的前提下，本文构建了基于进化模糊规则的Web新闻内容分类模型框架。确立了该框架的两个重要核心部分：Web新闻内容的识别提取和基于进化模糊规则的新闻内容分类。将文本的分类问题转化成为对自然语言的处理。　　2.Web新闻内容的识别提取。Web新闻内容的识别提取是基于进化模糊规则的分类方法的前提和必要条件。通过对构建分类模型的分析，确定了Web新闻内容识别提取十分重要，关系到后面最终分类的效果。本文从Web新闻的文字内容和新闻图片视频字幕内容两个部分来提取识别。文字内容部提出了结合网页分类用法和基于网页内容分割的主题内容抽取方法，Web新闻图片和视频帧图像字幕内容部分提出了采用边缘聚类初步定位，然后再使用基于BP神经网络与频谱分析的非文本滤除定位方法。通过实验和一些现有的方法相比，两种方法在我们研究的课题内容环境下都有一定的提高，而且后者对文字定位方法的准确率在一定条件下有着较大的提高。　　3.基于进化模糊规则的新闻内容分类。基于得到的Web新闻文字信息和视频文字信息，在不影响性能的前提下，对所提取的文字信息进行预处理步骤。本文利用互信息和词频-逆向文档频率（TF-IDF)算法相结合的方法滤除术语集来提高算法的执行效率，再通过改进一种基于模糊规则（FRB)的分类器，从而实现对Web新闻内容的进化模糊分类。通过实验与其它一些现有的方法对比，本方法分类的效果在给定一定阈值和类别数量时，在准确率和查全率两个重要评价指标方面都有所提高，可以实现较好的适应不断加入和演变的文本。　　本文的突出贡献有：在Web新闻内容文字的识别提取阶段，本课题提出了基于BP神经网络和频谱分析的非文本滤除定位方法；在Web新闻内容的分类阶段，本课题结合了互信息和词频-逆向文档频率方法来过滤掉描述能力过低的术语，通过改进现有的模糊规则分类器，实现了基于进化模糊规则的Web新闻内容的分类，从而使得新闻内容分类的准确率和查全率有了较好提升。

著录项

作者
桂洋;
展开▼
作者单位

河南科技大学;

展开▼
授予单位河南科技大学;
学科软件工程
授予学位硕士
导师姓名霍华;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
进化模糊规则,文字定位,新闻分类,BP神经网络,频谱分析,模糊分类器;

相似文献

中文文献
外文文献
专利

1. 基于进化模糊规则的Web新闻文本挖掘与分类方法 [J] . 史玉珍 ,吕琼帅 . 湘潭大学自然科学学报 . 2016,第002期
2. 基于半监督学习的Web页面内容分类技术研究 [J] . 赵夫群 . 现代电子技术 . 2016,第001期
3. 基于协同进化算法的水轮机模糊PID调节系统模糊规则的研究 [J] . 王涛 ,余向阳 ,辛华 . 水力发电学报 . 2007,第2期
4. 用于Web用户聚类的基于差分进化的模糊聚类算法 [J] . 王艳茹 . 电脑知识与技术 . 2011,第030期
5. 基于差分进化和规则约简的二型模糊方法在风电预测中的应用 [J] . 李银萍 ,李文峰 ,申存骁 . 计算机系统应用 . 2021,第008期
6. 进化基于规则的模糊逻辑控制 [C] . 胡炜 ,沈理 . 1998年中国智能自动化学术会议 . 1998
7. 基于进化模糊规则的Web新闻自动摘要相关技术研究 [A] . 杜琰 . 2020

基于进化模糊规则的Web新闻内容分类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅