首页> 中文学位 >中文网页热门主题获取系统的研究与实现
【6h】

中文网页热门主题获取系统的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章 引言

1.1研究背景

1.2研究内容和意义

1.3国内外研究现状

1.3.1 Web挖掘的研究现状

1.3.2数据流挖掘的研究现状

1.4本文工作

1.5论文组织

第2章 数据流挖掘概述

2.1数据流

2.1.1数据流的概念

2.1.2数据流模型

2.2数据流挖掘

2.2.1数据流挖掘的特点

2.2.2数据流挖掘模型

2.3数据流挖掘算法

2.3.1数据流聚类

2.3.2数据流分类

2.3.3数据流频繁项集挖掘

2.4数据流挖掘的应用

第3章 中文标题的分词和表示

3.1中文分词技术

3.2面临的难题

3.3基于名词的分词方法

3.3.1词典的设计

3.3.2分词算法

3.3.3实验结果

第4章 基于滑动窗口的数据流频繁项集挖掘算法

4.1问题描述与定义

4.2算法描述

4.2.1数据库的表示法

4.2.2 FIM-SW算法

4.3算法分析

第5章 系统实现

5.1系统模块组成

5.1.1获取网页主题模块

5.1.2中文分词模块

5.1.3统计频繁主题模块

5.2系统测试

5.2.1实验数据

5.2.2实验结果及分析

第6章 总结与展望

参考文献

攻读硕士学位期间发表论文情况

致谢

展开▼

摘要

互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。
   论文针对互联网舆情信息挖掘技术进行研究,具体包括:
   (1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。
   (2)中文分词技术:针对网页标题的结构特点,论文采用基于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。
   (3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。
   结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系统参数对系统性能的影响,为提高系统性能提供了依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号