首页> 中文学位 >关于互联网文本数据挖掘的一些关键技术研究
【6h】

关于互联网文本数据挖掘的一些关键技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3本文的主要工作

1.4本文的组织结构

第二章 互联网文本挖掘概述

2.1 文本挖掘概述

2.2 互联网文本数据挖掘概述

2.3 本章小结

第三章 基于HtmlParser的网页数据自动抽取

3.1常用的网页数据抽取方法

3.2 常用的网页数据抽取模型

3.3 HtmlParser概述

3.4 基于HtmlParser的网页数据自动抽取

3.5 本章小结

第四章 新闻检索结果聚类分析

4.1 检索结果聚类概述

4.2 总体框架

4.3 基于Lucene的索引数据库

4.4 关键短语抽取

4.5 聚类算法分析

4.6 类标签提取

4.7 本章小结

第五章 互联网新闻数据在线挖掘服务系统

5.1 系统开发背景

5.2 系统的物理结构

5.3 系统的逻辑结构

5.4 检索结果聚类分析

5.5 系统界面效果图

5.6 本章小结

第六章 总结与展望

致谢

参考文献

个人简介和攻读硕士期间的成果

展开▼

摘要

随着互联网的普及与发展,互联网文本成为信息的主要载体及人们生活中获取信息的主要来源,如何从这些信息中获取有价值的信息和知识成为亟待解决的问题。由于互联网文本数据的非结构化、分布式、多样性、含个人感情色彩等特点,使得传统的数据挖掘技术无法应用于互联网文本的挖掘,人们充分利用互联网文本也变得越来越困难。文本表示模型的改进,自然语言处理技术和挖掘分析算法的发展,为解决这些问题带来希望,互联网文本挖掘也应运而生,成为互联网挖掘中的一个重要研究方向。
  互联网文本挖掘是互联网内容挖掘的一个重要分支,主要包括数据预处理、数据挖掘分析技术和可视化研究。本文以互联网上的新闻文本数据作为载体,研究互联网文本挖掘。主要工作有以下几个方面:
  1.系统地探讨了文本挖掘和互联网文本挖掘的基本理论,详细地阐述了文本挖掘的内容和流程,提出了文本挖掘的问题和互联网文本的结构特征。
  2.系统地探讨了网页数据的抽取技术,实现了一种基于HtmlParser的网页数据自动抽取方法,能够快速准确地抽取出网页中的文本数据。
  3.将聚类引入新闻检索中,对检索结果进行聚类,方便用户快速查找到自己所需的信息。本文系统研究了能应用于文本聚类的分析算法,实现一种改进的基于频繁项集的文本聚类分析方法,重点介绍了聚类的相关模块,主要包括关键短语抽取、索引建立、聚类方法和类标签提取等。
  4.设计并搭建了一个互联网新闻数据在线挖掘服务系统。该系统主要分为数据准备,离线挖掘和在线挖掘三个模块,实现新闻数据的分类、摘要、聚类等挖掘分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号