关于互联网文本数据挖掘的一些关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的普及与发展，互联网文本成为信息的主要载体及人们生活中获取信息的主要来源，如何从这些信息中获取有价值的信息和知识成为亟待解决的问题。由于互联网文本数据的非结构化、分布式、多样性、含个人感情色彩等特点，使得传统的数据挖掘技术无法应用于互联网文本的挖掘，人们充分利用互联网文本也变得越来越困难。文本表示模型的改进，自然语言处理技术和挖掘分析算法的发展，为解决这些问题带来希望，互联网文本挖掘也应运而生，成为互联网挖掘中的一个重要研究方向。
　　互联网文本挖掘是互联网内容挖掘的一个重要分支，主要包括数据预处理、数据挖掘分析技术和可视化研究。本文以互联网上的新闻文本数据作为载体，研究互联网文本挖掘。主要工作有以下几个方面：
　　1.系统地探讨了文本挖掘和互联网文本挖掘的基本理论，详细地阐述了文本挖掘的内容和流程，提出了文本挖掘的问题和互联网文本的结构特征。
　　2.系统地探讨了网页数据的抽取技术，实现了一种基于HtmlParser的网页数据自动抽取方法，能够快速准确地抽取出网页中的文本数据。
　　3.将聚类引入新闻检索中，对检索结果进行聚类，方便用户快速查找到自己所需的信息。本文系统研究了能应用于文本聚类的分析算法，实现一种改进的基于频繁项集的文本聚类分析方法，重点介绍了聚类的相关模块，主要包括关键短语抽取、索引建立、聚类方法和类标签提取等。
　　4.设计并搭建了一个互联网新闻数据在线挖掘服务系统。该系统主要分为数据准备，离线挖掘和在线挖掘三个模块，实现新闻数据的分类、摘要、聚类等挖掘分析。

著录项

作者
徐德;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名章毅;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
互联网; 文本挖掘; 数据抽取; 信息检索;

相似文献

中文文献
外文文献
专利

1. 数据挖掘方法在文本分析中的应用——以十九大报告、习近平讲话等文本为例 [J] . 张林泉 . 哈尔滨师范大学自然科学学报 . 2020,第006期
2. 高分组英语写作文本的句法特征探究——基于句酷批改网英语写作文本的数据挖掘 [J] . 何欣忆 ,黎曜玮 ,李良炎 . 现代教育技术 . 2018,第012期
3. 基于云计算的数据挖掘平台架构及其关键技术研究 [J] . 宋文彬 . 电子技术与软件工程 . 2021,第003期
4. 基于数据挖掘的入侵检测关键技术研究 [J] . 白宗 ,侯珂 ,尚梦莹 . 电子技术与软件工程 . 2021,第023期
5. 基于云计算的数据挖掘平台架构及其关键技术研究 [J] . 胡珊 . 无线互联科技 . 2020,第005期
6. 数据挖掘透视科研热点从Scopus和Scival出发的一些思考 [C] . Kunpeng Qiao . 2016年科学出版社期刊出版年会 . 2016
7. 面向问答系统的大规模文本数据挖掘关键技术研究 [A] . 魏巍 . 2012

关于互联网文本数据挖掘的一些关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅