基于机器学习算法的Web文本挖掘应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本论文从热点信息抽取、Web文本分类、Web文本聚类三方面对机器学习算法在Web文本信息挖掘中的应用与研究进行了深入地分析：
　　 1、实现热点信息抽取系统时，提出了一种名为热点算法基础矩阵(HABM)的技术，其根据对比某单一词条在一段历史时期内的词频与目前的词频，判断该词条是否为热门词汇。拥有一定数量热门词汇的文章便成为热门文章被抽取出来。
　　 2、Web文本分类系统依据支持向量机(SVM)技术，对LibSVM工具进行二次开发来实现多类分类。鉴于此工具无法直接处理文字信息，将文字信息转换为TF-IDF空间向量模型后再做运算。另外还对LibSVM添加了杂质分离的功能。
　　 3、Web文本聚类系统采用了改进版的K-Means聚类算法，包括重新设计了聚类初始中心点的选择算法、添加了分块处理数据的能力、新增语料杂质的分离等功能，使得算法在时间和空间上到达到处理大规模数据的要求。
　　课题实现了一系列的优化技术，包括磁盘散列文件、对象串行化、中文分词、线程调度等。课题还采用了国际上通用的准确率一召回率(P-R)评测方法，用于评测最终挖掘结果的好坏。经过一系列的实验证实，三个系统均已达到实用目的，并有着令人满意的挖掘结果。

著录项

作者
常青;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机系统结构
授予学位硕士
导师姓名侯越先;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;信息处理（信息加工）;
关键词
数据挖掘; 机器学习; 中文分词; 挖掘评测; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于Web文本挖掘的远程教育个性化服务应用研究 [J] . 刘伟丽 ,张德贤 . 福建电脑 . 2009,第005期
2. Web文本挖掘的方法及其应用研究 [J] . 阮忠 ,邓春燕 . 农业网络信息 . 2008,第009期
3. Web文本挖掘技术在新闻主题检测中的应用研究 [J] . 王志明 ,沙莎 . 长沙大学学报 . 2007,第005期
4. Web文本挖掘技术在电力EIP的应用研究 [J] . 区力 ,王新旭 ,陈敏 . 现代计算机（专业版） . 2007,第010期
5. 机器学习算法在专利创造性辅助判断中的应用研究 [J] . 马鑫 . 中国发明与专利 . 2021,第009期
6. 基于Web文本挖掘算法预防现实危害的研究 [C] . WU Wei ,吴威 . 第31次全国计算机安全学术交流会 . 2016
7. 基于XML的Web文本挖掘应用研究 [A] . 马宏伟 . 2008

基于机器学习算法的Web文本挖掘应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅