维数约减算法研究及其在大规模文本数据挖掘中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的快速发展，人们处在这个“信息爆炸”的时代，常常面对海量数据分析和处理的任务，且这样的数据仍在以几何级数增长。同时，在现实中这些海量数据往往又是高维而稀疏的，且存在着大量的冗余。因而能对高维海量数据做压缩处理，且保持其内在属性的有效处理方法成为人工智能、机器学习、数据挖掘等领域的重要研究课题之一。高效的维数约减算法是对高维海量数据处理的一种有效方法，且具有一定的实际应用价值。本文的关注点集中在适用于高维海量数据的快速维数约减算法的研究及其具体应用。本文分别提出了两种新的维数约减算法：（1）基于期望扰动的直接随机映像算法（On the Expected Distortion Bound of Direct Random Projection，简称DRP）；（2）基于锚点集的最小平方误差等距嵌入算法（Anchor points based Isometric Embedding under least square error criterion，简称AIE）。基于期望扰动的直接随机映像算法DRP具有O（dn）的时间复杂性，这样的性能评价是建立在对期望扰动分析的基础上的。并证明了1）DRP算法的期望扰动的界。2）在适当的给定条件下，可在O（1）的随机时间内找到一个将期望扰动限定在一个合适范围之内的DRP映像。进而提出了一种获得中肯DRP的启发式算法。此算法具有稳固的渐进加速比，相对于其他随机映像算法具有更好的稳定性。而且在流数据模式下，可采用增量策略，DRP算法的时间复杂性为O（d log d）。基于锚点集的最小平方误差等距嵌入算法AIE具有O（n log（n））的时间复杂性，而且在获得测地线距离后的计算时间复杂度达到对嵌入点数的线性关系，且可以完全并行实现。与Isomap、LLE等非线性维数约减算法相比较，具有更优化的时间复杂性。当前主流的搜索引擎根据查询词在网页中的出现频率，辅以网页权威性等信息，生成查询结果。但用户提供的查询词往往非常简单，在许多情况下，搜索引擎难以确定用户的查询意图。本文提出了一种利用Web日志中的海量点击数据进行网页内容相关性挖掘的方法，在此基础上给出了一种反馈式搜索引擎（Feedback Search Engine，简称FSE）框架及相关算法。FSE根据网页相关性动态生成查询结果，以期提供给用户更中肯和个性化的信息。

著录项

作者
于瑞国;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机应用技术
授予学位博士
导师姓名何丕廉;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
数据挖掘; 数据处理; 数据压缩; 搜索引擎; 查询词; 维数约减算法;

相似文献

中文文献
外文文献
专利

1. 军事情报文本分类中的维数约减技术 [J] . 高影繁 ,刘玉树 . 火力与指挥控制 . 2008,第005期
2. 基于线性LTSA算法维数约减的软件缺陷预测研究 [J] . 王玉红 ,范菁 ,曲金帅 . 云南民族大学学报（自然科学版） . 2019,第001期
3. 基于成对约束的非线性维数约减框架 [J] . 尹学松 ,蒋融融 ,江立飞 . 计算机工程与应用 . 2017,第005期
4. 用于癌症分类的随机子空间半监督维数约减 [J] . 文贵华 ,蔡先发 ,韦佳 . 华南理工大学学报（自然科学版） . 2013,第007期
5. 图像特征维数约减的线性变换技术 [J] . 陶跃华 ,曾瑞 ,张玉琢 . 云南师范大学学报（自然科学版） . 2007,第001期
6. 维数约减技术在文本分类中的应用综述 [C] . 马润波 . 中国计算机用户协会信息系统分会2006年年会暨中国地理信息系统建设及应用研讨会 . 2006
7. 步态识别中的目标轮廓提取和特征维数约减研究 [A] . 傅春燕 . 2008

维数约减算法研究及其在大规模文本数据挖掘中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅