摘要:视觉词袋(BOVW)模型近年来受到了广泛的关注,该模型将每一个图像表示成视觉单词词频的向量.视觉单词通常利用欧式距离将图像的SIFT局部特征进行聚类来生成,显然,每个视觉单词应该对应一个特定的SIFT特征,只有提高视觉单词的精度才能从本质上提高图像检索的性能.图像特征的分布经常具有复杂的流形结构,并且分布的非常稀疏.针对这个问题,以检测点为中心,将SIFT特征划分为4个区域并利用极大似然估计对每一个区域内数据的固有维数进行估计.利用局部线型嵌入(LLE)算法分别将每一个区域的数据映射到低维空间,对降维后的数据进行聚类并组合成视觉单词.通过这种方式,改善了视觉单词的精度也提高了视觉单词的多样性.实验结果证明了相较于传统方法,该方法在召回率上获得了提高.