ANN搜索

向量数据库在LLM等领域中的应用已经比较广泛，而ANN（Approximate Nearest Neighbor，近似最近邻）搜索是向量数据库的核心技术之一，这里简单介绍下ANN搜索的基本原理和常用算法。

什么是ANN搜索¶

ANN搜索本质上就是要从海量高维向量中，快速找到目标向量的临近向量。由于高维空间的“维度灾难”问题，传统的精确最近邻搜索（Exact Nearest Neighbor，ENN）在高维空间中效率非常低下，因此ANN搜索通过牺牲部分精度来换取更高的搜索效率。

要实现快速搜索，常见的思路有：树、LSH、量化、IVF、图等。

适用于中低维数据，通过递归划分空间来构建树结构，查询时通过遍历树来找到近邻。

LSH基于这样一个前提：

相似的向量在经过合适的hash映射后，仍然会映射到相同的桶中的概率较高，而不相似的向量映射到相同桶中的概率较低。

将高维向量分割成多个子向量，并对每个子向量进行量化，从而减少存储空间和计算复杂度。

在PQ的基础上进行优化，提高搜索精度。

将向量空间划分为多个簇，每个簇对应一个倒排列表，查询时先找到目标向量所属的簇，然后在该簇内进行精确搜索。

构建一个多层次的小世界图，通过图的导航来实现快速近邻搜索。

类似HNSW，但结构更简单，适用于动态数据。