01 / 09
Présentation M1 · Recherche

Index Graphes et Arbres pour la Recherche de Similarité en Haute Dimension

Analyse d'un article de référence sur les structures d'index pour l'ANNS moderne, en lien avec notre comparaison HNSW / IVFPQ / LSH.

Article · IEEE Data Eng. Bulletin 2023
Graph- and Tree-based Indexes for High-dimensional Vector Similarity Search
Z. Wang, P. Wang, T. Palpanas, W. Wang
10 minutes 1 Article Haute Dimension HNSW · IVFPQ · LSH
Plan

Sommaire

01
Contexte
Qu'est-ce que l'ANNS et pourquoi c'est critique ?
02
Notre Projet
Pourquoi ce papier ? Lien avec notre comparaison HNSW / IVFPQ / LSH
03
Le goulot d'étranglement
60–90% du temps de requête = calcul de distances dans HNSW
04
Graphes : K-Graph → HNSW
Évolution des index graphes et règle RNG
05
HNSW : résultats & index à base d'arbres
Ablation de la règle RNG et familles d'arbres (iSAX, ELPIS)
06
Graphes vs Arbres
Comparaison sur 5 critères : mémoire, disque, scalabilité...
07
Synthèse
Ce qu'il faut retenir & lien avec HNSW / IVFPQ / LSH
Contexte

Qu'est-ce que l'ANNS et pourquoi c'est critique ?

Trouver les éléments les plus similaires à une requête dans un grand ensemble — avec de légères approximations pour gagner en vitesse.

Recall k@k = |A ∩ G| / k  → cible >95%

L'essor des embeddings

Qwen2 (Alibaba) : 3 584 dimensions  ·  SFR (Salesforce) : 4 096 dimensions
!
Le coût de calcul des distances croît linéairement avec la dimensionnalité — c'est le fléau de la dimension

Applications concrètes

RAG — Retrieval-Augmented Generation pour augmenter les LLMs
Recherche sémantique d'images et de documents
Recommandation — Netflix, Spotify, e-commerce
Bases vectorielles — Milvus, Pinecone, pgvector
Enjeu

Des milliards de vecteurs, des milliers de dimensions, des millisecondes pour répondre.

Notre Projet

Pourquoi cet article ? Lien avec notre comparaison

Notre projet consiste à comparer empiriquement trois grandes familles d'index ANNS sur des données réelles haute dimension :

HNSW

Graph-based — étudié en détail dans cet article. Hiérarchie de graphes navigables, règle RNG, connexions longue distance.

Article 1 — Section principale

IVFPQ

Partitionnement + Quantification — clustering IVF des centroïdes, puis quantification par produit (PQ) pour compresser les résidus.

Partitionnement de l'espace

LSH

Hachage probabiliste — projections aléatoires qui placent les vecteurs similaires dans les mêmes buckets avec haute probabilité.

Garanties probabilistes
Apport de cet article pour notre projet

L'article fournit le cadre théorique et expérimental de HNSW — notre index de référence — ainsi qu'une analyse comparative de ses limites face aux arbres. Cela nous permet de positionner IVFPQ et LSH sur l'axe vitesse / mémoire / recall par rapport à HNSW.

Contexte

Le goulot d'étranglement : calcul de distances

Dans HNSW (l'index de référence), le calcul des distances représente

60–90%

du temps total de traitement d'une requête

Complexité L2 : O(D)  — D = dimensionnalité

C'est le défi central que résolvent les index graphes et arbres étudiés dans cet article.

La réponse : Structurer les données

Optimiser les structures d'index — graphes (HNSW) et arbres (iSAX, ELPIS) — pour réduire drastiquement le nombre de distances calculées lors d'une requête.

Enjeu pour notre projet

HNSW, IVFPQ et LSH attaquent ce goulot par des stratégies radicalement différentes — c'est précisément ce que nous comparons.

Article 1 — Index graphes

Graphes : évolution K-Graph → HNSW

Chaque vecteur = un sommet. Les arêtes connectent des vecteurs proches. La recherche gloutonne navigue le graphe en se rapprochant de la requête.

K-Graph Hubs
Chaque nœud → ses K plus proches voisins. Les hubs (k-occurrence élevée) s'interconnectent entre eux (>50% des liens) → la recherche se retrouve piégée dans ces zones.
NSW Connexions longue distance
Insertion aléatoire séquentielle → crée des liens longue distance qui brisent les clusters de hubs. 32% d'étapes en moins vs K-Graph.
HNSW Référence
Structure hiérarchique + degré borné (2M) + règle d'élagage RNG. Utilisé dans FAISS, hnswlib, Milvus.
Vamana / HVS / NSG
Relaxation de RNG, meilleurs points d'entrée (HVS/LSH-APG → 3× plus rapide), garantie d'accessibilité globale (NSG).
zone hub requête vrai NN (isolé) → recherche piégée dans les hubs
Clé de HNSW — Règle RNG

Supprime les arêtes redondantes → libère des slots pour des connexions longue distance. Résultat : seulement ~30% des arêtes de K-Graph conservées, corrélation hub/connexion divisée par 3.

Article 1 — Ablation & Arbres

HNSW : résultats mesurés & index à base d'arbres

Effets mesurés de la règle RNG

~30% des arêtes de K-Graph conservées — le reste = connexions longue distance
Asymétrie de la distribution des degrés réduite de moitié
Corrélation in-degree / k-occurrence : <0.3 (contre 1.0 dans K-Graph)
!
La hiérarchie HNSW est quasi inutile en haute dimension : HNSW₀ (couche basse) donne les mêmes performances

HVS / LSH-APG : index auxiliaire pour de meilleurs points d'entrée → jusqu'à 3× plus rapide que HNSW.

Index à base d'arbres

Partitionnement hiérarchique de l'espace. Traversée racine → feuilles. 3 familles :

iSAX : symbolisation hiérarchique + borne inférieure sur la distance → élagage sans faux négatifs Dumpy
EAPCA : segmentation dynamique + moyenne/écart-type → bornes plus serrées ELPIS
Ordonnée : courbes remplissantes (Z-order, Hilbert) + B-tree HD-Index
Combinaison optimale

ELPIS : arbre pour partitionner + graphe dans chaque feuille → 3–8× moins de temps d'indexation, −40% de mémoire.

Article 1 — Comparaison

Graphes vs Arbres

Critère Graphes (HNSW…) Arbres (iSAX, ELPIS…)
Élagage garanti Non Oui (bornes inférieures)
Localité des données Non Oui (données groupées)
Index sur disque Difficile Naturel
Scalabilité / Distribué Limitée, peu exploré Excellente (Odyssey, TARDIS)
Performance en mémoire ★★★★★ Meilleure ★★★☆☆ Correcte
Conclusion Article 1

Graphes pour la précision en mémoire, arbres pour la scalabilité et le disque. Les combinaisons (ELPIS, SPANN) donnent le meilleur des deux. Défi ouvert : performances variant jusqu'à 90× selon les datasets.

Synthèse

Ce qu'il faut retenir — Article 1

Graph- and Tree-based Indexes (Wang et al., IEEE 2023)

Comment structurer les données pour minimiser le nombre de distances calculées ?
Graphes (HNSW) pour la précision maximale en mémoire, arbres pour la scalabilité et le stockage sur disque, combinaisons (ELPIS, SPANN) pour le meilleur des deux mondes.

01
Le calcul de distance est le goulot : 60–90% du temps de requête dans HNSW — réduire le nombre de distances calculées est la priorité absolue.
02
La règle RNG est le secret de HNSW : elle brise les clusters de hubs en libérant des connexions longue distance, conservant seulement ~30% des arêtes de K-Graph.
03
Graphes et arbres sont complémentaires : les combiner (ELPIS) réduit le temps d'indexation de 3–8× et la mémoire de 40% sans perte de précision.
04
Lien direct avec notre projet : HNSW est le graph-based de référence — cet article justifie pourquoi nous le comparons à IVFPQ (partition + quantification) et LSH (hachage probabiliste).