01 / 12
Présentation M1 · Recherche

Index Graphes et Arbres pour la Recherche de Similarité en Haute Dimension

Analyse de l'article de référence et lien avec notre comparaison empirique HNSW / IVF-PQ / LSH.

Article · IEEE Data Eng. Bulletin 2023
Graph- and Tree-based Indexes for High-dimensional Vector Similarity Search
Z. Wang, P. Wang, T. Palpanas, W. Wang
10 minutes 3 orateurs SIFT1M · 1 M vecteurs HNSW · IVF-PQ · LSH
Plan

Sommaire

01
Introduction & Contexte
Contexte ANNS · Notre projet · Choix de l'article
01a
Contexte ANNS
Qu'est-ce que l'ANNS et pourquoi c'est critique ?
01b
Choix de l'article
bulletin23 vs bulletin24 — pourquoi bulletin23 ?
02
Analyse du Papier
Contenu de bulletin23 — graphes, hubs, HNSW, arbres
03
Lien Projet & Conclusion
Lien théorie ↔ projet · Interpréter le benchmark · Conclusion
Sedik
Contexte

Qu'est-ce que l'ANNS et pourquoi c'est critique ?

Retrouver rapidement les objets les plus similaires à une requête — images, documents, vecteurs — avec de légères approximations pour gagner en vitesse.

Recall@K = |A ∩ G| / K  → cible > 95%

Une recherche exacte devient très coûteuse sur de gros volumes. C'est pourquoi on accepte une approximation contrôlée.

!
Coût de la distance euclidienne : O(D) — croît linéairement avec la dimensionnalité
Applications : moteurs de recherche, recommandation, recherche d'images, systèmes RAG avec LLMs

Notre projet — Benchmark SIFT1M

Dataset : SIFT1M — 1 million de vecteurs, 128 dimensions
Trois approches : HNSW · IVF-PQ · LSH
Critères : Recall@K · Latence · Mémoire · Temps de construction
Enjeu

Des millions de vecteurs, des centaines de dimensions, des millisecondes pour répondre. L'ANNS est le composant central de ces systèmes.

Sedik
Choix de l'article

Deux papiers étudiés — Pourquoi bulletin23 ?

bulletin23 — Retenu ✓

Graph- and Tree-based Indexes for High-dimensional Vector Similarity Search

Index basés sur des graphes et des arbres pour la recherche de similarité sur des vecteurs de haute dimension.

Familles d'index Comparatif
bulletin24 — Secondaire

Techniques de réduction de dimension pour les systèmes ANNS

Surtout centré sur l'optimisation interne du calcul de distance — pas un comparatif global entre paradigmes.

Spécialisé
Pourquoi bulletin23 correspond à notre projet

Notre projet ne cherche pas à optimiser un index existant : il cherche à comparer plusieurs familles — graphes (HNSW), quantification (IVF-PQ), hachage (LSH). Or bulletin23 adopte précisément cette logique de comparaison entre familles d'index, en expliquant leurs idées, leurs compromis et leurs limites. En plus, il accorde une place centrale à HNSW, qui est notre méthode graphique de référence.

Chatodit
Article — Vue d'ensemble

Objectif et méthode de bulletin23

Objectif du papier

Comprendre comment ont évolué les index graphiques et arborescents pour la recherche de similarité en haute dimension, comparer leurs propriétés, puis dégager les directions prometteuses.

L'ANNS est devenu un composant essentiel : moteurs de recherche, recommandation, recherche d'images, systèmes LLMs
Parmi les familles d'index, les graphes donnent les meilleures performances de requête en mémoire
Les arbres gardent des avantages forts en scalabilité, construction et garanties de recherche

Méthode en 3 temps

① Évolution des structures graphiques
De K-Graph jusqu'à NSW, puis HNSW, et autres variantes. Retracer le fil historique et comprendre chaque amélioration.
② Ablation studies
Analyses détaillées pour comprendre pourquoi certaines améliorations fonctionnent. Ce papier n'est pas seulement descriptif : il explique les mécanismes.
③ Comparaison graphes vs arbres
Étude comparative entre les deux grandes familles sur plusieurs critères : vitesse, mémoire, scalabilité, disque.
Chatodit
Article — Index graphes

Navigabilité, paramètre ef, et le problème des hubs

Concept de navigabilité

Dans un index graphe, chaque vecteur est un nœud. La recherche consiste à avancer de proche en proche vers les voisins du vecteur requête — c'est la recherche gloutonne.

ef ↑ → recall ↑  mais  latence ↑

Le paramètre ef contrôle le nombre de candidats explorés pendant la recherche : plus ef est élevé, plus on explore, plus le recall augmente — mais plus la latence augmente.

Problème central

Le problème n'est pas seulement "avoir beaucoup de liens", mais avoir les bons liens pour ne pas se retrouver piégé dans une zone du graphe.

K-Graph : le problème des hubs

Chaque nœud est connecté à ses K plus proches voisins. Résultat : certains nœuds deviennent des hubs — très fortement connectés entre eux.

zone hub requête vrai NN (isolé) → recherche piégée dans les hubs
!
Plus de 50% des liens partent des hubs vers d'autres hubs
!
La recherche se retrouve piégée : optima locaux, le vrai voisin n'est jamais atteint
Chatodit
Article — Évolution vers HNSW

NSW puis HNSW : la règle d'élagage RNG

NSW — Connexions longue portée +
Insertion aléatoire séquentielle → crée des connexions longue distance qui brisent les clusters de hubs et améliorent la navigabilité globale.
Limite : le degré des nœuds peut devenir élevé → le coût de recherche augmente.
HNSW — Deux idées combinées Référence
① Randomisation héritée de NSW — connexions longue distance
② Règle d'élagage RNG — supprime les arêtes redondantes, libère des slots pour des connexions plus utiles
Utilisé dans
FAISS hnswlib Milvus pgvector

Effet de la règle RNG sur HNSW

Seulement ~30% des arêtes de K-Graph sont conservées — le reste est remplacé par des connexions longue distance
Chaque nœud garde à la fois des connexions locales (précision) et globales (navigation)
Déséquilibre de connectivité réduit de moitié — corrélation hub/connexion divisée par 3
Résultat : une structure qui évite les optima locaux tout en gardant un degré borné (2M max)
Intuition clé

La performance de HNSW ne vient pas de la hiérarchie elle-même, mais de la qualité de la structure du graphe et du mécanisme de navigation que la règle RNG produit.

Chatodit
Article — Résultats & Comparaison

Résultats mesurés et graphes vs arbres

Résultats sur SIFT1M

Pour atteindre un recall@50 = 0,95 :

K-Graph
423
hops
5 336
calculs de distance
HNSW₀ −75%
108
hops
1 890
calculs de distance
!
Résultat surprenant : HNSW₀ (couche basse seule, 111 hops) ≈ HNSW hiérarchique complet (108 hops) @ recall@1 = 99% — la hiérarchie est quasi-inutile en haute dimension
Le cœur de la performance vient de la structure du graphe, pas de la hiérarchie

Graphes vs Arbres

Critère Graphes Arbres
Performance en mémoireMeilleureCorrecte
Scalabilité / DistribuéLimitéeExcellente
Index sur disqueDifficileNaturel
Élagage garantiNonOui
Localité des donnéesNonOui
Conclusion du papier

Chaque famille répond à des contraintes différentes. Les combiner (ex. ELPIS) donne le meilleur des deux mondes.

Je laisse maintenant Valentin faire le lien entre ce papier et notre projet.
Valentin
Lien théorie — projet

Ce que bulletin23 apporte à notre benchmark

Base théorique pour HNSW

Le papier montre que les index graphiques sont particulièrement efficaces pour la recherche en mémoire, et que HNSW, grâce à sa navigabilité et à son élagage intelligent, obtient des performances de requête très élevées.

Cela justifie que HNSW soit notre "champion" de départ dans le benchmark
Cela justifie une étape spécifique de tuning HNSW avec les paramètres M et efSearch

Nos trois familles positionnées

HNSW — graphe navigable, meilleur recall en mémoire, coût mémoire plus élevé
IVF-PQ — partitionnement + quantification, compact en mémoire, recall légèrement inférieur
LSH — hachage probabiliste, simple et rapide à construire, point de comparaison baseline
Ce que le papier fournit concrètement

Une grille de lecture scientifique : quand nous observons nos résultats expérimentaux, nous savons mieux les interpréter. Si HNSW obtient un meilleur recall, ce n'est pas magique — c'est lié à la structure du graphe, à la navigabilité et à la règle RNG.

Valentin
Benchmark — Lecture des résultats

Meilleur selon quel critère ?

Notre projet ne cherche pas simplement à dire "HNSW est meilleur" ou "IVF-PQ est meilleur". Il cherche à répondre à une question plus utile :

HNSW

Meilleur recall et la meilleure performance de requête en mémoire. Idéal si la précision est prioritaire.

recall ↑↑
IVF-PQ

Très intéressant si on veut réduire fortement la mémoire. La quantification compresse les vecteurs au prix d'un léger recall.

mémoire ↓↓
LSH

Méthode historiquement simple, basée sur le hachage probabiliste. Apporte un autre point de comparaison baseline.

simplicité
Cohérence avec l'esprit de bulletin23

Cette logique de compromis est totalement cohérente avec bulletin23, qui insiste sur le fait que les familles d'index ne répondent pas aux mêmes contraintes. Il ne s'agit pas de dire qu'une famille écrase toutes les autres, mais de comprendre quand et pourquoi chacune est pertinente.

Valentin
Synthèse & Conclusion

Ce qu'il faut retenir — le papier et notre projet

01
bulletin23 nous a donné la base théorique pour comprendre pourquoi HNSW est si fort en recherche en mémoire — navigabilité, élagage RNG, structure du graphe.
02
Le papier fournit un cadre comparatif entre familles d'index — pas une simple description, mais une explication des mécanismes et des compromis.
03
Notre projet prolonge cette base théorique par une expérimentation concrète sur HNSW, IVF-PQ et LSH — le tri-duel complet que le papier n'effectue pas.
Perspective : bulletin24 reste utile en arrière-plan. Il montre que dans HNSW, une grande partie du coût vient du calcul des distances, et que des techniques de réduction de dimension peuvent accélérer la recherche quand la dimension devient très grande. Une ouverture naturelle pour de futurs travaux.

Résumé en une phrase

Le papier nous donne le « pourquoi » théorique — notre benchmark sur SIFT1M apporte le « comment mesurer » expérimental.

Merci pour votre attention.