Présentation M1 · Recherche

Index Graphes et Arbres pour la Recherche de Similarité en Haute Dimension

Analyse de l'article de référence et lien avec notre comparaison empirique HNSW / IVF-PQ / LSH.

Article · IEEE Data Eng. Bulletin 2023

Graph- and Tree-based Indexes for High-dimensional Vector Similarity Search

Z. Wang, P. Wang, T. Palpanas, W. Wang

10 minutes 3 orateurs SIFT1M · 1 M vecteurs HNSW · IVF-PQ · LSH

Plan

Sommaire

01

Introduction & Contexte

Contexte ANNS · Notre projet · Choix de l'article

01a

Contexte ANNS

Qu'est-ce que l'ANNS et pourquoi c'est critique ?

01b

Choix de l'article

bulletin23 vs bulletin24 — pourquoi bulletin23 ?

02

Analyse du Papier

Contenu de bulletin23 — graphes, hubs, HNSW, arbres

03

Lien Projet & Conclusion

Lien théorie ↔ projet · Interpréter le benchmark · Conclusion

Sedik

Contexte

Qu'est-ce que l'ANNS et pourquoi c'est critique ?

Retrouver rapidement les objets les plus similaires à une requête — images, documents, vecteurs — avec de légères approximations pour gagner en vitesse.

Recall@K = |A ∩ G| / K → cible > 95%

Une recherche exacte devient très coûteuse sur de gros volumes. C'est pourquoi on accepte une approximation contrôlée.

!

Coût de la distance euclidienne : O(D) — croît linéairement avec la dimensionnalité

▸

Applications : moteurs de recherche, recommandation, recherche d'images, systèmes RAG avec LLMs

Notre projet — Benchmark SIFT1M

▸

Dataset : SIFT1M — 1 million de vecteurs, 128 dimensions

▸

Trois approches : HNSW · IVF-PQ · LSH

▸

Critères : Recall@K · Latence · Mémoire · Temps de construction

Enjeu

Des millions de vecteurs, des centaines de dimensions, des millisecondes pour répondre. L'ANNS est le composant central de ces systèmes.

Sedik

Choix de l'article

Deux papiers étudiés — Pourquoi bulletin23 ?

bulletin23 — Retenu ✓

Graph- and Tree-based Indexes for High-dimensional Vector Similarity Search

Index basés sur des graphes et des arbres pour la recherche de similarité sur des vecteurs de haute dimension.

Familles d'index Comparatif

bulletin24 — Secondaire

Techniques de réduction de dimension pour les systèmes ANNS

Surtout centré sur l'optimisation interne du calcul de distance — pas un comparatif global entre paradigmes.

Spécialisé

Pourquoi bulletin23 correspond à notre projet

Notre projet ne cherche pas à optimiser un index existant : il cherche à comparer plusieurs familles — graphes (HNSW), quantification (IVF-PQ), hachage (LSH). Or bulletin23 adopte précisément cette logique de comparaison entre familles d'index, en expliquant leurs idées, leurs compromis et leurs limites. En plus, il accorde une place centrale à HNSW, qui est notre méthode graphique de référence.

Chatodit

Article — Vue d'ensemble

Objectif et méthode de bulletin23

Objectif du papier

Comprendre comment ont évolué les index graphiques et arborescents pour la recherche de similarité en haute dimension, comparer leurs propriétés, puis dégager les directions prometteuses.

▸

L'ANNS est devenu un composant essentiel : moteurs de recherche, recommandation, recherche d'images, systèmes LLMs

▸

Parmi les familles d'index, les graphes donnent les meilleures performances de requête en mémoire

▸

Les arbres gardent des avantages forts en scalabilité, construction et garanties de recherche

Méthode en 3 temps

① Évolution des structures graphiques

De K-Graph jusqu'à NSW, puis HNSW, et autres variantes. Retracer le fil historique et comprendre chaque amélioration.

② Ablation studies

Analyses détaillées pour comprendre pourquoi certaines améliorations fonctionnent. Ce papier n'est pas seulement descriptif : il explique les mécanismes.

③ Comparaison graphes vs arbres

Étude comparative entre les deux grandes familles sur plusieurs critères : vitesse, mémoire, scalabilité, disque.

Chatodit

Article — Index graphes

Navigabilité, paramètre ef, et le problème des hubs

Concept de navigabilité

Dans un index graphe, chaque vecteur est un nœud. La recherche consiste à avancer de proche en proche vers les voisins du vecteur requête — c'est la recherche gloutonne.

ef ↑ → recall ↑ mais latence ↑

Le paramètre ef contrôle le nombre de candidats explorés pendant la recherche : plus ef est élevé, plus on explore, plus le recall augmente — mais plus la latence augmente.

Problème central

Le problème n'est pas seulement "avoir beaucoup de liens", mais avoir les bons liens pour ne pas se retrouver piégé dans une zone du graphe.

K-Graph : le problème des hubs

Chaque nœud est connecté à ses K plus proches voisins. Résultat : certains nœuds deviennent des hubs — très fortement connectés entre eux.

!

Plus de 50% des liens partent des hubs vers d'autres hubs

!

La recherche se retrouve piégée : optima locaux, le vrai voisin n'est jamais atteint

Chatodit

Article — Évolution vers HNSW

NSW puis HNSW : la règle d'élagage RNG

NSW — Connexions longue portée +

Insertion aléatoire séquentielle → crée des connexions longue distance qui brisent les clusters de hubs et améliorent la navigabilité globale.
Limite : le degré des nœuds peut devenir élevé → le coût de recherche augmente.

HNSW — Deux idées combinées Référence

① Randomisation héritée de NSW — connexions longue distance
② Règle d'élagage RNG — supprime les arêtes redondantes, libère des slots pour des connexions plus utiles

Utilisé dans

FAISS hnswlib Milvus pgvector

Effet de la règle RNG sur HNSW

▸

Seulement ~30% des arêtes de K-Graph sont conservées — le reste est remplacé par des connexions longue distance

▸

Chaque nœud garde à la fois des connexions locales (précision) et globales (navigation)

▸

Déséquilibre de connectivité réduit de moitié — corrélation hub/connexion divisée par 3

✓

Résultat : une structure qui évite les optima locaux tout en gardant un degré borné (2M max)

Intuition clé

La performance de HNSW ne vient pas de la hiérarchie elle-même, mais de la qualité de la structure du graphe et du mécanisme de navigation que la règle RNG produit.

Chatodit

Article — Résultats & Comparaison

Résultats mesurés et graphes vs arbres

Résultats sur SIFT1M

Pour atteindre un recall@50 = 0,95 :

K-Graph

423

hops

5 336

calculs de distance

HNSW₀ −75%

108

hops

1 890

calculs de distance

!

Résultat surprenant : HNSW₀ (couche basse seule, 111 hops) ≈ HNSW hiérarchique complet (108 hops) @ recall@1 = 99% — la hiérarchie est quasi-inutile en haute dimension

▸

Le cœur de la performance vient de la structure du graphe, pas de la hiérarchie

Graphes vs Arbres

Critère	Graphes	Arbres
Performance en mémoire	Meilleure	Correcte
Scalabilité / Distribué	Limitée	Excellente
Index sur disque	Difficile	Naturel
Élagage garanti	Non	Oui
Localité des données	Non	Oui

Conclusion du papier

Chaque famille répond à des contraintes différentes. Les combiner (ex. ELPIS) donne le meilleur des deux mondes.

Je laisse maintenant Valentin faire le lien entre ce papier et notre projet.

Valentin

Lien théorie — projet

Ce que bulletin23 apporte à notre benchmark

Base théorique pour HNSW

Le papier montre que les index graphiques sont particulièrement efficaces pour la recherche en mémoire, et que HNSW, grâce à sa navigabilité et à son élagage intelligent, obtient des performances de requête très élevées.

▸

Cela justifie que HNSW soit notre "champion" de départ dans le benchmark

▸

Cela justifie une étape spécifique de tuning HNSW avec les paramètres M et efSearch

Nos trois familles positionnées

HNSW — graphe navigable, meilleur recall en mémoire, coût mémoire plus élevé

IVF-PQ — partitionnement + quantification, compact en mémoire, recall légèrement inférieur

LSH — hachage probabiliste, simple et rapide à construire, point de comparaison baseline

Ce que le papier fournit concrètement

Une grille de lecture scientifique : quand nous observons nos résultats expérimentaux, nous savons mieux les interpréter. Si HNSW obtient un meilleur recall, ce n'est pas magique — c'est lié à la structure du graphe, à la navigabilité et à la règle RNG.

Valentin

Benchmark — Lecture des résultats

Meilleur selon quel critère ?

Notre projet ne cherche pas simplement à dire "HNSW est meilleur" ou "IVF-PQ est meilleur". Il cherche à répondre à une question plus utile :

HNSW

Meilleur recall et la meilleure performance de requête en mémoire. Idéal si la précision est prioritaire.

recall ↑↑

IVF-PQ

Très intéressant si on veut réduire fortement la mémoire. La quantification compresse les vecteurs au prix d'un léger recall.

mémoire ↓↓

LSH

Méthode historiquement simple, basée sur le hachage probabiliste. Apporte un autre point de comparaison baseline.

simplicité

Cohérence avec l'esprit de bulletin23

Cette logique de compromis est totalement cohérente avec bulletin23, qui insiste sur le fait que les familles d'index ne répondent pas aux mêmes contraintes. Il ne s'agit pas de dire qu'une famille écrase toutes les autres, mais de comprendre quand et pourquoi chacune est pertinente.

Valentin

Synthèse & Conclusion

Ce qu'il faut retenir — le papier et notre projet

01

bulletin23 nous a donné la base théorique pour comprendre pourquoi HNSW est si fort en recherche en mémoire — navigabilité, élagage RNG, structure du graphe.

02

Le papier fournit un cadre comparatif entre familles d'index — pas une simple description, mais une explication des mécanismes et des compromis.

03

Notre projet prolonge cette base théorique par une expérimentation concrète sur HNSW, IVF-PQ et LSH — le tri-duel complet que le papier n'effectue pas.

Perspective : bulletin24 reste utile en arrière-plan. Il montre que dans HNSW, une grande partie du coût vient du calcul des distances, et que des techniques de réduction de dimension peuvent accélérer la recherche quand la dimension devient très grande. Une ouverture naturelle pour de futurs travaux.

Résumé en une phrase

Le papier nous donne le « pourquoi » théorique — notre benchmark sur SIFT1M apporte le « comment mesurer » expérimental.

Merci pour votre attention.