Le Contexte Technique
Je me suis plongé dans l'étude de Stanford après avoir lu une fois de plus que « le RAG fonctionne jusqu'à 10 000 vecteurs, mais devient inutile après un million ». J'ai tout de suite freiné : l'étude ne mentionne aucun seuil empirique de ce type.
Le document que tout le monde cite est Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Il examine des outils de RAG juridique comme Westlaw et LexisNexis, les compare à GPT-4 sur des tâches juridiques et analyse la fréquence à laquelle ces systèmes inventent des faits, citent de mauvaises sources ou déforment des conclusions.
Les résultats sont décevants mais utiles : le retrieval réduit le nombre d'hallucinations par rapport à un modèle de base, mais ne les élimine pas. Selon l'outil, les taux d'erreur restent significatifs, allant de 17 % à 33 %.
Cependant, je n'ai trouvé aucune mention d'une « limite de 10k vecteurs » ou d'un « seuil de bruit à 1M » dans cet article. Il n'y a ni graphiques sur la taille de l'index, ni benchmarks de precision@k sur de grandes collections, ni analyse de la dégradation du retrieval avec la croissance du corpus. En tant qu'ingénieur, je ne citerais pas cela comme un fait avéré.
Mais l'idée n'est pas sortie de nulle part. En production, j'ai vu à maintes reprises comment une recherche vectorielle mal conçue commence à ramener des résultats semi-pertinents : des embeddings faibles, un chunking incorrect, des filtres de métadonnées défectueux ou un top-k trop généreux. Les gens blâment ensuite le modèle, alors que le vrai problème réside dans l'architecture de l'IA et la couche de retrieval.
En bref, Stanford n'a pas démontré une limite de 10k vecteurs, mais quelque chose de plus pragmatique. Même un système RAG juridique coûteux ne vous dispense pas de vérifier les réponses et de supposer que le problème de la fiabilité est résolu.
Qu'est-ce que Cela Change pour les Entreprises et l'Automatisation ?
Pour les équipes qui développent l'automatisation par l'IA sur des documents, la conclusion est simple : l'approche « ajoutons le RAG et tout sera fiable » ne fonctionne pas. C'est particulièrement vrai dans les domaines juridique, de la conformité, des politiques et des bases de connaissances internes.
Les gagnants sont ceux qui conçoivent le retrieval comme un système complet : recherche hybride, filtrage strict, reranking, limitation du contexte et traçage des sources. Les perdants sont ceux qui se contentent de jeter des millions de fragments dans une base de données vectorielle en espérant un miracle.
Chez Nahornyi AI Lab, nous nous spécialisons dans la résolution de ces goulots d'étranglement. Nous déterminons où le RAG est approprié, où un graphe de connaissances est meilleur, ou où une autre couche d'intégration d'IA est plus économique et fiable que de multiplier les vecteurs à l'infini. Si votre recherche de documents génère du bruit ou des réponses peu fiables, examinons votre architecture et construisons une solution d'IA robuste sans hypothèses fragiles.