Le contexte technique
Je ne me suis pas plongé dans cet article par simple curiosité. Quand je réalise des intégrations d'IA ou que je conçois une recherche sur une base de données vectorielle, les embeddings sont généralement considérés comme une forme de données « moins dangereuse ». Après vec2vec, je ne serais plus aussi serein.
La conclusion de l'étude est dérangeante dans le bon sens du terme pour un ingénieur : les auteurs ont montré que les vecteurs d'un modèle d'embedding peuvent être traduits dans l'espace d'un autre modèle sans aucun exemple apparié, sans accès à l'encodeur d'origine et sans les textes originaux. Ils se basent sur l'idée d'une géométrie des représentations partagée, et il semble que ce ne soit pas de la philosophie, mais bien une attaque viable.
Je le décrirais ainsi : votre base de données vectorielle, ne contenant que des embeddings, a fuité. Auparavant, beaucoup cochaient mentalement la case « bon, ce n'est pas du texte brut ». Mais ici, on prend ces vecteurs, on entraîne une correspondance vers l'espace d'un autre modèle, déjà accessible, puis on utilise ce second modèle pour l'inférence ou la récupération partielle du contenu.
L'article présente une méthode appelée vec2vec. Elle construit un espace latent universel et apprend à y traduire les embeddings d'un modèle inconnu, puis à les ramener dans l'espace d'un modèle connu. Le point clé est que du texte synthétique et un accès par requête au modèle cible suffisent pour le calibrage.
Ce qui m'a particulièrement frappé, ce n'est pas que la similarité cosinus après le transfert soit décente. C'est que cette qualité est déjà suffisante pour une attaque pratique : l'inférence d'attributs, la reconstruction thématique, l'extraction de caractéristiques sensibles à partir de données médicales et d'e-mails. Donc, les documents eux-mêmes n'ont pas fuité, mais les conséquences sont très proches d'une fuite de leur signification.
Et oui, ce n'est pas une nouvelle du jour. Le préprint est paru en mai 2025, la dernière version a été mise à jour en janvier 2026. Mais c'est maintenant qu'il faut le lire comme une référence de sécurité standard, et non comme une belle curiosité de recherche.
Qu'est-ce que cela change pour les entreprises et l'automatisation ?
Premièrement : à mon avis, stocker des embeddings comme s'il s'agissait de données anonymisées n'est plus une option. Si votre automatisation par IA repose sur le RAG, la recherche sémantique, le routage de support ou l'analyse d'e-mails, la base de données vectorielle devient un objet de protection aussi sérieux que les textes sources.
Deuxièmement : l'architecture naïve du « cachons le modèle original, et ça suffira » est brisée. Ça ne suffira pas. Si la géométrie des représentations est transférable, la sécurité par l'obscurité est ici une faible défense.
Troisièmement : il faudra choisir entre la qualité de la recherche et la protection. Bruit, distorsion de la géométrie, segmentation de l'accès, chiffrement, politiques de rétention plus strictes. Tout cela a un impact sur la latence, la pertinence ou le coût, mais ignorer le risque est désormais étrange.
Chez Nahornyi AI Lab, nous analysons justement ces points en pratique : là où une architecture de solutions d'IA semble belle sur le papier, mais finit par fuir à travers les embeddings. Si votre entreprise utilise déjà la recherche vectorielle ou des pipelines d'agents, examinons sobrement votre architecture et construisons une automatisation IA qui accélère les processus au lieu de créer une fuite de données silencieuse.