Contexte technique
Je me suis penché sur une question très pratique : peut-on créer un assistant MJ local avec Gemma 4 qui génère des quêtes, se souvient d'une longue session et ne nécessite pas le cloud ? Pour ce type d'implémentation IA, ma réponse est simple : oui, mais pas en forçant tout l'historique dans le contexte.
D'après ce que je vois dans les benchmarks et les discussions, Gemma 4 26B-A4B et 31B fonctionnent déjà dans llama.cpp sur des RTX 3050/3060, surtout avec la quantification. Mais il n'y a pas de magie : même si le MoE n'active qu'environ 4 milliards de paramètres par jeton, le modèle reste lourd en mémoire, et un long contexte commence à étouffer le matériel.
Sur une 3060 avec 12 Go, j'opterais pour une version 26B-A4B fortement compressée ou même des modèles plus petits comme E2B/E4B pour un scénario local stable. Sur une 3050 avec 8 Go, il faudra gérer les attentes avec soin : la vitesse chute, une partie de la charge est transférée vers la RAM, et les longues requêtes provoquent les gels dont se plaignent les utilisateurs.
C'est là que l'idée populaire de "donnons-lui simplement un contexte de 128K ou 256K" ne tient pas pour moi. Sur le papier, c'est génial. Dans une vraie session de D&D ou tout jeu de longue durée, le modèle commence soit à oublier des détails importants, soit à gaspiller trop de calculs à retraiter tout l'historique.
J'implémenterais la mémoire plus simplement. Pas une recherche agentique complète pour chaque petite chose, mais une structure externe adaptée au cas d'utilisation : fichiers Markdown, SQLite, un journal d'événements en ajout seul, ainsi que de brefs résumés après chaque session. Je ne fournirais pas au modèle le monde entier, mais 5 à 15 faits clés sur les personnages, l'arc narratif en cours, les quêtes actives et les derniers changements d'état.
Si une recherche est nécessaire, un index FAISS ou HNSW local sur les notes résout déjà la moitié du problème. Pour un mode vraiment économique, on peut même se passer du RAG classique en utilisant des règles d'injection : qui est important, qu'est-ce qui a changé, et quels points de l'intrigue ne doivent pas être brisés.
Ce que cela signifie pour les entreprises et l'automatisation
Ma principale conclusion est la suivante : la recherche agentique est plus intelligente, mais elle n'est pas toujours justifiée sur du matériel peu puissant. Pour les produits locaux et l'automatisation par IA sur des PC à petit budget, une architecture de mémoire plus simple mais plus prévisible l'emporte souvent.
Les gagnants sont ceux qui conçoivent un assistant pour la tâche, et non pour le battage médiatique autour du long contexte. Les perdants sont les équipes qui tentent de remplacer l'architecture par une seule grande fenêtre de jetons.
Je construis régulièrement ce genre de compromis pour mes clients également : déterminer où la mémoire structurée est suffisante, où le RAG est nécessaire, et où il est vraiment temps de construire une intégration IA avec des agents et des outils. Si vous avez une histoire similaire, et que votre assistant local doit fonctionner rapidement, être stable et sans dépendance au cloud, décomposons votre scénario chez Nahornyi AI Lab et construisons une solution IA sans calcul excessif ni complexité décorative.