Skip to main content
DeepSeekлокальный инференсAI automation

DeepSeek sur ordinateur portable : Un SSD à la place d'une tonne de RAM

Un nouveau scénario permet d'exécuter de grands modèles MoE comme DeepSeek en local grâce au streaming d'experts depuis un SSD avec un minimum de RAM. Pour les entreprises, cela permet de déployer des agents IA locaux sur du matériel abordable, sans recourir à de coûteux serveurs GPU cloud.

Contexte technique

J'adore ce genre de nouvelles, non pas pour l'effet d'annonce, mais parce qu'elles changent les règles du jeu. Si l'on peut faire tourner un modèle MoE de niveau 1.5T localement via le streaming SSD, la discussion sur l'implémentation de l'IA passe radicalement de « il nous faut un serveur au coût astronomique » à « il nous faut une architecture de pipeline solide ».

Le principe est simple : dans un modèle MoE (Mixture of Experts), tous les paramètres ne s'activent pas à chaque token, seuls les experts sélectionnés travaillent. Cela signifie que je n'ai pas besoin de garder tout le poids du modèle en mémoire RAM. Je peux stocker les experts sur un SSD, charger les morceaux nécessaires à la volée pendant l'inférence et fonctionner avec seulement 6 à 7 Go de mémoire occupée au lieu de quantités absurdes de RAM.

Au fil des discussions, une stack très pratique a émergé : Apple Silicon, quantification 4 bits, un moteur comme flash-moe et un modèle de la classe Qwen3.5-397B-A17B comme exemple proche. Il ne s'agit pas de prouver que « DeepSeek 4 Pro tourne comme un charme sur un MacBook », mais de démontrer le principe même : la capacité mémoire n'est plus le principal point de blocage, le goulot d'étranglement s'est déplacé vers la bande passante et la latence du SSD.

Cependant, c'est ici qu'il convient de modérer les attentes. Pour un chat interactif, l'expérience reste un compromis : la génération de tokens sera irrégulière et un SSD rapide sera plus crucial que des gigaoctets de RAM supplémentaires. Mais pour des tâches non interactives, la donne change. Traiter un lot de documents une fois par jour, mettre à jour une classification pendant la nuit ou maintenir un agent local en arrière-plan 24/7, cela n'a plus rien d'une plaisanterie d'ingénieur.

J'ai particulièrement aimé l'idée d'utiliser un Mac mini bon marché ou même un appareil très modeste doté d'un grand SSD. Oui, c'est lent. Mais si la tâche ne requiert pas de dialogue en temps réel, le modèle peut tranquillement travailler pendant des jours sans hébergement GPU coûteux.

Impact sur le business et l'automatisation

Pour les entreprises, je vois trois effets directs. Premièrement, une partie de l'automatisation IA peut être rapatriée en local, là où la confidentialité et la prévisibilité des coûts sont critiques. Deuxièmement, la barrière à l'entrée pour les projets pilotes s'abaisse, car on peut tester des hypothèses sans louer d'infrastructure lourde. Troisièmement, l'architecture d'intégration de l'IA change : je peux concevoir des agents d'arrière-plan optimisés pour une exécution axée d'abord sur le SSD, plutôt que de chercher à maximiser la VRAM.

Qui y gagne ? Les équipes ayant des tâches par lots, de l'analyse interne, des pipelines de documents et des données sensibles. Qui y perd ? Ceux qui ont besoin d'une interface conversationnelle rapide ici et maintenant : pour cela, impossible pour l'instant de se passer d'un matériel puissant ou du cloud.

Je ne présenterais pas cela comme un remplacement de l'inférence sur serveur. Je le présenterais comme une nouvelle classe de systèmes locaux où le coût, la confidentialité et l'autonomie priment sur la vitesse. Chez Nahornyi AI Lab, nous concevons précisément ce type de solutions pour nos clients : si vous avez un projet d'automatisation IA locale ou besoin d'un agent IA personnalisé, laissez-moi analyser votre processus pour vous dire honnêtement où le streaming SSD sera source d'économies et où il ne vous apportera que des difficultés.

Auparavant, nous avions analysé en détail les nuances techniques et les mythes entourant le déploiement de réseaux de neurones sur Raspberry Pi à l'aide du projet Codex. Cette analyse complète parfaitement le sujet des limites matérielles des micro-ordinateurs et montre comment une architecture bien pensée distingue les solutions opérationnelles des simples démos.

Partager cet article