Skip to main content
AMDRyzen AI Max 400локальные LLM

AMD équipe une APU de 192 Go de mémoire pour les grands LLM

AMD a annoncé le Ryzen AI Max 400 avec 192 Go de mémoire unifiée, dont jusqu’à 160 Go peuvent être alloués comme VRAM. Pour les entreprises, c’est intéressant comme base pour l’intégration IA et l’exécution locale de grands modèles sans GPU dédié, bien que la vitesse réelle nécessite encore des tests indépendants.

Contexte technique

Ce qui m’a tout de suite interpellé, ce ne sont pas les fréquences, mais la mémoire : AMD a présenté le Ryzen AI Max 400, avec jusqu’à 192 Go de mémoire unifiée. Pour ceux qui mettent en place de l’AI automation localement sans vouloir trimballer un GPU séparé, c’est une approche vraiment atypique.

Les faits bruts : Zen 5, RDNA 3.5, NPU XDNA 2, LPDDR5x-8533 sur un bus 256 bits. Le fer de lance Ryzen AI Max+ PRO 495 revendique un boost jusqu’à 5,2 GHz, 40 unités de calcul GPU et jusqu’à 160 Go de mémoire utilisable comme VRAM.

C’est là que j’ai marqué une pause. D’ordinaire, avec une APU, on se heurte vite à une limite non pas de chargement, mais de capacité de poids, de cache KV et de contexte. Ici, AMD positionne cette plateforme comme une station de travail IA compacte pour le développement local, et parle même de modèles de plus de 300 milliards de paramètres.

Mais je n’achèterais pas tout le discours marketing. « Exécuter » ne veut pas dire « exécuter vite » : tout dépendra de la quantification, de la longueur de contexte, des logiciels, des pilotes et de la mémoire consommée par le système. De plus, la version 192 Go, d’après les documents actuels d’AMD, est toujours marquée « coming soon » et n’est pas encore livrée en volume.

Autre nuance importante : ce n’est pas une révolution en puissance brute. Les premières données montrent une hausse modérée des fréquences par rapport à la précédente gamme Halo, la principale amélioration étant la capacité mémoire. L’histoire n’est donc pas celle d’un « nouveau tueur de GPU », mais d’une AI architecture très singulière pour les tâches où la capacité à faire tenir le modèle prime sur les FPS maximaux.

Ce que cela change pour l’entreprise et l’automatisation

J’y vois trois scénarios pratiques. Premier : des LLM d’entreprise sur site, là où les données ne peuvent pas sortir vers le cloud. Deuxième : des stations compactes pour le RAG, l’analyse de documents et les assistants internes, sans carte graphique dédiée coûteuse. Troisième : une machine de développement pour les équipes qui testent de grands modèles proches de la production.

Les gagnants sont ceux qui ont besoin d’un vaste pool mémoire, de confidentialité et d’un coût total de possession prévisible. Les perdants sont ceux qui attendent des performances miraculeuses au niveau des GPU serveur complets : je ne les vois pas encore.

Si votre projet bute justement sur la mémoire, la confidentialité ou le coût de l’inférence locale, il est temps de repenser la pile. Chez Nahornyi AI Lab, nous nous attaquons à ces problèmes concrètement : nous pouvons examiner votre configuration actuelle, choisir un AI solution development adapté aux charges réelles et mettre en œuvre le déploiement sans fétichisme matériel.

Nous avons précédemment examiné Rust LocalGPT — un assistant IA local léger avec mémoire persistante et API HTTP, fonctionnant en un seul binaire. Il illustre parfaitement le type de capacités IA locales qui deviennent réalité avec un matériel puissant comme l’AMD Ryzen AI Max 400.

Partager cet article