Uber refroidit l'engouement autour des dépenses en LLM

Le directeur des opérations d'Uber a publiquement déclaré une évidence : l'augmentation des dépenses en tokens pour les grands modèles de langage devient difficile à justifier sans rendements directs. C'est un signal crucial pour l'implémentation de l'IA. L'ère des expérimentations illimitées s'achève, laissant place à la priorité des résultats tangibles et mesurables.

Contexte Technique

Je n'ai pas été interpellé par le titre lui-même, mais par la formulation. Le COO d'Uber, Andrew Macdonald, a essentiellement déclaré : nous dépensons plus de tokens, mais aucune augmentation claire de la valeur du produit n'est visible. Pour moi, c'est un tableau très familier tiré de projets réels d'automatisation de l'IA, où l'équipe multiplie facilement les appels aux modèles, alors que le lien avec les métriques commerciales s'estompe rapidement.

La source principale ici est une interview résumée par Business Insider. Un épisode révélateur y a fait surface : en interne chez Uber, ils ont discuté du fait que le budget de Claude Code pour 2026 était déjà épuisé. C'est le moment précis où les gens ont cessé de voir les LLM comme une magie presque gratuite. À juste titre, car si un prompt coûte quelques centimes à un employé individuel, pour une entreprise dans son ensemble, cela devient une décision architecturale avec une facture bien réelle.

Ce qui me frappe le plus ici, ce n'est pas le montant en soi, mais l'absence de lien direct entre la dépense et le résultat. Si je ne peux pas prouver que plus de tokens ont permis des lancements nettement plus rapides, une meilleure qualité de support ou plus d'opérations automatisées, alors je n'ai pas d'intégration IA : j'ai une habitude coûteuse.

Et oui, la nouvelle est récente, mai 2026, ce n'est donc pas une rétrospective. C'est le nouveau ton du marché : d'abord le compteur de tokens, ensuite les belles démos.

Impact sur les Entreprises et l'Automatisation

Je vois trois conclusions pratiques ici. Premièrement : les entreprises ne réduiront pas l'IA elle-même, mais la consommation non systématique de modèles sans routage, cache, limites et évaluation de l'endroit où un LLM coûteux est vraiment nécessaire et où une combinaison plus simple suffirait.

Deuxièmement : les gagnants seront les équipes qui calculent l'économie unitaire au niveau du scénario. Non pas "nous avons implémenté l'IA", mais "cet agent a réduit le temps de résolution des tickets de 42 % et s'amortit en un trimestre". C'est exactement à cela que ressemble le développement d'une solution IA appropriée, et non au simple achat d'un accès à un énième modèle.

Les perdants seront ceux qui ont construit des processus internes sur un copilote incontrôlé sans penser à l'architecture de l'IA. Je le constate régulièrement : dès que de vraies limites sont fixées, la moitié des chaînes se révèlent soudainement superflues.

Si vous êtes dans une situation similaire et que les coûts des modèles concurrencent déjà ceux des embauches, analysons cela avec maturité. Chez Nahornyi AI Lab, nous ne commençons généralement pas par un nouveau modèle, mais par une cartographie des processus. Ensuite, nous pouvons concevoir une automatisation IA afin que l'entreprise paie pour les résultats, et non pour la simple combustion spectaculaire de tokens.

Nous avons précédemment exploré des moyens techniques de réduire radicalement la consommation de tokens, comme transmettre une syntaxe Markdown allégée aux agents IA au lieu d'un HTML lourd. Ces optimisations architecturales deviennent vitales aujourd'hui, alors que les grandes entreprises doutent de la rentabilité des modèles génératifs.

Partager cet article

Twitter/X LinkedIn Telegram

Uber refroidit l'engouement autour des dépenses en LLM

Contexte Technique

Impact sur les Entreprises et l'Automatisation

Plus d'actualités

Gemma 4 devient nettement plus pratique sur l'edge

364M paramètres et une nouvelle chance pour l'IA sur appareil