Contexte technique
Je me suis plongé dans le PDF juste après le bruit dans les chats, car le sujet est familier : dès qu'un modèle commence à « penser » nettement moins, toute cette belle automatisation de l'IA se heurte rapidement à la qualité des solutions. Et GeneBench-Pro a tapé en plein dans le mille.
OpenAI a lancé le benchmark le 30 juin 2026. Ce n'est pas un jouet pour les connaissances générales ni un test de données biologiques mémorisées, mais un ensemble de 129 tâches en génomique, biologie quantitative et médecine translationnelle. Les données sont désordonnées, avec des biais, du bruit et des pièges, comme dans un vrai travail de recherche, pas dans un jeu de données de démonstration.
Ce que j'ai vraiment apprécié : le benchmark mesure non seulement la réponse finale, mais aussi le goût de la recherche. C'est-à-dire, le modèle peut-il comprendre quelles questions on peut poser aux données, où se trouve un artefact, où une erreur de séquençage, quand changer de plan et quand s'arrêter honnêtement.
Les chiffres donnent un tableau sévère. GPT-5.6 Sol Pro a obtenu 31,5 %, le GPT-5.6 Sol standard 28,7 %, Claude Opus 4.8 a eu 16,0 % et Gemini 3.5 Flash 8,1 %. Les experts humains ont estimé qu'une tâche typique prenait 20 à 40 heures de travail, il ne s'agit donc pas d'un cas où l'on peut regarder le classement et prétendre que l'IA a « résolu » la science.
Venons-en maintenant au point le plus controversé. Dans les discussions, les gens se plaignent que les modes Pro semblent désormais penser pendant seulement 1 à 2 minutes au lieu des longues exécutions d'antan. Mais dans GeneBench-Pro, je ne vois aucune confirmation de la thèse « moins de temps, mais aussi bien ». Plutôt le contraire : le matériel officiel laisse entendre que plus de temps de raisonnement donne de meilleurs résultats.
Impact sur les entreprises et l'automatisation
Pour moi, la conclusion est simple : si vous développez une intégration de l'IA dans des domaines complexes, vous ne pouvez pas optimiser le système uniquement en fonction de la latence. Dans les tâches où les données sont ambiguës et où le coût d'une erreur est élevé, une réponse rapide peut être tout simplement une hallucination coûteuse.
Les gagnants seront les équipes qui séparent les modes. Gardez les modèles rapides pour le tri, la recherche et la routine, et activez le raisonnement long de manière ciblée : pour les escalades, l'analyse, la R&D et les décisions critiques.
Les perdants sont ceux qui achètent le « modèle le plus intelligent », puis l'étouffent avec des délais d'attente, des limites et une mise en cache agressive. Je le vois régulièrement dans les projets : l'architecture tue le modèle avant qu'il n'ait eu le temps de montrer sa force.
Si vous avez un problème similaire et que le développement de solutions d'IA patine entre vitesse, coût et qualité, étudions votre configuration. Chez Nahornyi AI Lab, nous construisons justement une automatisation de l'IA sans la magie des présentations : nous regardons où une réponse instantanée est nécessaire et où il est plus rentable pour l'entreprise de laisser le modèle réfléchir et de soulager l'équipe d'une charge réelle.