Технічний контекст
Я заглибився в матеріали OpenAI та незалежну перевірку, і картина тут цікавіша, ніж звичайний переможний пресреліз. Факт такий: внутрішня reasoning-модель OpenAI знайшла контрприклад до гіпотези Ердеша про кількість одиничних відстаней на площині, а математики згодом незалежно підтвердили коректність результату.
Для мене це вже не іграшка і не черговий benchmark. Це той випадок, коли artificial intelligence implementation впирається не в чатик чи генерацію коду, а в реальне створення нової ідеї, яку потім можна формалізувати та перевірити вручну.
У PDF від OpenAI є головне, але немає найболючішого: вони не називають точну модель, не дають нормального розподілу по обчислювальним ресурсам і не пояснюють, наскільки процес відтворюваний. Формально це «internal general-purpose reasoning model». З інженерної точки зору цього замало, щоб зрозуміти, чи це стабільна здатність системи, чи разовий вдалий постріл.
При цьому я не поведуся на тезу «раз маркетинг, значить усе пусте». Незалежна робота на arXiv підтверджує, що це не фокус із презентації. Контрприклад справжній, теорема справжня, і в базі Ердеша задачу вже позначили як спростовану.
Але мій скепсис залишається на правильному місці. Якщо вхідну постановку задачі сильно підготували, якщо пошук ішов величезним перебором, якщо людина акуратно вела модель вузьким коридором, то наукова цінність для теорії LLM сильно змінюється. Результат у математиці від цього не зникає, а от висновки про можливості моделі стають значно менш гучними.
Що це змінює для бізнесу та автоматизації
Я б не робив із цього висновок «ШІ вже замінює дослідників». Натомість я бачу інше: reasoning-системи все краще працюють там, де потрібно перебирати гіпотези, відкидати глухі кути та збирати нетривіальні конструкції.
Це напряму б'є в AI automation для R&D, патентного пошуку, аналітики, проєктування та складних внутрішніх knowledge workflows. Не в сенсі повної автономії, а в сенсі різкого прискорення циклу «ідея → перевірка → уточнення».
Виграють команди, які вміють будувати нормальну AI architecture навколо перевірки, трасування кроків і human-in-the-loop. Програють ті, хто після такого кейсу просто прикрутить модель без контролю та назве це «дослідницьким агентом».
Якраз такі вузькі місця я й розбираю з клієнтами в Nahornyi AI Lab: де AI integration реально знімає години ручної роботи, а де без верифікації вийде дорога ілюзія. Якщо у вас є процес, де люди тонуть у гіпотезах, перевірках та пошуку рішень, можна спокійно подивитися на нього разом і зібрати AI solution development без магії та зайвого маркетингового диму.