Технический контекст
Я покопался в материалах OpenAI и в независимой проверке, и картина тут интереснее, чем обычный победный пресс-релиз. Факт такой: внутренняя reasoning-модель OpenAI нашла контрпример к гипотезе Эрдёша о числе единичных расстояний на плоскости, а математики потом независимо подтвердили корректность результата.
Для меня это уже не игрушка и не очередной benchmark. Это тот случай, когда artificial intelligence implementation упирается не в чатик и не в генерацию кода, а в реальное производство новой идеи, которую потом можно формализовать и проверить руками.
В PDF OpenAI есть главное, но нет самого больного: они не называют точную модель, не дают нормальной разбивки по compute и не объясняют, насколько процесс воспроизводим. Формально это «internal general-purpose reasoning model». С инженерной точки зрения этого мало, чтобы понять, это стабильная способность системы или разовый удачный выстрел.
При этом я не куплюсь на тезис «раз маркетинг, значит всё пустое». Независимая работа на arXiv подтверждает, что это не фокус с презентации. Контрпример настоящий, теорема настоящая, и в базе Эрдёша задачу уже пометили как опровергнутую.
Но скепсис у меня остаётся в правильном месте. Если входная постановка была сильно подготовлена, если поиск шёл огромным перебором, если человек аккуратно вёл модель по узкому коридору, то научная ценность для теории LLM сильно меняется. Результат в математике от этого не исчезает, а вот выводы о возможностях модели становятся куда менее громкими.
Что это меняет для бизнеса и автоматизации
Я бы не делал из этого вывод «ИИ уже заменяет исследователей». Зато я вижу другое: reasoning-системы всё лучше работают там, где нужно перебирать гипотезы, отбрасывать тупики и собирать нетривиальные конструкции.
Это напрямую бьёт в AI automation для R&D, патентного поиска, аналитики, проектирования и сложных внутренних knowledge workflows. Не в смысле полной автономии, а в смысле резкого ускорения цикла «идея → проверка → уточнение».
Выиграют команды, которые умеют строить нормальную AI architecture вокруг проверки, трассировки шагов и human-in-the-loop. Проиграют те, кто после такого кейса просто прикрутит модель без контроля и назовёт это «исследовательским агентом».
Я как раз такие узкие места и разбираю с клиентами в Nahornyi AI Lab: где AI integration реально снимает часы ручной работы, а где без верификации получится дорогая иллюзия. Если у вас есть процесс, где люди тонут в гипотезах, проверках и поиске решений, можно спокойно посмотреть на него вместе и собрать AI solution development без магии и без лишнего маркетингового дыма.