Що Meta виявила в DINOv3
Я заглибився в саму роботу Meta, бо формулювання про «прогнозує активацію нейронів точніше, ніж fMRI» звучить занадто гучно. По факту картина акуратніша й цікавіша: дослідники не замінили fMRI, а порівняли внутрішні представлення DINOv3 з реакціями мозку на природні зображення за даними MEG та fMRI через Pearson Brain-Score.
Вони крутили три параметри: розмір моделі, тривалість навчання та тип зображень. Розміри йшли від small до giant, навчання тривало від нуля до 10 мільйонів кроків, а дані були різного характеру: human-centric, супутникові та біологічні. І ось тут починається найцікавіше: кожен із цих параметрів окремо впливає на «brain-like» представлення, але разом ефект ще сильніший.
Більша модель, довше навчання, ближчі дані до людського візуального досвіду — вища схожість із мозковими реакціями. Не дуже романтично, зате дуже по-інженерному. Масштаб знову виявився не прикрасою для слайда, а робочим фактором.
Мене особливо зачепив часовий малюнок навчання. Автори показують, що в міру тренування модель спочатку стає схожою на ранні сенсорні зони, а потім, лише після довгого доопрацювання, підтягується до пізніших і навіть префронтальних областей. Я таке люблю: не просто фінальний score, а натяк на траєкторію формування представлень.
Ще один важливий момент: найкращий результат дали human-centric зображення. Це логічно, але корисно як факт. Якщо модель вчиться на світі, схожому на той, який бачить людина, її внутрішні ознаки сильніше зближуються з тим, як зорова система реально кодує картинку.
Чому це важливо не лише для нейробіологів
Якщо дивитися очима людини, яка будує AI-архітектуру, історія тут не про красивий науковий експеримент. Я бачу більш практичний сигнал: self-supervised vision-моделі стають не просто сильнішими за CV-бенчмарками, а організовують ознаки у спосіб, який подекуди ближчий до людського сприйняття. Для розробки ШІ-рішень це означає стійкішу базу під retrieval, video understanding, multimodal пайплайни та робастних visual agents.
Простіше кажучи, хороші представлення вирішують половину проблем ще до task-specific fine-tuning. Коли я проєктую інтеграцію ШІ для продуктів, мені важливіший не «рекорд у таблиці», а наскільки фундамент моделі переноситься між задачами без цирку з донавчанням. Такі роботи дають аргументи на користь великих self-supervised backbone там, де раніше брали щось простіше заради економії.
Але я б не робив із цього міф про «модель думає як людина». Схожість за brain-score не означає людське розуміння сцени. Це скоріше інженерний маркер якості представлень: модель починає кодувати візуальний світ більш структурно і, можливо, більш універсально.
Хто виграє? Команди, які будують ШІ-рішення для бізнесу навколо зображень, відео, документів з візуальною структурою та мультимодальних інтерфейсів. Хто програє? Ті, хто досі обирає vision-стек за принципом «аби дешевший інференс», не враховуючи ціну помилок, крихкості та нескінченних милиць після релізу.
У мене до таких новин завжди одне практичне питання: чи можна це перетворити на робочу автоматизацію за допомогою ШІ, а не на красиву PDF-ку. У Nahornyi AI Lab ми зазвичай впираємося саме в цей шар: не просто взяти модель, а зібрати навколо неї нормальну архітектуру ШІ-рішень, де є маршрутизація, валідація, fallback-логіка та зрозуміла вартість володіння.
І так, це ще один поштовх у бік якісних даних. Дослідження Meta досить прямо показує: тип навчальних зображень змінює результат не менше, ніж розмір моделі. Тож впровадження штучного інтелекту, як і раніше, залежить не тільки від вибору open weights чи API, а й від того, наскільки ваш домен взагалі схожий на світ, в якому модель навчилася «бачити».
Цей розбір зробив я, Вадим Нагорний, з Nahornyi AI Lab. Я руками збираю ШІ-автоматизацію, тестую моделі в проді й дивлюся на такі дослідження не як на новину дня, а як на матеріал для реальних систем. Якщо хочете приміряти це на ваш кейс, пишіть мені, і давайте разом розберемо, де у вас спрацює сильна vision-модель, а де краще не переплачувати за модний стек.