Технічний контекст
Я сам зазирнув у Space на Hugging Face, і суть не в гарній демонстрації — важливо те, що Gemma 4 справді працює на пристрої через WebGPU. Отже, для деяких завдань з інтеграції ШІ раптом можна робити інференс взагалі без бекенду.
Ці WebGPU-ядра, згідно з описом та обговореннями, написані Fable 5. По суті, це набір низькорівневих обчислювальних шейдерів, які беруть на себе важку роботу інференсу прямо в браузері, без звернень до сервера.
Саме тут я зупинився і переглянув архітектуру: підказки, активації та генерація залишаються локально на пристрої. Для сценаріїв із чутливими даними це вже не маркетинг, а практичне роздоріжжя.
Поки що це стосується переважно Gemma 4 E2B, оскільки моделі 12B та 27B не вміщуються в ліміти VRAM браузера. У посібниках згадують квантування INT4, зменшені контекстні вікна та текстовий режим, хоча в демо є і згадка про завантаження зображень.
Продуктивність жива, не синтетична: у браузерних матеріалах фігурують приблизно 40-80 токенів/с на prefill і 40-180 токенів/с на decode, а спільнота обговорювала близько 255 токенів/с на M4. Я сприймаю це не як обіцянку, а як верхню межу для вдалого поєднання браузера, GPU та збірки.
Важливо, що це не просто «LLM у вкладці». Це цеглинка для нового класу застосунків, де модель можна принести користувачеві прямо в інтерфейс: Chrome, Edge, локальний кеш, PWA, слабка мережа — нуль залежності від хмарного API під час роботи.
Що це змінює для автоматизації
Перший виграш очевидний: знижується вартість входу в AI implementation. Якщо мені не потрібен серверний інференс, я усуваю частину DevOps, затримки та постійні витрати на API для певних сценаріїв.
Другий момент тонший: з'являються повноцінні офлайн-потоки. Внутрішні асистенти, польові інтерфейси, кіоски, захищені робочі місця — там, де automation with AI раніше впиралася в мережу або вимоги приватності.
Але не всім буде добре. Проєкти з довгим контекстом, важкою мультимодальністю та суворою передбачуваністю якості все ще залишаться на гібридній або серверній схемі.
Я постійно бачу це у клієнтів: проблема рідко в самій моделі, проблема в тому, де проходить межа між браузером, пристроєм і хмарою. У Nahornyi AI Lab ми якраз збираємо таку AI architecture під реальний процес, а не під гарний скріншот. Якщо у вас назрів продукт, де потрібна локальна AI automation без зайвого серверного болю, можна разом прикинути, що має сенс перенести в браузер уже зараз.