Skip to main content
Gemma 4WebGPUлокальные LLM

Gemma 4 в браузері без сервера

На Hugging Face представили спеціальні WebGPU-ядра для Gemma 4, які дозволяють запускати модель повністю в браузері без серверного бекенду. Для бізнесу це серйозний зсув: AI integration стає дешевшою, приватнішою та відкриває шлях до офлайн-застосунків, PWA і нових клієнтських сценаріїв автоматизації.

Технічний контекст

Я сам зазирнув у Space на Hugging Face, і суть не в гарній демонстрації — важливо те, що Gemma 4 справді працює на пристрої через WebGPU. Отже, для деяких завдань з інтеграції ШІ раптом можна робити інференс взагалі без бекенду.

Ці WebGPU-ядра, згідно з описом та обговореннями, написані Fable 5. По суті, це набір низькорівневих обчислювальних шейдерів, які беруть на себе важку роботу інференсу прямо в браузері, без звернень до сервера.

Саме тут я зупинився і переглянув архітектуру: підказки, активації та генерація залишаються локально на пристрої. Для сценаріїв із чутливими даними це вже не маркетинг, а практичне роздоріжжя.

Поки що це стосується переважно Gemma 4 E2B, оскільки моделі 12B та 27B не вміщуються в ліміти VRAM браузера. У посібниках згадують квантування INT4, зменшені контекстні вікна та текстовий режим, хоча в демо є і згадка про завантаження зображень.

Продуктивність жива, не синтетична: у браузерних матеріалах фігурують приблизно 40-80 токенів/с на prefill і 40-180 токенів/с на decode, а спільнота обговорювала близько 255 токенів/с на M4. Я сприймаю це не як обіцянку, а як верхню межу для вдалого поєднання браузера, GPU та збірки.

Важливо, що це не просто «LLM у вкладці». Це цеглинка для нового класу застосунків, де модель можна принести користувачеві прямо в інтерфейс: Chrome, Edge, локальний кеш, PWA, слабка мережа — нуль залежності від хмарного API під час роботи.

Що це змінює для автоматизації

Перший виграш очевидний: знижується вартість входу в AI implementation. Якщо мені не потрібен серверний інференс, я усуваю частину DevOps, затримки та постійні витрати на API для певних сценаріїв.

Другий момент тонший: з'являються повноцінні офлайн-потоки. Внутрішні асистенти, польові інтерфейси, кіоски, захищені робочі місця — там, де automation with AI раніше впиралася в мережу або вимоги приватності.

Але не всім буде добре. Проєкти з довгим контекстом, важкою мультимодальністю та суворою передбачуваністю якості все ще залишаться на гібридній або серверній схемі.

Я постійно бачу це у клієнтів: проблема рідко в самій моделі, проблема в тому, де проходить межа між браузером, пристроєм і хмарою. У Nahornyi AI Lab ми якраз збираємо таку AI architecture під реальний процес, а не під гарний скріншот. Якщо у вас назрів продукт, де потрібна локальна AI automation без зайвого серверного болю, можна разом прикинути, що має сенс перенести в браузер уже зараз.

Ми вже розглядали Rust LocalGPT — компактний локальний AI-асистент із постійною пам'яттю та HTTP API, що повністю працює без хмарних сервісів. Такий підхід до локального інференсу перегукується з браузерною WebGPU-революцією, де модель також виконується на стороні клієнта.

Поділитися статтею