Технический контекст
Я полез смотреть сам Space на Hugging Face, и суть тут не в красивом демо, а в том, что Gemma 4 реально крутится on-device через WebGPU. То есть для части задач artificial intelligence integration внезапно можно делать вообще без бэкенда под инференс.
Эти WebGPU-ядра, судя по описанию и обсуждениям, написаны Fable 5. По сути это набор низкоуровневых compute shaders, которые берут на себя тяжелые куски инференса прямо в браузере, без серверного round trip.
Вот где я остановился и пересмотрел выводы по архитектуре: prompts, активации и генерация остаются локально на устройстве. Для кейсов с чувствительными данными это уже не маркетинг, а вполне практическая развилка.
Сейчас речь в основном про Gemma 4 E2B, потому что 12B и 27B в браузерный лимит VRAM нормально не влезают. В гайдах мелькают рекомендации по INT4-квантованию, урезанному контексту и ограничению на text-only режим, хотя в демо есть и упоминание загрузки изображения.
По производительности картина живая, не лабораторная: в браузерных материалах фигурируют примерно 40-80 токенов/с на prefill и 40-180 токенов/с на decode, а в комьюнити отдельно обсуждали около 255 токенов/с на M4. Я бы воспринимал это не как обещание, а как верхнюю планку для удачной связки браузера, GPU и сборки.
Важно и то, что это не просто «LLM в вкладке». Это кирпич для нового класса приложений, где модель можно принести пользователю прямо в интерфейс: Chrome, Edge, локальный кэш, PWA, слабая сеть и ноль зависимости от облачного API во время работы.
Что это меняет для автоматизации
Первый выигрыш очевиден: дешевеет вход в AI implementation. Если мне не нужен серверный инференс, я убираю кусок DevOps, latency и постоянные API-расходы для части сценариев.
Второй момент тоньше: появляются нормальные офлайн-потоки. Внутренние ассистенты, полевые интерфейсы, киоски, защищенные рабочие места, где automation with AI раньше упиралась в сеть или требования по приватности.
Но не всем будет сладко. Проекты с длинным контекстом, тяжелой мультимодальностью и строгой предсказуемостью качества все еще останутся на гибридной или серверной схеме.
Я у клиентов вижу это постоянно: проблема редко в самой модели, проблема в том, где проходит граница между браузером, устройством и облаком. В Nahornyi AI Lab мы как раз собираем такую AI architecture под реальный процесс, а не под красивый скриншот. Если у вас назрел продукт, где нужен локальный AI automation без лишней серверной боли, можно вместе прикинуть, что имеет смысл унести в браузер уже сейчас.