Gemma 4 26B en MLX se acelera a 115 tokens/s

Ha surgido un potente benchmark para Gemma 4 26B-A4B-it-mlx-lm-4bit: unos 115 tokens/s en Apple MLX. Para las empresas, esto es importante porque la automatización con IA y la inferencia local de modelos grandes se vuelven realmente rápidas, sin necesidad de la nube ni latencias adicionales.

Contexto técnico

Me llamó la atención la cifra de 115 tok/sec no por una captura de pantalla bonita, sino porque ya se asemeja a una velocidad de trabajo normal para la AI automation en Mac, y no a una atracción de laboratorio. Hablamos de gemma-4-26B-A4B-it-mlx-lm-4bit, es decir, un modelo MoE (Mixture-of-Experts) de 26B, donde por cada token se activan aproximadamente 4B de parámetros.

Este es un matiz importante. Sobre el papel, el modelo es grande, pero en la práctica, la carga en la inferencia es notablemente más ligera que en un modelo denso de 26B o 30B. Es por eso que la combinación de Gemma 4 + MLX en Apple Silicon ahora no parece un compromiso, sino una integración de IA bastante práctica para escenarios locales.

No he visto un benchmark oficial de Google para esta configuración específica. La fuente aquí es esencialmente la comunidad: MLX-LM, una compilación de 4 bits para Apple, optimizaciones como TurboQuant y mediciones de personas que lo ejecutan en vivo en los chips de la serie M. Una parte importante de la noticia es que 115 tok/sec es notablemente más alto de lo que muchos habían visto antes a través de pipelines ineficientes o modos de respaldo.

Y aquí no mezclaría todo en el mismo saco. Ollama, llama.cpp, MLX-LM en crudo, la longitud del contexto, el prefill y el decode dan cifras muy diferentes. Si alguien vio 2 tok/sec en un MoE de 26B y decidió que el modelo "no funciona localmente", este benchmark demuestra lo contrario: el problema a menudo no estaba en el modelo, sino en el stack tecnológico.

Otro punto práctico: la variante MLX de 4 bits ocupa aproximadamente 14 GB, pero para un funcionamiento normal, se necesita un margen en la memoria unificada. Con 24 GB ya se puede experimentar sin problemas, y en los chips M de gama alta, esto se convierte en una inferencia local realmente cómoda, sin nube, con un buen contexto y sin esperas eternas por una respuesta.

¿Qué cambia esto para los negocios y la automatización?

Para mí, la conclusión es simple: los agentes locales en Mac dejan de ser un juguete. Si un modelo realmente mantiene esta velocidad de decodificación, ya puedo construir pipelines privados para documentos, soporte, búsqueda interna y análisis sin la necesidad obligatoria de enviar datos al exterior.

Ganan los equipos que valoran la velocidad, la privacidad y un coste predecible. Pierden, en primer lugar, los escenarios en la nube donde pequeñas solicitudes se procesan a través de una costosa API externa simplemente por inercia.

Pero aquí hay una trampa que veo regularmente en las tareas de los clientes: un benchmark rápido por sí solo no significa un buen sistema. Se necesita una arquitectura de IA adecuada, enrutamiento de tareas, control de contexto, almacenamiento en caché y una comprensión de dónde es fuerte el modelo local y dónde es mejor conectar un servicio externo. En Nahornyi AI Lab, precisamente construimos este tipo de soluciones para procesos reales, no para demos vistosas.

Si ya está considerando una AI implementation sin dependencia de la nube, le sugiero que analice su stack con sobriedad: qué se puede llevar a local, dónde se pueden reducir las latencias y cómo construir con ello una automatización funcional. En Nahornyi AI Lab, suelo empezar precisamente por ahí, porque a Vadym Nahornyi no le gusta vender magia donde el negocio simplemente necesita un resultado fiable.

Esta impresionante velocidad y eficiencia, a menudo lograda mediante técnicas avanzadas como la cuantización de 4 bits, destaca el papel crucial de una configuración bien pensada en las implementaciones de IA. Anteriormente exploramos cómo optimizar la arquitectura de IA para obtener resultados en la automatización empresarial, enfatizando la necesidad de comprender las características específicas de los modelos y gestionar los costos operativos.

Compartir este articulo

Twitter/X LinkedIn Telegram

Gemma 4 26B en MLX se acelera a 115 tokens/s

Contexto técnico

¿Qué cambia esto para los negocios y la automatización?

Mas noticias

Qwen 3.6 27B y 51 tok/s: Esto ya es otra cosa

ASUS Ascent GX10: de repente, una opción muy interesante