Qué Descubrí en la Prueba
Asumí una tarea bastante terrenal: le di a los modelos una documentación de API en la que había introducido deliberadamente varios errores y observé cuál los detectaba sin alucinar. Luego, pasé las respuestas por GPT como juez. No es una métrica perfecta, pero para una comparación rápida y práctica, es un método de trabajo válido.
En mi prueba hubo dos contendientes. Por un lado, Gemma 4 31B IT en local; por otro, Claude Sonnet 4.6 Extended Thinking. La puntuación final deja el panorama claro: la primera respuesta obtuvo un 4/10, la segunda un 7.5/10.
Aquí hay un detalle importante: mi ejecución local de Gemma no fue una sola variante. Probé Gemma 4 31B IT en MLX 4-bit y en Ollama 4-bit por separado. Y es aquí donde el hardware y el backend influyen tanto como el propio modelo.
Donde la Infraestructura, no la Respuesta, Realmente me Sorprendió
La diferencia en el consumo de memoria fue casi abismal. Ollama consumió unos 43 GB, mientras que MLX en un M4 mostró un pico de memoria de 19.994 GB. Para la misma idea de ejecutar un modelo de 31B en local, esto ya no es cosmético, sino la diferencia entre «funciona bien en el equipo» y «el equipo empieza a sufrir».
Me encantan estos momentos porque impactan directamente en la arquitectura de IA. Sobre el papel, tienes un «modelo abierto local», pero en la práctica, un stack cabe en un límite razonable de memoria unificada, mientras que el otro convierte tu portátil en un calefactor. Si estás construyendo una integración de IA para un equipo, esto ya no es una cuestión de gustos, sino de costo total de propiedad.
MLX en Apple Silicon parece notablemente más maduro para estas tareas. No por arte de magia, sino porque el stack está más cerca del hardware y pierde menos en sobrecostos. Cuando puedes mantener un modelo de 31B localmente en torno a los 20 GB, la conversación sobre pipelines privados, revisiones de código internas y validación de documentación offline se vuelve tangible.
En Calidad, Gemma Aún no Llega, Pero ya no es un Juguete
Describiría las respuestas así: Claude mantiene mejor la estructura de la revisión, separa con más confianza los defectos reales de los comentarios secundarios y se equivoca menos en las prioridades. En mi prueba, Gemma 4 31B fue útil, pero se sintió inmadura precisamente como revisor de documentación. No se vino abajo, pero tampoco demostró el nivel necesario para asignarle sin dudarlo un flujo de trabajo crítico.
Aun así, es demasiado pronto para descartar los modelos locales. Si hace un par de años una prueba así era más bien un entretenimiento para entusiastas, ahora es un punto de partida viable para la automatización con IA en un entorno cerrado. Especialmente donde no se pueden exponer APIs internas, esquemas de integración o documentación de servicio a la nube.
Lo diré sin rodeos: Claude gana hoy en calidad, MLX gana en la economía de la ejecución local, y Gemma 4 31B ya está en un punto en el que no hay que debatirla en el vacío, sino integrarla en cadenas reales y observar el resultado.
¿Quién se Beneficia de Esto Ahora Mismo?
Los que más ganan son los equipos con muchas tareas de verificación de ingeniería rutinarias: docs de API, guías de SDK, changelogs, normativas internas, notas de migración. Allí se puede implementar una automatización de IA en varias pasadas: un modelo local busca inconsistencias obvias, y un modelo en la nube más potente remata los puntos complejos o los casos dudosos.
Pierden aquellos que esperan una bala de plata universal. Si simplemente tomas un modelo local, le das la documentación y esperas un nivel de revisor senior, te llevarás una decepción. Se necesitan prompts sólidos, etapas de validación, a veces un modelo juez y a veces verificaciones basadas en reglas sobre el texto.
En Nahornyi AI Lab, precisamente construimos estas soluciones a medida: no un simple «toma, un chatbot», sino una arquitectura de soluciones de IA adaptada al proceso. Donde el modelo local se encarga de la privacidad y de una primera pasada barata, y el modelo en la nube interviene solo donde su calidad realmente justifica el precio. Así es como la implementación de la inteligencia artificial deja de ser un juguete y empieza a ahorrar tiempo al equipo.
Mi Conclusión sin Adornos
Si hoy necesito el mejor resultado en una revisión de documentación de API, elijo Claude. Si necesito un entorno local controlado en Apple Silicon, considero muy seriamente Gemma 4 31B a través de MLX, y no mediante un backend pesado con un apetito excesivo por la memoria.
Yo, Vadim Nagorni de Nahornyi AI Lab, hago estas comparaciones no por tener tablas bonitas, sino para construir soluciones de IA reales para empresas. Si quieres discutir tu caso, encargar una automatización de IA, crear un agente de IA o montar un escenario en n8n con modelos locales y en la nube, escríbeme. Analizaremos qué te conviene realmente ejecutar en local y qué es mejor dejar en una API.