Contexto Técnico
Me gustan estas pruebas no por los gráficos bonitos, sino por la pregunta práctica que responden: ¿es posible montar una automatización con IA decente de forma local, sin comprar un servidor para cada tarea? Aquí, precisamente, probaron pequeños modelos abiertos de 3B-9B en tres tareas que no dudarías en asignar a un desarrollador real.
Los escenarios fueron acertados: añadir pequeñas funcionalidades al frontend y backend, buscar datos en internet, filtrarlos y guardarlos en JSON, y luego probar por separado el 'tool calling'. Y es en este tercer punto donde suelen fracasar todas las conversaciones sobre "agentes locales de bajo coste".
En cuanto a la VRAM, el panorama es alentador: en el debate surgió que parte de estos modelos caben en un máximo de 4 GB, sobre todo con cuantización de 4 bits. Para los modelos 3B, este ya es un rango operativo viable si no se infla el contexto ni se le añade un pesado ciclo de agente con muchas herramientas.
En cuanto a los modelos, me fijaría en familias como SmolLM3-3B, Gemma 3 4B y algunas variantes de 7B-9B solo si gestionas la memoria con mucho cuidado. Para código simple y procesamiento de datos, los modelos pequeños ya no parecen un juguete. Sin embargo, su 'tool calling' sigue siendo caprichoso: se defienden con herramientas simples, pero en lógicas de varios pasos empiezan a alucinar la ruta a seguir.
Es aquí donde yo no confundiría "sabe llamar a una función" con "sabe operar de forma estable en un flujo de trabajo agéntico". Son dos niveles muy diferentes.
Impacto en el Negocio y la Automatización
La primera conclusión es simple: la integración de IA local se ha vuelto más realista para tareas específicas. Si necesitas analizar datos, filtrarlos, convertirlos a JSON, realizar pequeñas operaciones de desarrollo o crear utilidades internas, un modelo pequeño de menos de 4 GB de VRAM ya puede ser más barato y conveniente que la nube.
El segundo punto es menos agradable: si tu proceso depende de un 'tool calling' fiable, especialmente con varios pasos y verificación de resultados, es arriesgado implementar modelos pequeños sin una red de seguridad. Yo añadiría validadores estrictos, lógica de reintentos y enrutamiento a un modelo más potente como respaldo.
Ganan los equipos que necesitan funcionamiento local, privacidad y bajos costes de ejecución. Pierden aquellos que esperan reemplazar un agente de producción con un único modelo "ligero" sin el soporte de ingeniería adecuado.
En Nahornyi AI Lab, precisamente resolvemos estos problemas fronterizos para nuestros clientes: determinar dónde es suficiente un modelo local y dónde se necesita una arquitectura de IA adecuada con enrutamiento híbrido. Si tus procesos están atascados en rutinas manuales o costosas llamadas a API, mi equipo y yo podemos ayudarte a construir un plan de desarrollo de soluciones de IA sin magia y con una economía clara.