10 de febrero de 2026

AI AgentsSecurityPython

Monty de Pydantic: Ejecución segura de código LLM sin contenedores

Pydantic lanzó Monty, un intérprete mínimo de Python en Rust para ejecutar de forma segura código no confiable generado por agentes LLM. Es vital para las empresas: reduce el riesgo de RCE, acelera los flujos de trabajo sin contenedores y facilita el control sobre qué puede ejecutar exactamente el código.

Contexto Técnico

El 6 de febrero de 2026, el equipo de Pydantic (cuyo ecosistema se ha convertido en el estándar de facto para la validación de datos en Python) publicó Monty: un intérprete de Python mínimo y "cerrado por defecto", escrito en Rust. El objetivo es puramente pragmático: ejecutar de forma segura código no confiable creado por LLMs dentro de agentes de IA y automatizaciones, sin la sobrecarga clásica de los contenedores y sin el riesgo de convertir su entorno de producción en un sandbox ejecutable remotamente para atacantes.

En el momento de la publicación, el repositorio es experimental (rama 0.0.x, lanzamiento reciente v0.0.4 del 7 de febrero de 2026), bajo licencia MIT. Es una herramienta "candente" que debe evaluarse como un fundamento tecnológico, pero implementarse con precaución.

Qué es exactamente Monty

Monty no es "otro Python más". Es un subconjunto restringido de Python ejecutado dentro de un runtime de Rust, distribuido como:

Una librería de Rust (para embeber en servicios y runtimes de agentes),
Un paquete de Python pydantic-monty (integración en proyectos Python existentes),
Compilaciones para WebAssembly (incluyendo escenarios en navegador/vía Pyodide).

Propiedades Técnicas Clave (Importante para la Arquitectura)

Sandbox por Diseño: Sin acceso al sistema de archivos, variables de entorno ni red "de fábrica". Esto reduce fundamentalmente la clase de riesgos de RCE/exfiltración.
Arranque en Microsegundos: Se posiciona como una alternativa a los contenedores donde la latencia es crítica (agentes de chat, flujos de trabajo en tiempo real).
Lenguaje Limitado: Las primeras versiones carecen de clases, match, gestores de contexto, generadores y la mayor parte de la stdlib. La idea no es "compatibilidad a cualquier coste", sino una superficie de ataque mínima.
Llamadas Externas Gestionadas: Soporte para external functions; puede permitir que el código llame solo a funciones del host explícitamente proporcionadas. Esta es la clave para una integración segura con datos/modelos.
Multiplataforma: El mismo enfoque se aplica en servicios backend y en el navegador (WASM), lo cual es importante para productos híbridos.

Cómo se ve esto habitualmente en el código

El modelo mental es simple: se pasa una expresión/código, se describen las entradas y (si es necesario) una lista de funciones externas permitidas.

Paso Computacional Simple (adecuado para transformaciones de features sin acceso al entorno):

Ejemplo: Una expresión como x * y con entradas pasadas.

Acceso Controlado a Datos vía funciones externas: En lugar de permitir red/FS, se da una función fetch_data, que decide dentro de su servicio qué se puede leer y cómo registrarlo.

Limitaciones que no se deben olvidar

Monty es actualmente una herramienta "estrecha pero segura". Esto significa:

No reemplaza a CPython para lógica de negocio compleja;
No puede contar con una stdlib rica ni con patrones habituales de Python;
El ecosistema circundante aún no está asentado: observe, pruebe y planifique posibilidades de reversión.

Impacto en Negocio y Automatización

El efecto principal de Monty es que cambia el enfoque hacia los sistemas de agentes y el "código dinámico" en producción. Antes tenía una elección desagradable:

O no ejecutar código LLM en absoluto (y limitarse a herramientas estrictamente fijas),
O ejecutarlo en un contenedor/VM (caro, lento, complejo),
O ejecutarlo "de alguna manera" en un proceso Python (peligroso).

Monty ofrece una cuarta vía: un sandbox interpretado con una superficie de ataque muy pequeña y arranque rápido. Para las empresas que realizan automatización con IA en procesos operativos, esto reduce fundamentalmente el coste de iteración y el nivel de riesgo.

Dónde aporta el máximo valor

Pipelines de ML/DS con transformaciones dinámicas: Reglas de limpieza/normalización personalizadas, pasos ligeros de ingeniería de características, formación de prompts y post-procesamiento de resultados.
Agentes de IA "Tool-Using": Cuando el LLM escribe pequeños fragmentos de código para transformar estructuras de datos, unir respuestas o preparar solicitudes a sus API internas (a través de funciones permitidas).
Integración en Productos: "Fórmulas", "reglas", "macros" de usuarios. Antes se hacían en DSL propios; ahora puede ofrecer Python limitado, pero seguro.
Escenarios Edge/Navegador vía WASM: Parte de los cálculos se puede trasladar al cliente, manteniendo la seguridad y la previsibilidad.

Quién está en zona de riesgo (y por qué)

Equipos que ya lanzaron sistemas de agentes sin aislamiento: Monty resalta el problema: ejecutar código LLM en un intérprete "normal" es abrir la puerta a fugas y sabotaje.
Plataformas que construyeron DSL personalizados solo por seguridad: Parte de los casos puede migrar a Monty si las limitaciones del lenguaje son aceptables.
Sistemas empresariales complejos: Aquí el riesgo no está en la tecnología, sino en la integración. Si empieza a "permitir todo" a través de funciones externas, devuelve las vulnerabilidades, solo que por otro camino.

Cómo afecta esto a la arquitectura de soluciones de IA

En la arquitectura de IA práctica aparece una nueva capa: Execution Sandbox entre el LLM y sus sistemas (datos, modelos, ERP/CRM, almacenamiento de archivos). Arquitectónicamente esto significa:

Política de permisos como código: La lista de funciones externas es su contrato de seguridad. Se puede versionar, probar y revisar.
Observabilidad: Puede registrar todas las llamadas a funciones externas, parámetros, tiempo de ejecución y errores, y construir una puntuación de riesgo de las acciones del agente.
Simplificación del despliegue: Menos dependencia de contenedores en "cada paso", latencia potencialmente menor y coste reducido para flujos de agentes de alto QPS.

Pero hay una cara opuesta: para obtener un beneficio real, necesita diseñar correctamente las interfaces de funciones externas y el modelo de datos. En la práctica, las empresas a menudo "se rompen" aquí: el código LLM parece ejecutarse, pero la integración de IA con los sistemas internos se convierte en un caos de contratos y excepciones impredecibles. Y esta es exactamente la clase de tareas donde se necesitan especialistas en implementación de IA e integración industrial.

Opinión del Experto: Vadym Nahornyi

Monty no trata sobre un "nuevo Python", sino sobre un nuevo estándar de ejecución segura en la economía de agentes. En Nahornyi AI Lab vemos regularmente el mismo escenario: el negocio quiere que el agente "escriba código para procesar datos por sí mismo", pero la seguridad y el compliance bloquean la idea. Monty hace que el compromiso sea práctico por primera vez: aislamiento rápido + puntos de salida gestionados.

Por qué el equipo de Pydantic es una señal importante

Pydantic se asocia en la industria con la disciplina de datos: esquemas, tipos, verificabilidad. La continuación lógica es la disciplina de ejecución. Si Monty con el tiempo se acopla con Pydantic AI y entradas/salidas validadas, obtendremos un vínculo fuerte: validamos datos → ejecutamos de forma segura → validamos resultado. Para el desarrollo de soluciones de IA en el sector real, este es casi el eje ideal de gobernabilidad.

Dónde habrá "hype" y dónde valor utilitario

Utilitario: Pequeñas transformaciones de datos, enrutamiento, normalización, "pegado" de estructuras: lo que los agentes LLM hacen a menudo entre llamadas a herramientas.
Zona de Hype: Intentar ejecutar en Monty bibliotecas completas o stacks científicos. Las limitaciones actuales del lenguaje y la stdlib hacen que esto sea poco realista.

Tres errores típicos de implementación (que advertiría de antemano)

Error 1: "Añadiremos una función externa que sepa hacerlo todo". Así convierte un sandbox seguro en una fina capa sobre una API peligrosa. Necesita funciones estrechas y específicas: "obtener agregado de ventas por periodo", no "ejecutar SQL".
Error 2: Falta de contratos de datos. Si la entrada/salida no se valida (Pydantic/esquemas), el agente producirá estructuras "casi correctas" que rompen el pipeline en lugares inesperados.
Error 3: Sin política de observabilidad. En sistemas de agentes, las trazas son importantes: qué se ejecutó, por qué, qué recursos tocó. Sin esto, no puede probar la seguridad ni mantener el SLA.

Mi pronóstico: en los próximos 3–6 meses, Monty se convertirá en el "candidato por defecto" para sandboxing en el ecosistema Python de soluciones de agentes, pero a producción lo llevarán solo aquellos equipos que sepan diseñar interfaces seguras y probar limitaciones. El resto necesitará experiencia externa, porque la complejidad no está en instalar el paquete, sino en la ingeniería de sistemas a su alrededor.

La teoría es buena, pero el resultado requiere práctica. Si planea la implementación de IA con escenarios de agentes, quiere reducir riesgos de ejecución de código LLM y acelerar la automatización con IA sin la "pesadez" de los contenedores, hablemos de su caso en Nahornyi AI Lab. Yo, Vadym Nahornyi, soy responsable de la arquitectura, la seguridad y el efecto empresarial medible de la implementación.

Compartir este articulo

Twitter/X LinkedIn Telegram