Contexto técnico
Descartaría de inmediato la idea de "simplemente mantener todo en 256k". Eso solo se ve bien en el papel. Para un asistente de juegos que necesita datos de sesiones antiguas, este esquema se rompe en el momento en que comienza un nuevo juego o la historia antigua ya no cabe.
He visto lo mismo una y otra vez en proyectos de implementación de IA: el resumen salva la ventana de contexto, pero gradualmente mata la precisión. Para la tercera o cuarta sesión, el modelo no recuerda la historia, sino un resumen de un resumen. Y aquí es donde comienza la amnesia silenciosa.
En términos prácticos, construiría la memoria en tres capas. La primera capa es el contexto "caliente" de la sesión actual. La segunda es un resumen de estado compacto: personajes, misiones, inventario, ramas sin terminar, reglas del mundo. La tercera es un RAG local sobre eventos brutos de sesiones pasadas, no solo un archivo markdown improvisado.
Es decir, no se trata de "exportar a md y trocearlo de alguna manera", sino de una memoria adecuada basada en eventos. Cada evento significativo se escribe como una entrada separada: quién hizo qué, dónde, cuándo y con qué consecuencias. Luego, lo indexaría usando embeddings y agregaría filtros de metadatos estándar: session_id, npc, location, quest, item.
El resumen sigue siendo necesario, pero no como la única fuente de verdad. Lo actualizaría alrededor del 70-80% de la capacidad de la ventana, pero lo mantendría corto y estrictamente estructurado. No una narración literaria, sino casi un cerebro en formato JSON: objetivos, hechos, relaciones, cambios en el mundo.
Si la infraestructura lo permite, es mejor ejecutar Gemma 4 a través de vLLM o un tiempo de ejecución similar con paged attention. Esto no resuelve la memoria a largo plazo por sí solo, pero simplifica enormemente la vida con un contexto largo y la caché KV, especialmente si tienes más de una sesión activa.
¿Qué cambia esto para los negocios y la automatización?
La principal ventaja aquí no es que "el modelo se volvió más inteligente", sino que deja de olvidar detalles críticos. Para los asistentes de juegos, soporte, agentes de CRM y copilotos internos, esto ya no es un ajuste cosmético, sino la base de la automatización con IA.
¿Quién gana? Aquellos que necesitan precisión sobre eventos pasados: proyectos de juegos, equipos de servicio, productos con un largo ciclo de vida del usuario. ¿Quién pierde? Aquellos que esperan solucionarlo todo con un solo resumen y luego se preguntan por qué su agente miente con confianza.
Yo lo haría así: resumen para la continuidad, RAG para hechos precisos, un almacén de estado separado para entidades y reglas. Este es exactamente el tipo de soluciones que construimos para los clientes en Nahornyi AI Lab cuando necesitan una integración de IA real sin lagunas de memoria, no solo una demostración.
Si su agente ya ha comenzado a "olvidar" clientes, tareas o estados del juego, no intente solucionarlo con otro prompt largo. Es mejor organizar la memoria en capas y desarrollar una solución de IA adaptada a su escenario. Si lo desea, mi equipo en Nahornyi AI Lab puede ayudar a diseñarlo para que el sistema recuerde lo importante, funcione localmente y no se desmorone después de un par de sesiones.