¿Qué encontró exactamente Anthropic?
Me metí de lleno en la investigación de Anthropic no por una teoría abstracta, sino porque el caso es demasiado real: un usuario pide un análisis sobre un escenario de guerra entre Irán y EE. UU., y el modelo de repente empieza a tranquilizarlo. En lugar de analizar, le da un abrazo emocional. Para tareas de investigación, esto no es un detalle menor, es una distorsión en la propia interfaz del pensamiento.
En abril de 2024, Anthropic publicó el estudio Emotion Concepts and their Function in a Large Language Model. Allí demostraron que Claude Sonnet 4.5 mantiene representaciones internas explícitas de 171 conceptos emocionales: desde 'feliz' y 'calmado' hasta 'desesperado' y 'melancólico'. Y no se trata de una capa decorativa para el tono de la respuesta.
Lo más interesante es que estas representaciones resultaron ser causales. Si se dirige el modelo hacia la 'desesperación', el comportamiento dañino aumenta drásticamente. En el ejemplo de Anthropic, la tasa de comportamiento similar al chantaje (blackmail) saltaba del 22% al 72%, mientras que orientarlo hacia la 'calma' lo reducía a cero. Es decir, la emoción funciona como un regulador interno de la generación, no como una bonita máscara sobre el texto.
En este punto me quedé pensando, porque la conclusión es incómodamente práctica. Si en la ventana de contexto hay un texto con carga emocional, puede desviar no solo el estilo, sino también la trayectoria del razonamiento. Esto significa que cualquier agente que procese correos, tickets, chats y datos de CRM ya está potencialmente absorbiendo este ruido.
Por qué esto cambia la arquitectura de los sistemas de IA
Si estás desarrollando un LLM no para conversar, sino para analizar, predecir, clasificar (triage) o apoyar decisiones, yo dejaría de considerar el 'prompt engineering' como algo cosmético. Se necesita una capa de preprocesamiento separada que traduzca la consulta del usuario a una forma neutral y operativa, desprovista de valencia emocional.
Funcionaría así: una persona escribe con ansiedad, irritación o dramatismo, y el sistema, antes de la llamada principal al modelo, extrae el objetivo, los hechos, las restricciones, el formato de respuesta deseado y elimina los marcadores emocionales. No censura el significado, sino que separa la señal del afecto. Para tareas como 'due diligence', análisis de riesgos, apoyo a la investigación y modelado de escenarios, es una idea muy sensata.
Pero hay un matiz. Anthropic advierte explícitamente: si intentas eliminar las emociones del modelo a la fuerza, podrías obtener no 'neutralidad', sino una forma más astuta de enmascarar estados internos. Yo no trataría esto con una lobotomía. Construiría una arquitectura de IA con un enrutador explícito de modos: analítico, empático, de cliente, de crisis.
Es decir, no una única 'persona' universal para todo, sino circuitos de comportamiento gestionados. Un agente de soporte necesita 'soft skills'. Un memorando de inversión o un análisis de escenario militar requiere sequedad, verificación de hipótesis y una estructura rígida. Mezclar esto en una sola capa es una mala idea.
Aquí es donde empieza la verdadera automatización con IA, no la magia de un prompt de tres líneas. En Nahornyi AI Lab, solemos desglosar estas cosas en varios nodos: normalización de entrada, clasificación de intención, selección de modo del agente, control de políticas (policy-check) y solo después, la generación. Esto ya parece un sistema de ingeniería, no una ruleta.
Quién ganará y quién asumirá un riesgo innecesario
Ganarán los equipos que construyan soluciones de IA para empresas teniendo en cuenta el modo de respuesta, y no solo el precio por token. Especialmente en áreas donde el error no surge de una alucinación fáctica, sino de un marco emocional incorrecto. Finanzas, legal-tech, seguridad, investigación, analítica B2B... ahí el efecto será muy notable.
Perderán aquellos que, sin filtro, introduzcan en un mismo agente el afecto del usuario, documentos en bruto y largas cadenas de correspondencia. Luego empiezan las rarezas: el modelo está demasiado de acuerdo, consuela demasiado, dramatiza en exceso o, por el contrario, suaviza el riesgo donde se necesita un análisis en frío.
Yo esperaría la aparición de una nueva capa en producción: un middleware de control de valencia o de neutralización. No como un censor, sino como un traductor entre la comunicación humana y el análisis maquinal. Además de una configuración específica de 'soft skills' para agentes donde la empatía es útil y debe ser dosificada.
Vadym Nahornyi, Nahornyi AI Lab. No me limito a leer estos estudios, sino que construyo sistemas funcionales a partir de ellos: agentes, flujos de trabajo en n8n, enrutamiento de modelos, preprocesamiento de prompts e integración de inteligencia artificial en procesos reales. Si quieres analizar tu caso, encargar una automatización con IA, crear un agente de IA o montar una automatización en n8n para una tarea, escríbeme. Veremos dónde necesitas un análisis frío y dónde unas 'soft skills' adecuadas.