Contexto Técnico
Me encantan este tipo de tareas, donde la diarización convencional falla en el primer minuto. Si en el canal no hablan por turnos y empieza una cacofonía de bar, ya no es una simple diarización de hablantes (speaker diarization), sino el famoso problema del cóctel (cocktail party problem). Para una integración de IA adecuada en un producto, no basta con conectar Whisper y esperar un milagro.
Yo dividiría las herramientas en dos clases. La primera clase intenta realmente entender quién habla y cuándo, incluso si las voces se superponen. La segunda clase primero separa el audio por fuentes, y solo después entregas el resultado a un ASR o a tu cadena de automatización con IA (AI automation).
De la primera clase, me fijaría en EEND (End-to-End Neural Diarization). No es el viejo pipeline de VAD, embeddings, clustering y rezar. El modelo aprende directamente a trabajar con hablantes desconocidos, superposiciones y procesamiento en línea, y ESPnet ya tiene recetas funcionales y escenarios de streaming para ello.
Aquí es donde realmente me detendría y no perdería una semana en soluciones exóticas. Si necesitas tiempo real y no tienes embeddings de hablantes conocidos de antemano, EEND y ESPnet parecen ser la dirección más sensata actualmente.
SAM Audio de Meta es interesante; he investigado su lógica y es excelente precisamente como una capa de separación de fuentes (source separation). Sabe extraer sonidos de una mezcla caótica usando pistas, pero no es una diarización nativa ni un sistema que te devuelva con precisión las marcas de tiempo de personas desconocidas en una conversación en vivo.
El sepformer-wham de SpeechBrain también es útil, pero sinceramente, se trata más de separación que de una solución completa. Lo usaría como preprocesamiento antes del ASR o la diarización si la superposición de voces es especialmente severa.
La idea de usar un LLM para etiquetar una transcripción ya terminada según el sentido suena tentadora, y yo mismo he probado configuraciones así. Pero es un postprocesamiento, no tiempo real, y con superposiciones ruidosas, es más probable que corrija la estructura del diálogo a que salve un flujo de audio destrozado.
Qué Significa Esto para el Negocio y la Automatización
En la práctica, ganarán quienes gestionan llamadas, reuniones, líneas de despacho, entrevistas y soporte con varios interlocutores a la vez. Allí, la precisión no es solo una métrica bonita; decide si la analítica de la conversación, la lógica del CRM y la posterior automatización con IA (automation with AI) se romperán.
Perderán los equipos que construyan un producto solo sobre ASR sin separación o diarización consciente de la superposición (overlap-aware diarization). Un error sobre quién dijo una frase afecta luego a los resúmenes, la búsqueda en llamadas y a cualquier agente de IA (AI agent) que deba actuar según el contexto.
Yo montaría el stack así: diarización consciente de la superposición con EEND o ESPnet, si es necesario separación con SAM Audio o SepFormer, y solo después ASR más una capa de LLM para corregir la estructura. En Nahornyi AI Lab, precisamente desmontamos estos cuellos de botella a mano: si tu pipeline de audio pierde sentido en las superposiciones, podemos construir un desarrollo de solución de IA (AI solution development) para tu flujo, no para un escenario de demostración genérico.