Contexto técnico
He visto la misma escena muchas veces: un agente de voz suena decente hasta la primera conversación real. Luego, o interrumpe a mitad de frase o tarda demasiado en responder. Y es ahí cuando toda la bonita implementación de IA comienza a desmoronarse a nivel de la mecánica básica de una conversación.
El motivo es reciente: en un debate sobre agentes de voz, una persona con una prueba de concepto para llamar a candidatos señaló la detección de turno como su mayor problema. Por experiencia, estoy de acuerdo. Cuando la gente prueba 11labs, Vapi o LiveKit, rápidamente se topa con un muro, no con el LLM, sino con el momento de decidir si “el usuario ha terminado de hablar o simplemente ha hecho una pausa”.
Como respuesta, le pasaron dos enlaces muy concretos: el modelo open-source LiveKit turn-detector en Hugging Face y el repositorio Pipecat smart-turn en GitHub. Y ya no estamos hablando de “bueno, combina VAD con retardos”. Son herramientas serias que se pueden coger e integrar en un pipeline.
Investigué las especificaciones de LiveKit y hay cosas interesantes. Es un detector de fin de intervención basado en texto, no un modelo de audio: unos 135M de parámetros, basado en SmolLM v2. Funciona sobre la transcripción del STT y analiza el contexto del diálogo, no solo la pausa en el audio. En esencia, añade semántica donde un VAD normal solo ve silencio.
Precisamente por eso es útil en escenarios como entrevistas, soporte técnico o la recopilación de direcciones, números y fechas. Una persona dice: “sí, la dirección es... un segundo... calle...” y un sistema de endpointing normal ya querría tomar el turno. Un detector de turno semántico salva la conversación de interrupciones estúpidas en estos casos.
LiveKit presume de cifras potentes: hasta un 85% menos de interrupciones innecesarias y alrededor de un 3% de falsos negativos en el escenario “el turno aún no ha terminado”. Funciona en tiempo real en CPU, se integra con Silero VAD y STT como Deepgram, y tiene versiones para Python y JS. Para mí, esto es más importante que cualquier demo de marketing, porque veo de inmediato cómo encaja en una integración de IA real, no en un vídeo llamativo.
Con Pipecat smart-turn hay menos detalles, hay que ser sincero. En los foros públicos se recomienda como una alternativa funcional, especialmente en pipelines autoalojados con STT tipo Whisper. Pero en cuanto a benchmarks y arquitectura, por ahora es menos transparente que LiveKit.
Así que el panorama es sencillo: LiveKit parece el punto de entrada open-source más maduro ahora mismo, mientras que Pipecat es una alternativa prometedora y más ligera que vale la pena probar con tus propios datos. Aquí no hay un ganador universal, porque con respuestas cortas, acentos y líneas con ruido, todo cambia muy rápido.
Impacto en el negocio y la automatización
Lo más interesante aquí no es el modelo en sí, sino el cambio en la solución arquitectónica. Antes, muchos equipos solucionaban la detección de turno con parches: añadían milisegundos extra, creaban heurísticas basadas en la puntuación y hacían excepciones manuales para números y direcciones. Esto funcionaba hasta el primer intento de escalar.
Ahora se puede construir un pipeline de voz de forma más honesta: VAD para detectar si se habla, STT para el texto, un detector de turno semántico para decidir “¿ha terminado el turno o no?” y, solo después, el LLM más el TTS. Este esquema es más fácil de adaptar entre casos de uso y ofrece un comportamiento más predecible con grandes volúmenes de llamadas.
¿Quién sale ganando? Los equipos que hacen llamadas en frío, selección de candidatos, call centers, agendamiento de citas y cualificación inicial de leads. En esos casos, cada interrupción innecesaria perjudica la conversión más de lo que parece en un dashboard.
¿Quién sale perdiendo? Las plataformas que vendían una “calidad mágica” sin la posibilidad de ajustar el stack a un escenario concreto. Si el open-source resuelve un cuello de botella clave, el coste de la dependencia de un proveedor ya no parece tan convincente.
Pero no subestimaría su simplicidad. El detector por sí solo no te salvará si tienes un mal STT, prompts deficientes para el agente, un buffering de TTS agresivo o retardos de endpointing mal configurados. En Nahornyi AI Lab, solemos analizar los sistemas precisamente en estas uniones, porque en producción no es un solo componente el que falla, sino la conexión entre ellos.
Si hoy tuviera que montar una nueva prueba de concepto de voz para un escenario de llamadas salientes, empezaría con el turn-detector de LiveKit más Silero VAD y un STT decente, y probaría Pipecat como alternativa con mis propios registros. No porque “esté de moda”, sino porque esto ya parece una base de ingeniería, no chamanismo con temporizadores.
En resumen, el mercado de los agentes de voz ha madurado un poco. Si tus llamadas fallan por interrupciones torpes o pausas largas, no tienes por qué adivinar ajustes a ciegas. Analicemos todo el pipeline. En Nahornyi AI Lab, te ayudaré a construir una automatización con IA para que el agente por fin hable como una persona y no juegue al teléfono descompuesto.