Contexte Technique
J'adore ce genre de problème, où la diarisation standard échoue dès la première minute. Quand les locuteurs ne parlent pas à tour de rôle et qu'une cacophonie de bar s'installe, ce n'est plus une simple diarisation de locuteur (speaker diarization), mais le fameux problème du cocktail party. Pour une intégration IA correcte dans un produit, il ne suffit pas de brancher Whisper et d'espérer un miracle.
Je diviserais immédiatement les outils en deux catégories. La première tente réellement de comprendre qui parle et quand, même si les voix se chevauchent. La seconde sépare d'abord l'audio par source, et seulement ensuite vous transmettez le résultat à un ASR ou à votre chaîne d'automatisation IA (AI automation).
Dans la première catégorie, je me pencherais sur l'EEND (End-to-End Neural Diarization). Ce n'est pas l'ancien pipeline VAD, embeddings, clustering et prières. Le modèle apprend directement à gérer des locuteurs inconnus, des chevauchements et un traitement en ligne, et ESPnet propose déjà des recettes fonctionnelles et des scénarios de streaming pour cela.
C'est vraiment là que je m'arrêterais pour ne pas perdre une semaine sur des alternatives exotiques. Si vous avez besoin de temps réel et que vous n'avez pas d'embeddings de locuteurs pré-enregistrés, EEND et ESPnet semblent être la direction la plus sensée à l'heure actuelle.
SAM Audio de Meta est intéressant ; j'ai exploré sa logique, et il est excellent spécifiquement en tant que couche de séparation de sources (source separation). Il peut extraire des sons d'un mélange confus à l'aide d'invites, mais ce n'est pas une diarisation native ni un système qui renverra proprement des horodatages pour des personnes inconnues dans une conversation en direct.
Le sepformer-wham de SpeechBrain est aussi utile, mais honnêtement, il s'agit plus de séparation que d'une solution complète. Je l'utiliserais comme une étape de prétraitement avant l'ASR ou la diarisation si le chevauchement des voix est particulièrement sévère.
L'idée d'utiliser un LLM pour annoter une transcription finale en fonction du sens est séduisante, et j'ai moi-même testé de telles configurations. Cependant, c'est du post-traitement, pas du temps réel, et avec des chevauchements bruyants, il est plus susceptible de corriger la structure du dialogue que de sauver un flux audio défaillant.
Impact pour l'Entreprise et l'Automatisation
En pratique, les gagnants seront les entreprises qui gèrent des appels, des réunions, des lignes de répartition, des entretiens et un support avec plusieurs locuteurs simultanés. Dans ce contexte, la précision n'est pas qu'une jolie métrique ; elle détermine si vos analyses de conversation, votre logique CRM et l'automatisation avec l'IA (automation with AI) qui en découle fonctionneront ou non.
Les perdants seront les équipes qui construisent un produit basé uniquement sur l'ASR sans séparation ou diarisation consciente du chevauchement (overlap-aware diarization). Une erreur sur l'identité du locuteur nuit ensuite aux résumés, à la recherche dans les appels et à tout agent IA (AI agent) qui doit agir en fonction du contexte.
Je construirais la pile technologique ainsi : diarisation consciente du chevauchement via EEND ou ESPnet, si nécessaire séparation via SAM Audio ou SepFormer, et seulement après ASR plus une couche LLM pour corriger la structure. Chez Nahornyi AI Lab, nous nous spécialisons dans la dissection manuelle de ces goulots d'étranglement : si votre pipeline audio perd son sens lors des chevauchements, nous pouvons développer une solution IA (AI solution development) adaptée à votre flux de travail, et non à un scénario de démonstration générique.