Blog

Juridique

Dépositions multi-intervenants : garder des étiquettes de locuteurs fiables en speech-to-text

Andrew Russo

Publié dans Zoom mars 15 · 17 mars, 2026

Dépositions multi-intervenants : garder des étiquettes de locuteurs fiables en speech-to-text

Les dépositions avec plusieurs intervenants font souvent dérailler les étiquettes de locuteurs en speech-to-text, car les voix se chevauchent, les tours de parole changent vite et les micros captent tout le monde. Pour garder des labels fiables, vous devez cadrer la prise de son (un seul locuteur à la fois, présentations avec noms, micros séparés) et appliquer une méthode de post-traitement qui recoupe les labels avec la liste de présence et le contexte. Cet article explique pourquoi ça se brouille et donne un plan simple, étape par étape, pour améliorer la diarisation.

Mot-clé principal : dépositions multi-intervenants

Key takeaways

La diarisation se trompe surtout quand des personnes se coupent, parlent hors micro, ou ont des voix proches.
Les meilleures améliorations viennent de règles de tour de parole, de présentations nominatives et de micros séparés.
Après transcription, recoupez les labels avec la liste des présents et le fil de l’échange.
Utilisez une grille confirmé / probable / inconnu pour sécuriser chaque attribution.

Pourquoi les dépositions multi-intervenants trompent la diarisation

La diarisation tente de répondre à une question simple : « qui parle quand ? ». En déposition, cette question devient difficile, car le cadre est vivant, rapide et parfois tendu.

Chevauchements et interruptions

Quand deux personnes parlent en même temps, l’algorithme peut fusionner les segments ou attribuer le tout à la voix la plus forte. Même un court « oui » ou « mm-hmm » par-dessus une phrase peut créer un faux changement de locuteur.

Variations de distance micro et voix “hors champ”

Dans une salle, certains intervenants parlent plus loin du micro, tournent la tête, ou répondent sans être face à la captation. Le modèle peut alors confondre une voix lointaine avec une autre, car le timbre et le volume changent.

Tours de parole très courts

Les questions-réponses rapides (avocat–témoin) génèrent des segments de quelques secondes. Plus les segments sont courts, plus il devient dur de « verrouiller » une identité stable pour chaque locuteur.

Voix similaires et rôles proches

Deux avocats avec un débit similaire, ou un témoin et un interprète qui se relayent, peuvent se ressembler pour un système automatique. Le contexte aide un humain, mais l’audio seul peut ne pas suffire.

Bruit de fond et objets sonores

Pages qu’on tourne, stylos, chaises, ventilations, et notifications perturbent la segmentation. L’outil peut créer des coupures artificielles et relancer le mauvais locuteur.

Préparer la déposition : 8 actions simples qui changent tout

Vous améliorez la diarisation surtout avant d’appuyer sur “enregistrer”. L’objectif : produire un son clair, avec des tours de parole propres.

Fixez une règle : un seul locuteur à la fois, sans parler par-dessus.
Demandez des introductions nominatives : chacun dit son nom et son rôle au début.
Re-faites une introduction si quelqu’un rejoint en cours de route.
Utilisez des micros séparés (idéalement un micro par personne) pour réduire les confusions.
Évitez le haut-parleur si une personne intervient à distance, ou isolez sa piste audio.
Placez les micros de façon stable, sans manipulation pendant l’échange.
Annoncez les changements : « Maître X, je prends la parole » avant une intervention longue.
Faites 10 secondes de test et vérifiez qu’on entend clairement chaque voix.

Script d’ouverture (court) pour ancrer les étiquettes

Une ouverture structurée aide le modèle et aide aussi le relecteur.

« Nous commençons la déposition à [heure]. »
« Je suis [Nom], [rôle]. »
« Merci à chaque personne de dire : prénom, nom, rôle, et confirmer qu’elle parle à tour de rôle. »

Choisir entre une piste unique et plusieurs pistes

Une piste unique peut suffire si tout le monde est discipliné et bien placé. Plusieurs pistes (une par micro) facilitent la séparation des voix et simplifient les corrections, surtout si des personnes se coupent.

Pendant l’enregistrement : tactiques pour contrôler les tours de parole

Même avec un bon matériel, la diarisation souffre si la discussion part dans tous les sens. Quelques règles “terrain” font gagner beaucoup de temps après.

Gérer les interruptions sans casser le flux

Le questionneur peut dire : « Laissez-le terminer, puis je reprends. »
Le greffier ou le responsable d’enregistrement peut rappeler : « Une personne à la fois, s’il vous plaît. »
Si deux personnes parlent, demandez une reprise : « Pouvez-vous répéter, chacun à son tour ? »

Faire “nommer” les prises de parole importantes

Quand un intervenant fait une objection, donne une instruction, ou répond longuement, il peut commencer par son nom. Cette micro-habitude crée des repères audio et textuels très utiles.

Surveiller les “voix hors micro”

Demandez aux personnes de se rapprocher avant de parler.
Évitez les apartés, même courts.
Si quelqu’un parle depuis le fond, faites répéter au micro.

Après la transcription : méthode de post-traitement pour fiabiliser les labels

Une fois le texte généré, vous pouvez réconcilier les étiquettes de locuteurs avec la réalité, sans tout refaire à la main. Le but : passer d’un “Speaker 1/2/3” incertain à des noms cohérents, avec un niveau de confiance clair.

Étape 1 : rassembler vos sources (2 minutes)

La liste de présence (noms, rôles, orthographes).
L’ordre du jour ou le cadre (qui interroge, qui répond).
Les indices contextuels : « objection », « question », « réponse », « interprétation ».

Étape 2 : créer une table de correspondance provisoire

Faites une petite table “Label → Nom possible”. Gardez-la souple au début, car un même label peut contenir deux personnes si l’audio est mauvais.

Speaker 1 → (Avocat A ?)
Speaker 2 → (Témoin ?)
Speaker 3 → (Avocat B ?)

Étape 3 : appliquer la grille Confirmé / Probable / Inconnu

Attribuez un statut à chaque segment, ou par blocs, selon la qualité de preuve. Cette approche réduit les erreurs “sûres” et évite de sur-corriger.

Confirmé : le locuteur se nomme, ou une autre personne le nomme juste avant, ou la piste micro est clairement dédiée.
Probable : le rôle est cohérent (questionneur vs répondant), le style et le vocabulaire collent, et rien ne contredit l’attribution.
Inconnu : segment court, chevauchement, bruit, voix lointaine, ou contradiction avec le contexte.

Étape 4 : vérifier avec des “ancres” de conversation

Dans une déposition, certains repères reviennent souvent et aident à trancher.

Les questions longues et cadrées viennent souvent du même rôle.
Les réponses narratives suivent des formulations typiques (« je me souviens », « je pense que »).
Les objections et demandes de clarification ont un style distinct.

Étape 5 : gérer les conflits de labels

Si un label semble représenter deux personnes, découpez-le en sous-labels temporaires (ex. Speaker 2a / 2b) et marquez “inconnu” tant que vous n’avez pas une preuve solide. Ensuite, remappez proprement quand vous trouvez une ancre confirmée.

Étape 6 : normaliser l’affichage des noms

Choisissez un format unique et tenez-vous-y, par exemple « NOM Prénom (Rôle) ». Cette cohérence aide la relecture, la recherche, et l’usage juridique interne.

Choisir la bonne approche : automatisé, hybride ou humain

Le bon niveau d’effort dépend du risque et du volume. Les dépositions multi-intervenants demandent souvent une approche hybride : automatisation pour aller vite, puis relecture ciblée sur les segments à risque.

100% automatisé : utile pour une première lecture et du repérage, mais fragile si beaucoup d’interruptions.
Automatisé + relecture : bon compromis si vous marquez “inconnu” sur les passages ambigus et si vous avez une liste de présence claire.
Transcription humaine : préférable si les labels de locuteurs ont un impact fort et si l’audio est complexe.

Si vous partez d’un brouillon généré par IA, une étape de contrôle dédiée peut corriger les noms, la ponctuation et les tours de parole. Vous pouvez aussi comparer une solution de transcription automatisée avec une phase de relecture.

Erreurs fréquentes (et comment les éviter)

Ne pas faire d’introductions nominatives : vous perdez la meilleure “ancre” pour associer les voix aux noms.
Laisser les gens se couper : la diarisation confond les segments et crée des échanges illisibles.
Un seul micro au centre : la distance variable déforme les voix et augmente les inversions.
Renommer tous les labels “au feeling” : sans trace, vous créez des erreurs difficiles à détecter.
Oublier d’indiquer l’incertitude : la grille confirmé/probable/inconnu évite de “figer” une erreur.

Common questions

Est-ce que la diarisation marche bien avec 4 à 6 personnes ?

Oui, mais surtout si les tours de parole restent propres et si l’audio est clair. Dès que les chevauchements augmentent, les inversions de locuteurs deviennent plus probables.

Dois-je mettre les noms dans la transcription ou garder “Speaker 1” ?

Si vous avez une liste de présence fiable, utilisez les noms, car ils facilitent la lecture et la recherche. Sinon, gardez des labels neutres et marquez les segments incertains comme “inconnu”.

Comment gérer un interprète dans une déposition ?

Demandez des tours de parole stricts et, si possible, un micro dédié à l’interprète. Dans le texte, identifiez clairement quand l’interprète parle et quand il relaie les propos.

Les micros-cravates sont-ils meilleurs que le micro de table ?

Souvent oui, car ils réduisent la variation de distance et captent mieux une seule voix. Le plus important reste la constance de placement et l’absence de frottements ou manipulations.

Que faire si deux avocats ont des voix très proches ?

Appuyez-vous sur des indices de rôle (qui questionne, qui objecte) et sur des ancres où l’un est nommé. Si le doute persiste, laissez “probable” ou “inconnu” au lieu de trancher sans preuve.

Comment corriger rapidement les labels dans un long fichier ?

Commencez par 5 à 10 minutes au début pour associer voix et noms, puis cherchez des ancres (objections, prises de parole longues) tout au long du fichier. Traitez ensuite uniquement les segments “inconnus” ou “probables”.

Quand faut-il passer à une transcription humaine ?

Quand l’audio est très bruité, quand les personnes se coupent souvent, ou quand l’identification précise des locuteurs est indispensable. Dans ces cas, une révision humaine réduit les ambiguïtés.

Si vous devez produire un verbatim clair avec des locuteurs bien identifiés, GoTranscript peut vous aider avec des options adaptées, de l’automatisation à la relecture et aux solutions complètes. Vous pouvez en savoir plus sur nos professional transcription services.

Autres ressources utiles : la page relecture de transcription et, si vous devez aussi livrer une vidéo, nos services de sous-titrage codé.

Commandez maintenant