Blog chevron right Transcriptions

Scorecard de qualité de transcription : suivre la précision et l’améliorer dans le temps (modèle)

Matthew Patel
Matthew Patel
Publié dans Zoom avr. 28 · 28 avr., 2026
Scorecard de qualité de transcription : suivre la précision et l’améliorer dans le temps (modèle)

Un scorecard de qualité de transcription sert à mesurer la précision d’un transcript de façon répétable, à comparer plusieurs prestataires ou outils, puis à améliorer point par point. Vous allez utiliser une taxonomie d’erreurs, un petit plan d’échantillonnage, et des calculs simples (taux d’erreur par 1 000 mots, par type, par cause). Le modèle ci-dessous vous permet de suivre la qualité dans le temps sans y passer des heures.

Mot-clé principal : scorecard de qualité de transcription.

Key takeaways

  • Évaluez la qualité avec une taxonomie d’erreurs stable (contenu, ponctuation, timings, diarisation, format).
  • Utilisez un échantillonnage léger (ex. 5 minutes ou 500–800 mots par fichier) pour suivre la tendance.
  • Calculez un taux d’erreur normalisé (erreurs / 1 000 mots) et un score pondéré par gravité.
  • Attribuez chaque erreur à une cause racine (audio, terminologie, diarisation, consignes, outil) pour agir vite.
  • Améliorez avec des actions ciblées : meilleure capture audio, glossaire, consignes de speakers, relecture, ou changement de workflow.

1) Ce que doit mesurer un scorecard de qualité

Un bon scorecard ne se limite pas à « précis / pas précis ». Il mesure aussi ce qui casse l’usage : compréhension, recherche, conformité, sous-titrage, ou exploitation par une équipe.

Avant de noter, définissez le cas d’usage et le niveau d’exigence. Un transcript pour prise de notes n’a pas les mêmes attentes qu’un transcript juridique, un podcast publié, ou un sous-titre.

Définir la qualité attendue (en 3 lignes)

  • Usage : interne, publication, archive, accessibilité, sous-titres.
  • Priorité : exactitude des mots, identification des locuteurs, ponctuation, timecodes, format.
  • Seuil d’acceptation : ex. moins de X erreurs majeures par 1 000 mots, ou score ≥ Y/100.

Deux métriques complémentaires

  • Taux d’erreur par 1 000 mots : facile à comparer entre fichiers longs et courts.
  • Score pondéré : reflète la gravité (une erreur de chiffre peut compter plus qu’une virgule).

2) Taxonomie d’erreurs (modèle) + gravité

La taxonomie doit être simple et stable, sinon personne ne l’utilise. Commencez avec 6–8 catégories, puis ajustez après 2–3 cycles.

Catégories d’erreurs recommandées

  • Contenu (sens) : mot incorrect, omission, ajout, contresens.
  • Noms / chiffres / termes : noms propres, marques, acronymes, chiffres, unités, dates.
  • Diarisation (locuteurs) : mauvais speaker, speaker manquant, alternance erronée.
  • Ponctuation et lisibilité : phrases mal coupées, majuscules, hésitations, répétitions non gérées.
  • Timecodes / segmentation (si requis) : timecode manquant, décalé, segment trop long.
  • Format / consignes : non-respect du template, labels, style demandé, confidentialité (si applicable).

Niveaux de gravité (simple et actionnable)

  • Critique (C) : change le sens, fausse une décision, casse une citation, chiffre erroné, mauvais locuteur qui inverse le propos.
  • Majeure (M) : gêne fortement la lecture ou l’exploitation (omission d’un passage clé, jargon mal transcrit).
  • Mineure (m) : n’empêche pas de comprendre (ponctuation, petites typos, style).

Conseil : limitez-vous à 3 niveaux. Trop de niveaux ralentissent la revue et créent des désaccords.

3) Méthode d’échantillonnage légère (sans relire tout le fichier)

Relire 60 minutes d’audio à chaque fois coûte trop cher. Un échantillonnage régulier vous donne une tendance fiable, surtout pour comparer des fournisseurs ou suivre une amélioration.

Option A (rapide) : 5 minutes × 2 fenêtres

  • Prenez deux fenêtres de 5 minutes : une au début (ex. 03:00–08:00) et une au milieu ou vers la fin.
  • Évitez l’intro et l’outro si elles sont toujours « faciles » (musique, phrases répétées).
  • Gardez la même règle pour tout le monde, sinon la comparaison est biaisée.

Option B (textuelle) : 500 à 800 mots par fichier

  • Choisissez des blocs qui totalisent 500–800 mots (ou 3 blocs de ~250 mots).
  • Si vos fichiers varient beaucoup, fixez un minimum et un maximum (ex. 400–1 000 mots).

Option C (surveillance) : 10 % des fichiers, chaque semaine

  • Contrôlez 10 % des livraisons, tirées au hasard.
  • Ajoutez un contrôle ciblé sur les contenus à risque (réunions bruyantes, accents, multi-locuteurs).

Pour démarrer, choisissez Option A si vous travaillez surtout à partir de l’audio, et Option B si vous travaillez surtout sur le texte.

4) Modèle de scorecard (template prêt à copier)

Vous pouvez utiliser ce modèle dans Google Sheets, Excel, Notion, Airtable, ou un outil QA. Gardez une ligne par échantillon, puis faites un onglet “Synthèse” pour les tendances.

Champs à suivre (minimum viable)

  • ID fichier + lien
  • Prestataire / outil + version (si IA)
  • Langue + type de contenu (réunion, interview, webinaire)
  • Conditions audio (bon / moyen / mauvais) + multi-locuteurs (oui/non)
  • Fenêtre échantillon (timecodes) ou nb de mots
  • Nombre de mots (N) dans l’échantillon
  • Erreurs par catégorie + gravité
  • Cause racine (voir section suivante)
  • Notes + action recommandée

Table “Comptage des erreurs” (exemple de colonnes)

  • Contenu – Critique (C) | Contenu – Majeure (M) | Contenu – Mineure (m)
  • Noms/Chiffres/Termes – C | M | m
  • Diarisation – C | M | m
  • Ponctuation/Lisibilité – C | M | m
  • Timecodes/Segmentation – C | M | m
  • Format/Consignes – C | M | m

Grille de pondération (simple)

  • Critique (C) = 5 points
  • Majeure (M) = 3 points
  • Mineure (m) = 1 point

Vous pouvez ajuster les pondérations, mais gardez-les constantes sur 4–8 semaines pour voir un vrai signal.

5) Calculer les taux d’erreur et le score (formules claires)

Deux équipes peuvent compter les erreurs différemment, donc écrivez une règle simple : une erreur = un endroit précis, même si elle contient plusieurs caractères. Comptez aussi les omissions (un segment absent) comme une erreur, et notez la gravité.

Étape 1 : compter les erreurs totales

  • Total erreurs = somme de toutes les erreurs (toutes catégories, toutes gravités).
  • Total pondéré = (C×5) + (M×3) + (m×1).

Étape 2 : normaliser par la taille de l’échantillon

  • Erreurs / 1 000 mots = (Total erreurs ÷ N) × 1 000.
  • Points pondérés / 1 000 mots = (Total pondéré ÷ N) × 1 000.

Étape 3 : produire un score sur 100 (optionnel, mais utile)

Un score sur 100 aide à communiquer, mais il doit rester cohérent. Une approche simple consiste à partir de 100 et à retirer des points selon le taux pondéré.

  • Score qualité = 100 − (Points pondérés / 1 000 mots).
  • Vous pouvez fixer un plancher à 0 pour éviter les scores négatifs.

Si ce score vous semble trop sévère ou trop gentil, ajustez les pondérations (5/3/1) ou la règle de conversion, mais évitez de changer tous les mois.

Mini-exemple (pour vérifier vos calculs)

  • N = 650 mots échantillonnés
  • Erreurs : 1 critique (C), 4 majeures (M), 8 mineures (m)
  • Total pondéré = (1×5) + (4×3) + (8×1) = 25
  • Points pondérés / 1 000 mots = (25 ÷ 650) × 1 000 = 38,46
  • Score qualité = 100 − 38,46 = 61,54

6) Trouver les causes racines (audio vs terminologie vs diarisation) et agir

Le vrai gain vient de la cause racine. Deux fournisseurs peuvent avoir le même taux d’erreur, mais pas du tout les mêmes problèmes, donc pas les mêmes actions.

Taxonomie de causes racines (simple)

  • Audio : bruit, écho, débit très rapide, chevauchements, micro loin, coupures.
  • Terminologie : jargon métier, noms propres, acronymes, produits, code, mots étrangers.
  • Diarisation : trop de locuteurs, voix proches, absence de présentation, interruptions.
  • Consignes / format : règles de style floues, demandes non précisées, besoin de timecodes.
  • Outil / workflow : mauvaise langue choisie, mauvais modèle, post-édition absente, export incorrect.

Comment attribuer une cause racine (règles rapides)

  • Si l’audio est difficile et les erreurs se concentrent sur des mots « proches », cochez Audio.
  • Si les erreurs visent surtout les noms propres, sigles et mots rares, cochez Terminologie.
  • Si le texte est bon mais les speakers sont faux, cochez Diarisation.
  • Si la transcription est correcte mais le livrable ne suit pas le format, cochez Consignes / format.

Plan d’amélioration ciblé (actions concrètes)

  • Problème audio : demandez une piste par intervenant, réduisez l’écho, utilisez un micro-cravate, faites un test de 30 secondes avant la session.
  • Problème terminologie : créez un glossaire (noms, sigles, produits) et joignez-le à chaque commande.
  • Problème diarisation : imposez “Speaker 1 = prénom/nom”, faites une présentation au début, limitez les interruptions, ou acceptez une diarisation simplifiée.
  • Problème de consignes : écrivez une page “Définition de fini” (ponctuation, verbatim vs clean, hésitations, timecodes).
  • Problème de workflow : ajoutez une étape de relecture sur les contenus critiques et standardisez l’export.

Si vous utilisez une solution automatique, prévoyez une couche de contrôle. Vous pouvez combiner IA + relecture pour lisser les pics de qualité selon les enregistrements.

7) Comparer des vendors/outils et suivre la qualité dans le temps

Pour comparer, vous devez comparer des contenus comparables. Mélanger une réunion en open space avec une interview studio brouille le résultat.

Règles de comparaison (pratiques)

  • Comparez par type de contenu (réunion, interview, conférence) et par niveau audio (bon/moyen/mauvais).
  • Utilisez le même échantillonnage et les mêmes pondérations.
  • Regardez la répartition : un vendor avec peu d’erreurs mais beaucoup de critiques peut être risqué.

Tableau de bord minimal (à mettre en “Synthèse”)

  • Score moyen (sur 100) par vendor/outils
  • Points pondérés / 1 000 mots (médiane + pire 10 %)
  • % d’échantillons avec ≥ 1 erreur critique
  • Top 3 catégories d’erreurs
  • Top 3 causes racines

Pièges fréquents (et comment les éviter)

  • Changer la règle de comptage : documentez la règle et formez les relecteurs.
  • Ne suivre qu’un score : gardez aussi les catégories et la gravité, sinon vous ne saurez pas quoi corriger.
  • Échantillon non représentatif : évitez toujours le même moment (souvent plus simple).
  • Confondre qualité et style : séparez “erreurs de sens” et “préférences de mise en forme”.

Common questions

1) Quelle taille d’échantillon choisir pour un suivi régulier ?

Commencez avec 10 minutes d’audio par fichier (2×5 minutes) ou 500–800 mots. Si vos fichiers sont très variables, augmentez l’échantillon sur les cas “audio mauvais” et réduisez sur les cas “audio bon”.

2) Comment compter une omission : une ou plusieurs erreurs ?

Comptez une omission comme une erreur si elle correspond à un passage continu. Si l’omission contient plusieurs éléments critiques (ex. trois chiffres différents), notez la gravité plus haute et ajoutez un commentaire.

3) Le WER (Word Error Rate) suffit-il ?

Le WER est utile pour une mesure “mots”, mais il ne couvre pas bien la diarisation, les timecodes, ou le respect des consignes. Un scorecard avec catégories vous aide à décider quoi améliorer, pas seulement à constater.

4) Comment gérer les variations de style (verbatim vs clean) ?

Écrivez une règle claire : soit vous notez selon un style verbatim, soit selon un style “clean”. Si le style change selon le projet, ajoutez un champ “style attendu” et ne pénalisez pas ce qui est conforme.

5) Comment savoir si le problème vient de l’audio ou du fournisseur ?

Croisez le taux d’erreur avec un indicateur audio (bon/moyen/mauvais). Si tous les vendors chutent sur les mêmes audios, l’audio est probablement la cause principale, et l’action prioritaire est la capture.

6) Peut-on utiliser le scorecard pour des sous-titres ?

Oui, mais ajoutez des catégories “segmentation” et “timecodes”, et précisez vos règles de longueur de ligne et de découpe. Pour des besoins dédiés, vous pouvez aussi passer par des services de sous-titrage et de captioning.

7) Qui doit faire la revue qualité ?

L’idéal est une personne qui connaît le domaine (terminologie) et la règle de comptage. Si plusieurs personnes relisent, faites une courte calibration : 1 même extrait, puis comparez le comptage pour aligner les critères.

Si vous cherchez à combiner vitesse et contrôle, vous pouvez aussi démarrer avec une solution d’transcription automatique puis sécuriser les livrables importants avec une étape de relecture de transcription. Pour des contenus destinés à l’accessibilité ou à la vidéo, explorez aussi les services de sous-titrage pour malentendants (closed captions).

Quand vous êtes prêt à standardiser vos livrables et à suivre la qualité dans la durée, GoTranscript peut vous aider avec les bonnes options, de l’IA à la vérification humaine. Découvrez nos professional transcription services pour choisir un format et un niveau de contrôle adaptés à vos besoins.