Blog chevron right Guides pratiques

Contrôle de version des transcriptions : Raw → Clean → Coded (workflow simple)

Andrew Russo
Andrew Russo
Publié dans Zoom mars 17 · 20 mars, 2026
Contrôle de version des transcriptions : Raw → Clean → Coded (workflow simple)

Pour éviter que votre équipe code la mauvaise transcription, adoptez un contrôle de version simple : un fichier brut (raw) jamais modifié, une version nettoyée (clean) avec des edits tracés, puis une version codée (coded) figée pour l’analyse. Ce workflow protège l’original, rend les changements visibles et réduit les erreurs quand plusieurs personnes travaillent sur les mêmes entretiens. Voici une méthode claire, avec des règles de nommage et un journal de modifications, que vous pouvez mettre en place en une journée.

Mot-clé principal : contrôle de version des transcriptions.

Pourquoi versionner une transcription (et ce qui casse quand on ne le fait pas)

Une transcription bouge souvent plus que prévu : corrections de noms, ajouts d’horodatage, normalisation du langage, puis codage et extraction de citations. Sans règles, on se retrouve vite avec “final_v3_definitif_bis.docx”, et personne ne sait laquelle sert pour le codage.

Les problèmes les plus fréquents viennent de trois confusions : l’original audio vs le texte, la version “propre” vs la version “prête à coder”, et les modifications invisibles. Vous perdez alors du temps à comparer des fichiers, et vous risquez de tirer des conclusions à partir d’une version non validée.

  • Risque 1 : coder une version non nettoyée (erreurs, incohérences de locuteurs, sections manquantes).
  • Risque 2 : écraser l’original (impossible de vérifier une citation).
  • Risque 3 : mélanger des versions (deux personnes codent deux textes différents).
  • Risque 4 : ne pas pouvoir expliquer “qui a changé quoi, et pourquoi”.

Le système simple Raw → Cleaned → Coded (avec fichiers immuables)

Le principe central : vous ne modifiez jamais la version Raw, et vous verrouillez la version Coded qui sert de référence pour l’analyse. Entre les deux, la version Cleaned porte les corrections, mais de façon contrôlée et traçable.

Définitions (à coller dans votre guide d’équipe)

  • Raw (brut, immuable) : transcription telle que produite (automatique ou humaine), sans “nettoyage” éditorial, uniquement des corrections minimales si votre process l’exige, mais sans réécriture.
  • Cleaned (nettoyée, contrôlée) : version corrigée pour être lisible et cohérente (locuteurs, ponctuation, noms propres, suppression de répétitions si votre méthodo l’autorise), avec un journal de changements.
  • Coded (codée, figée) : copie de la version Cleaned, dédiée au codage (dans un outil ou directement dans le document), puis verrouillée dès que le codage démarre.

Règle d’or

Une fois que le codage commence, vous ne modifiez plus le texte de la version Coded. Si vous devez corriger une erreur, vous ouvrez un “correctif” via une nouvelle version (ou une note), puis vous documentez l’impact sur le codage.

Arborescence de dossiers et droits : la base pour éviter les erreurs

Un bon nommage ne suffit pas si tout le monde peut modifier tout. Utilisez une structure simple et des droits qui rendent la mauvaise action difficile.

Structure de dossiers recommandée

  • 00_ADMIN (guide, conventions, log global)
  • 01_AUDIO_RAW (audio original, lecture seule)
  • 02_TRANSCRIPTS_RAW (textes bruts, lecture seule)
  • 03_TRANSCRIPTS_CLEAN (nettoyages en cours, droits limités)
  • 04_TRANSCRIPTS_CODED_LOCKED (versions codées, verrouillées)
  • 05_EXPORTS (citations, tableaux, exports anonymisés)

Réglage des droits (simple et efficace)

  • Raw audio + Raw transcripts : lecture seule pour tout le monde, écriture pour 1–2 responsables.
  • Clean : écriture pour les éditeurs désignés, lecture pour le reste de l’équipe.
  • Coded locked : écriture interdite après “lock”, lecture pour l’équipe, écriture uniquement via procédure.

Si vous travaillez dans un drive partagé, utilisez la fonction “restreindre la modification” et conservez une copie PDF verrouillée pour la version Coded, en plus du format de travail.

Règles de nommage : empêcher le codage sur la mauvaise version

Le but du nommage n’est pas d’être joli, mais d’être sans ambiguïté. Une personne doit pouvoir identifier le bon fichier en 5 secondes, sans l’ouvrir.

Le modèle de nom de fichier (robuste et lisible)

  • [Projet]_[Type]_[IDEntretien]_[Date]_[Langue]_[Version]_[Statut]

Exemple :

  • ETUDE2026_TRN_RAW_INT012_2026-03-02_FR_v01_IMMUTABLE.docx
  • ETUDE2026_TRN_CLEAN_INT012_2026-03-02_FR_v02_READY.docx
  • ETUDE2026_TRN_CODED_INT012_2026-03-02_FR_v01_LOCKED.pdf

Règles de version (à appliquer partout)

  • v01, v02, v03 : toujours deux chiffres, jamais “final”.
  • Une seule source de vérité : le fichier le plus haut en version dans le bon dossier.
  • Statut explicite : IMMUTABLE, IN_EDIT, READY, LOCKED.
  • Date au format ISO (AAAA-MM-JJ) pour trier correctement.

Règles anti-erreur (très utiles en équipe)

  • Interdiction de renommer un fichier hors convention (sinon vous cassez la traçabilité).
  • Pas de “copier-coller” de sections d’une version à une autre sans l’écrire dans le log.
  • Pas de codage dans un fichier qui n’a pas le statut READY ou LOCKED.

Workflow complet, étape par étape (avec journal de changements)

Ce workflow vise à préserver l’original, limiter les edits au bon moment, puis figer ce qui sert à l’analyse. Vous pouvez l’adapter, mais gardez l’ordre Raw → Clean → Coded.

Étape 1 : ingestion et verrouillage du Raw

  • Déposez l’audio dans 01_AUDIO_RAW et ne le modifiez plus.
  • Créez/recevez la transcription brute et placez-la dans 02_TRANSCRIPTS_RAW.
  • Ajoutez le tag IMMUTABLE dans le nom et mettez le dossier en lecture seule.

Étape 2 : création de la version Cleaned (copie contrôlée)

  • Dupliquez le Raw vers 03_TRANSCRIPTS_CLEAN en incrémentant la version.
  • Passez le statut à IN_EDIT pendant le nettoyage.
  • Activez le suivi des modifications si vous travaillez en traitement de texte, ou gardez une trace claire des edits.

Étape 3 : nettoyage (ce que vous pouvez changer, et ce que vous évitez)

Définissez votre “nettoyage” selon votre méthode (recherche, UX, juridique), puis appliquez-le de manière constante. L’objectif reste de rendre la lecture fiable, pas de réécrire le sens.

  • Souvent acceptable : correction des noms propres, uniformisation des locuteurs (Interviewer/Participant), ponctuation, suppression des hésitations si vous le faites partout, ajout de timecodes si nécessaire.
  • À éviter : reformuler des phrases pour “faire plus beau”, supprimer des répétitions qui portent du sens, corriger des faits (vous ne savez pas), lisser un langage qui est une donnée.

Étape 4 : journal de changements (obligatoire et court)

Créez un fichier CHANGELOG.csv (ou un tableau) au niveau du projet, et mettez une ligne par modification significative. Gardez-le simple, sinon personne ne le remplit.

  • Champs conseillés : fichier, version, date, auteur, type de changement, description courte, impact sur le codage (oui/non).

Exemple de ligne : “INT012 v02, 2026-03-05, AB, locuteurs, inversion S1/S2 corrigée, impact codage = oui”.

Étape 5 : validation et passage en READY

  • Faites une relecture rapide : noms, locuteurs, sections manquantes, cohérence globale.
  • Passez le statut du fichier à READY quand il est prêt à être codé.
  • Si vous travaillez à plusieurs, faites valider par une autre personne (même 5 minutes).

Étape 6 : création de la version Coded et verrouillage

  • Copiez le fichier READY vers 04_TRANSCRIPTS_CODED_LOCKED.
  • Renommez en CODED et démarrez à v01 dans cet espace.
  • Créez une version verrouillée (PDF) et gardez-la à côté comme référence stable.

Ensuite, vous codez uniquement dans ce dossier, sur le fichier marqué LOCKED. Si un changement est nécessaire, vous créez une nouvelle version Clean, vous documentez, puis vous décidez si vous recodez la partie impactée.

Pitfalls : les erreurs classiques (et comment les éviter)

Les erreurs arrivent souvent quand le texte “bouge” pendant que le codage avance. Voici des garde-fous simples.

  • “On a corrigé juste une virgule” : même une petite correction peut déplacer une citation ou changer une recherche de mots, donc logguez-la si elle touche un passage codé.
  • Deux nettoyages en parallèle : évitez-le, sinon vous fusionnez à la main et vous perdez la trace.
  • Des IDs d’entretiens qui changent : fixez l’ID au début (INT012 reste INT012 partout, même si le participant se désiste).
  • Des citations sans référence : exigez un identifiant de fichier + numéro de ligne ou timecode pour chaque citation.
  • Des outils différents sans standard : si une partie code dans un tableur et l’autre dans un outil qualitatif, définissez un export commun.

Critères de décision : quel niveau de contrôle de version vous faut ?

Vous n’avez pas toujours besoin d’un outil de développeur pour versionner des transcriptions. Choisissez surtout un niveau de rigueur adapté à votre risque et à la taille de l’équipe.

Choisissez un workflow “léger” si

  • Vous êtes 1–2 personnes sur le projet.
  • Vous avez peu d’entretiens et peu d’itérations.
  • Vous n’avez pas d’exigences fortes d’audit (juridique, conformité, etc.).

Choisissez un workflow “strict” si

  • Vous codez à plusieurs et sur une longue période.
  • Vous devez justifier une citation ou un changement à tout moment.
  • Vous travaillez avec des données sensibles et vous devez limiter qui peut modifier quoi.

Dans les cas sensibles, documentez aussi vos règles de conservation et d’accès, et appuyez-vous sur des pratiques reconnues comme celles décrites par la présentation générale du RGPD pour guider votre gestion des données personnelles. Si vous produisez des sous-titres ou des transcriptions pour l’accessibilité, consultez aussi les WCAG du W3C pour comprendre les attentes côté contenu.

Key takeaways

  • Gardez une transcription Raw immuable et verrouillez-la en lecture seule.
  • Faites le nettoyage dans une copie Cleaned avec statut IN_EDIT puis READY.
  • Codez uniquement sur une version Coded figée, idéalement avec une copie PDF LOCKED.
  • Utilisez un changelog simple pour tracer les changements significatifs.
  • Adoptez un naming strict (ID, date ISO, version v01, statut) pour éviter les confusions.

Common questions

Faut-il toujours garder une version Raw si la transcription est déjà “propre” ?

Oui, car la version Raw sert de référence stable. Elle aide quand vous devez vérifier un passage, justifier une citation, ou revenir en arrière après un nettoyage trop agressif.

Que faire si je découvre une erreur après le début du codage ?

Ne modifiez pas le texte codé en silence. Corrigez dans Cleaned (nouvelle version), notez dans le changelog, puis décidez si vous mettez à jour la version codée et si vous recodez les segments touchés.

Dois-je coder sur Word, PDF, ou un outil spécialisé ?

Choisissez ce que votre équipe maîtrise, mais figez toujours le texte de référence. Un PDF LOCKED à côté du fichier de travail aide à garder une “preuve” stable du contenu codé.

Comment gérer les timecodes dans ce système ?

Ajoutez-les en Cleaned si vous en avez besoin pour naviguer dans l’audio ou citer précisément. Ensuite, gardez les timecodes identiques dans Coded pour éviter que les références bougent.

Comment éviter que deux personnes nettoient le même entretien ?

Assignez un éditeur par fichier et utilisez le statut IN_EDIT avec un champ “owner” (dans le nom ou dans un tableau de suivi). Vous pouvez aussi créer un dossier “IN_PROGRESS” pour signaler qu’un fichier est réservé.

Quel est le minimum viable si je n’ai pas le temps ?

Minimum : un dossier Raw en lecture seule, une copie Clean pour travailler, et une copie Coded verrouillée dès que le codage commence. Ajoutez ensuite le changelog dès que vous avez plus de 10 fichiers ou plus d’une personne.

Et si mon équipe utilise une transcription automatique ?

Le système reste le même : le fichier automatique devient votre Raw, puis vous nettoyez en Cleaned avant de coder. Si vous devez accélérer, vous pouvez aussi combiner transcription automatique et relecture ciblée via la transcription automatique, puis sécuriser la version finale avec une étape de vérification.

Si vous souhaitez limiter les erreurs avant le codage, une relecture dédiée peut aussi aider, par exemple via des services de relecture de transcription. Et quand vous êtes prêt à centraliser vos projets, GoTranscript propose des solutions adaptées, notamment des professional transcription services pour obtenir des transcriptions claires, cohérentes et faciles à intégrer dans un workflow Raw → Cleaned → Coded.