Blog chevron right Autre

Construire un corpus à partir de transcriptions : nettoyage, normalisation et modèle de métadonnées

Michael Gallagher
Michael Gallagher
Publié dans Zoom mars 8 · 8 mars, 2026
Construire un corpus à partir de transcriptions : nettoyage, normalisation et modèle de métadonnées

Pour construire un corpus à partir de transcriptions, vous devez rendre les fichiers cohérents, définir des règles de normalisation, découper le texte en unités utiles, puis ajouter des métadonnées claires. Vous évitez ainsi les erreurs de recherche, les doublons et les analyses biaisées. Ce guide vous donne un processus simple, une politique de normalisation réaliste et un modèle de métadonnées prêt à copier.

Mot-clé principal : construire un corpus à partir de transcriptions.

Key takeaways

  • Figez une « version source » (brute) et une « version de travail » (nettoyée) pour ne rien perdre.
  • Écrivez vos règles de normalisation avant de modifier les fichiers (orthographe, ponctuation, nombres, hésitations).
  • Segmentez selon votre usage : tours de parole, phrases, timecodes, ou fenêtres fixes.
  • Créez des métadonnées minimales mais stables, avec des champs obligatoires et des valeurs contrôlées.
  • Normalisez pour la recherche, mais gardez certains phénomènes linguistiques si vous les analysez (rire, pauses, disfluences).

1) Clarifier l’objectif du corpus avant de nettoyer

Vos choix de nettoyage et de normalisation dépendent de ce que vous voulez mesurer. Un corpus pour l’analyse thématique n’a pas les mêmes besoins qu’un corpus pour l’oral, la sociolinguistique ou l’entraînement d’un modèle.

Avant de toucher aux fichiers, notez ces décisions dans un document « règles du corpus » (1 page suffit). Vous y gagnerez du temps et vous pourrez justifier vos choix plus tard.

Questions à trancher en 10 minutes

  • Usage principal : recherche qualitative, NLP, indexation interne, e-discovery, sous-titrage, etc.
  • Unité d’analyse : phrase, tour de parole, minute, sujet, question/réponse.
  • Niveau de fidélité à l’oral : verbatim strict vs verbatim « nettoyé ».
  • Langues et variantes : français (FR), français (CA), mélange de langues, argot, etc.
  • Contraintes : anonymisation, consentements, diffusion, accès restreint.

Bon réflexe : versionner dès le départ

  • Version 0 (source) : la transcription telle que reçue, inchangée.
  • Version 1 (nettoyée) : correction des artefacts techniques et mise en forme.
  • Version 2 (normalisée) : application de règles linguistiques.

Gardez les trois versions, même si vous n’en publiez qu’une. Vous évitez de perdre des informations utiles et vous pouvez revenir en arrière.

2) Nettoyage : rendre les transcriptions exploitables sans changer le sens

Le nettoyage vise surtout la cohérence et la suppression des parasites. Vous ne cherchez pas encore à « corriger » la langue, mais à obtenir des fichiers lisibles et comparables.

Étape A : harmoniser les formats de fichiers

  • Choisissez un format texte stable : TXT ou CSV/TSV pour l’analyse, DOCX pour l’édition.
  • Fixez l’encodage en UTF-8 pour éviter les caractères cassés.
  • Un fichier = un enregistrement (ou une session), avec un identifiant unique dans le nom.

Étape B : supprimer les artefacts techniques

  • Retirez les en-têtes répétées, les pieds de page, les numéros de page, et les horodatages doublés.
  • Corrigez les sauts de ligne incohérents (phrases coupées au milieu).
  • Uniformisez les espaces : un espace après la ponctuation, pas de doubles espaces.

Étape C : vérifier les marqueurs de locuteurs

Un corpus oral devient vite inutilisable si les tours de parole ne sont pas cohérents. Choisissez une forme unique, par exemple SPK01:, INTERV:, INVITÉ:.

  • Un locuteur = un identifiant stable (évitez « Jean » si vous anonymisez).
  • Une prise de parole = une ligne (ou un bloc) clairement délimité.
  • Ne mélangez pas les styles : pas un coup « - » et un coup « : ».

Étape D : contrôler la qualité minimale

  • Repérez les segments incompréhensibles (ex. [inaudible]) et gardez un marqueur standard.
  • Signalez les chevauchements si c’est important (ex. [overlap]).
  • Notez les coupures audio (ex. [audio coupé 00:13:22]).

Si vous devez améliorer une transcription avant de créer le corpus, une relecture dédiée peut aider, par exemple via des services de relecture de transcription.

3) Normalisation : règles simples qui améliorent la recherche (sans tout lisser)

La normalisation rend les textes comparables, donc plus faciles à chercher et à analyser. Elle peut toutefois effacer des phénomènes linguistiques, donc vous devez l’appliquer avec mesure.

Créer une « politique de normalisation » (à écrire et à figer)

Évitez les décisions au cas par cas. Écrivez des règles, des exemples, et des exceptions, puis appliquez-les à tout le corpus.

Règles recommandées (base)

  • Casse : conservez la casse normale, évitez le tout en majuscules.
  • Accents : conservez-les (ils portent du sens en français).
  • Nombres : choisissez « 12 » ou « douze », puis restez cohérent.
  • Dates/heures : un format unique (ex. 2026-03-08, 14:30).
  • Abréviations : développez ou conservez (ex. “rdv” → “rendez-vous”) selon l’usage.

Variantes orthographiques : quoi faire en pratique

Les variantes (ex. “email/e-mail/courriel”, “connexion/connection”) perturbent les recherches. Vous pouvez résoudre cela de deux façons, selon votre objectif.

  • Option 1 (normalisation forte) : vous choisissez une forme canonique et vous remplacez partout.
  • Option 2 (normalisation faible) : vous gardez la forme originale, mais vous ajoutez un champ « lemme/canonique » dans les données.

Pour un corpus linguistique, l’option 2 protège mieux les phénomènes. Pour un corpus d’entreprise orienté recherche, l’option 1 est souvent suffisante.

Politique de ponctuation (exemple simple)

  • Conservez ., ? ! car ils aident la segmentation.
  • Uniformisez les guillemets : « … » ou "…", mais pas les deux.
  • Remplacez les suites de points “...” par un symbole unique (ou gardez “…”).
  • Limitez les exagérations (“!!!!!”) à un seul signe si votre but est la recherche.

Disfluences, hésitations, rires : préserver ou supprimer ?

Ces éléments peuvent être « du bruit » ou des données centrales. Décidez selon vos analyses.

  • Si vous analysez le contenu : vous pouvez supprimer “euh”, “hum”, et garder seulement les rires pertinents.
  • Si vous analysez l’oral : gardez les hésitations, les répétitions, et marquez les pauses.
  • Si vous entraînez un modèle : gardez une version verbatim, et une version normalisée pour des tâches de recherche.

Bon compromis : deux couches de texte

  • text_raw : proche de la transcription, avec phénomènes oraux.
  • text_norm : version normalisée, utile pour indexer et chercher.

Ce duo réduit les conflits entre « propreté » et « fidélité ».

4) Segmentation : découper pour analyser, citer et entraîner

La segmentation consiste à découper le texte en unités stables. Elle impacte les statistiques, la recherche, et même la façon de citer des extraits.

Quatre méthodes courantes

  • Par tour de parole : idéal pour l’interaction et l’oral.
  • Par phrase : pratique pour NLP et recherche plein texte.
  • Par timecode (ex. toutes les 10 secondes) : utile si vous reliez audio/vidéo.
  • Par segments thématiques : utile en qualitatif, mais plus subjectif.

Règles simples pour une segmentation robuste

  • Donnez un identifiant unique à chaque segment (ex. DOC001_S023).
  • Gardez un pointeur vers la source (fichier et timecode si disponible).
  • Évitez les segments trop longs (difficiles à étiqueter) ou trop courts (perte de contexte).

Timecodes : quand les garder

Gardez les timecodes si vous prévoyez de revenir à l’audio, de faire des extraits, ou de produire des sous-titres. Si vous publiez des vidéos, des services de sous-titrage codé (closed captions) peuvent aussi imposer une segmentation temporelle stricte.

5) Métadonnées : rendre le corpus filtrable, réutilisable et vérifiable

Sans métadonnées, votre corpus devient vite un dossier de textes difficile à exploiter. Avec des métadonnées cohérentes, vous pouvez filtrer par source, date, genre, locuteur, langue, ou qualité.

Principes de métadonnées (simples mais solides)

  • Stabilité : un champ ne change pas de sens en cours de route.
  • Valeurs contrôlées : utilisez des listes (ex. “interview”, “réunion”, “cours”).
  • Minimales : mieux vaut 12 champs bien remplis que 40 champs vides.
  • Traçabilité : gardez l’origine (qui, quand, comment).

Modèle de métadonnées (template à copier)

Vous pouvez stocker ces champs dans un fichier metadata.csv (1 ligne par document) et, si besoin, un segments.csv (1 ligne par segment).

Template « document » (1 ligne = 1 transcription)

  • doc_id : DOC001
  • titre : Entretien produit A
  • type : interview | réunion | podcast | cours | appel_support
  • date_enregistrement : 2026-03-08
  • langue_principale : fr-FR
  • autres_langues : en | ar | none
  • duree_sec : 1832
  • nb_locuteurs : 2
  • liste_locuteurs : SPK01;SPK02
  • qualite_audio : bonne | moyenne | faible | inconnue
  • taux_inaudible : faible | moyen | élevé | inconnu
  • niveau_verbatim : strict | nettoyé | mixte
  • presence_timecodes : oui | non
  • source : zoom | téléphone | studio | terrain
  • droits_acces : interne | public | restreint
  • anonymisation : aucune | partielle | totale
  • consentement : oui | non | inconnu
  • transcripteur : interne | prestataire | IA
  • version_transcription : v2_norm
  • notes : bruit de fond à 00:12

Template « segment » (optionnel, conseillé pour l’analyse)

  • segment_id : DOC001_S023
  • doc_id : DOC001
  • speaker_id : SPK02
  • start_time : 00:12:10
  • end_time : 00:12:34
  • text_raw : Ben euh je pense que…
  • text_norm : Je pense que…
  • tokens : (optionnel) 12
  • tags : (optionnel) objection;prix

Baliser les locuteurs sans perdre d’information

  • Utilisez des identifiants neutres (SPK01) et mettez les infos sensibles ailleurs.
  • Si vous avez des variables (âge, rôle), stockez-les dans une table séparée « speakers.csv ».
  • Évitez d’inférer des attributs (genre, origine) sans source explicite.

6) Pièges fréquents et critères de décision (normaliser vs préserver)

Le plus grand risque est d’appliquer des corrections “propres” qui détruisent ce que vous vouliez étudier. Le second risque est l’inverse : ne rien harmoniser et rendre le corpus inexploitable.

Pièges à éviter

  • Écraser l’oral : supprimer hésitations et répétitions alors que vous étudiez la parole.
  • Mélanger des règles : un fichier en “vous”, un autre en “tu”, sans le noter.
  • Changer le sens : remplacer des mots incertains au lieu de marquer l’incertitude.
  • Perdre la traçabilité : pas de lien vers l’audio ou la version source.
  • Oublier l’anonymisation : laisser des noms, emails, numéros dans un corpus partagé.

Grille simple pour décider quoi normaliser

  • Utile pour la recherche ? Si oui, normalisez (ex. dates, formats, variantes évidentes).
  • Utile pour l’analyse linguistique ? Si oui, préservez (ex. “euh”, rires, chevauchements).
  • Risque légal / vie privée ? Si oui, anonymisez ou supprimez, et notez-le.

Documenter vos décisions (obligatoire si vous partagez le corpus)

Ajoutez un fichier README avec : format, règles, liste des marqueurs, et exemples avant/après. Pour des données personnelles en Europe, gardez en tête les principes du RGPD (minimisation, finalité, sécurité).

Common questions

  • Dois-je garder une transcription verbatim et une version nettoyée ?
    Oui, si vous pouvez, car cela protège la fidélité et facilite la recherche avec une version normalisée.
  • Quel est le meilleur format pour stocker un corpus ?
    Pour l’analyse, TXT + CSV/TSV marche très bien, avec UTF-8 et un schéma de métadonnées stable.
  • Comment gérer les mots incompris ?
    Utilisez un marqueur unique (ex. [inaudible]) et, si possible, ajoutez un timecode pour revenir à l’audio.
  • Faut-il corriger la grammaire et le style ?
    Seulement si votre objectif est éditorial ou de recherche plein texte, et idéalement dans une couche séparée (text_norm).
  • Comment gérer les variantes comme “e-mail/email” ?
    Soit vous choisissez une forme canonique (normalisation forte), soit vous conservez l’original et vous stockez une forme canonique à côté (normalisation faible).
  • Dois-je segmenter par phrase ou par tour de parole ?
    Par tour de parole pour l’oral et l’interaction, par phrase pour NLP et recherche, et par timecode si vous reliez audio/vidéo.
  • Comment anonymiser sans casser le corpus ?
    Remplacez les entités par des balises stables (ex. [NOM_1]) et notez la méthode dans les métadonnées.

Conclusion : un corpus utile = règles claires + versions + métadonnées

Un bon corpus ne dépend pas d’un outil magique, mais d’un processus stable. Si vous gardez une version source, une version normalisée, des segments identifiables et des métadonnées simples, vous pourrez chercher, filtrer et analyser sans surprises.

Si vous partez d’audios ou de vidéos et que vous devez d’abord obtenir des transcriptions fiables, GoTranscript peut vous aider avec des professional transcription services, puis vous pouvez appliquer les étapes de ce guide pour construire un corpus propre et réutilisable.