Blog chevron right Recherche

Archiver des histoires orales (audio + transcriptions) : checklist formats de fichiers et métadonnées

Daniel Chang
Daniel Chang
Publié dans Zoom févr. 22 · 22 févr., 2026
Archiver des histoires orales (audio + transcriptions) : checklist formats de fichiers et métadonnées

Pour archiver une histoire orale correctement, vous devez (1) choisir des formats de fichiers stables, (2) documenter le contexte avec des métadonnées claires, et (3) sécuriser l’intégrité avec des checksums et une structure de dossiers simple. Vous aurez ainsi des enregistrements réutilisables dans 10, 20 ou 50 ans, sans perdre le sens ni la preuve d’authenticité. Ce guide vous donne une checklist complète (audio + transcriptions), plus des règles d’accès pour les entretiens restreints.

  • Mot-clé principal : archivage histoire orale

Key takeaways

  • Gardez un master audio en WAV (PCM) et créez des copies d’accès en MP3/AAC.
  • Écrivez des métadonnées minimales dès la collecte (qui, quand, où, droits, restrictions, résumé).
  • Générez des checksums (ex. SHA-256) pour prouver qu’un fichier n’a pas changé.
  • Adoptez une structure de dossiers prévisible et des noms de fichiers lisibles.
  • Planifiez l’accès (public, sur place, embargo, accès sur demande) avant de publier quoi que ce soit.

1) Les fichiers à produire : “master”, “édition” et “accès”

Un archivage durable sépare les fichiers “de référence” (qui ne bougent pas) des fichiers “pratiques” (qui servent au montage, à la diffusion ou au travail). Cette séparation évite de dégrader votre source et facilite la conservation.

Le trio recommandé

  • Master de préservation (audio) : la meilleure qualité, sans perte, destiné à être conservé.
  • Fichier de production : éventuellement nettoyé, segmenté, ou normalisé pour le travail interne.
  • Copie d’accès : plus légère, pour l’écoute en ligne ou la consultation.

Le même principe pour la transcription

  • Transcription “source” : un format éditable (DOCX/ODT) pour corriger.
  • Transcription de préservation : un format stable (PDF/A + TXT/UTF-8) pour durer.
  • Transcription d’accès : HTML ou PDF standard pour la consultation, selon votre outil.

2) Formats recommandés (audio, texte, sous-titres) et ce qu’il faut éviter

Pour l’archivage, vous cherchez des formats ouverts, documentés et largement supportés. Pour l’accès, vous cherchez des formats compatibles avec les usages (web, mobile, montage).

Audio : recommandations simples

  • Master audio : WAV (PCM), idéalement 48 kHz, 24-bit, mono ou stéréo selon la prise.
  • Copie d’accès : MP3 (CBR ou VBR) ou AAC (M4A) pour streaming et partage.
  • Évitez comme master : MP3/AAC (perte), et tout format exotique peu documenté.

Transcriptions : un duo robuste

  • Préservation : TXT en UTF-8 (simple, durable) + PDF/A si vous devez conserver la mise en page.
  • Travail : DOCX ou ODT pour révisions, commentaires et suivi.
  • Évitez comme seule version : un PDF non modifiable sans garder un texte “brut” à côté.

Timecodes et sous-titres (si vous en avez)

  • Timecodes dans une transcription : insérez des repères réguliers (ex. toutes les 30–60 secondes) ou aux changements de sujet.
  • Fichiers de sous-titres : SRT ou VTT pour l’accès, car ce sont des formats très supportés.

Si votre projet vise l’accessibilité ou la diffusion vidéo, des sous-titres et des fichiers de légendes peuvent s’ajouter via des services de sous-titrage et captions.

3) Métadonnées : les champs minimums à capturer (et un modèle prêt à copier)

Sans métadonnées, un enregistrement devient vite inutilisable : on ne sait plus qui parle, ce qui a été autorisé, ni comment citer. Vous pouvez garder les métadonnées dans un tableur (CSV), un fichier JSON, ou un formulaire, tant que c’est cohérent.

Les champs “minimum vital” (à collecter dès le départ)

  • Identifiant : code unique (ex. OH_2026_001).
  • Titre : court, descriptif.
  • Interviewé·e : nom (ou pseudonyme), date de naissance (si autorisé), rôle.
  • Intervieweur·euse : nom.
  • Date et lieu : date, ville, pays, et contexte (chez la personne, studio, téléphone, visio).
  • Langue(s) : langue parlée, dialecte si pertinent.
  • Résumé : 5–10 lignes sur les sujets, périodes, événements.
  • Mots-clés : 5–15 mots (thèmes, lieux, institutions).
  • Droits et consentement : type d’accord, date de signature, restrictions.
  • Niveau d’accès : public / sur place / embargo jusqu’au AAAA-MM-JJ / accès sur demande.
  • Données sensibles : oui/non + type (santé, mineur, violences, identité, etc.).

Champs techniques recommandés (pour la préservation)

  • Équipement : micro, enregistreur, logiciel.
  • Paramètres audio : format, fréquence, bits, canaux.
  • Durée : hh:mm:ss.
  • Nom(s) de fichier : master + accès + transcription.
  • Checksum : SHA-256 (ou autre) pour chaque fichier.
  • Versioning : v01, v02, et raison du changement.

Modèle de fiche (exemple de structure)

  • ID : OH_2026_001
  • Titre : Entretien avec [Nom] sur [thème]
  • Résumé : …
  • Accès : Embargo jusqu’au 2036-01-01
  • Droits : Consentement signé le 2026-02-01
  • Fichiers : OH_2026_001_master.wav ; OH_2026_001_access.mp3 ; OH_2026_001_transcript.txt ; OH_2026_001_transcript.pdfa
  • Checksums : SHA-256 …

Pour des bases solides, vous pouvez vous inspirer des éléments de MODS (Library of Congress) pour décrire des objets numériques, sans forcément l’implémenter en entier.

4) Checksums : comment prouver qu’un fichier n’a pas été modifié

Un checksum est une “empreinte” calculée à partir d’un fichier. Si le fichier change, même d’un seul bit, l’empreinte change.

Quel algorithme choisir ?

  • SHA-256 : bon standard général pour vérifier l’intégrité.
  • MD5 : encore utilisé, mais moins robuste ; gardez-le seulement si votre outil l’impose.

Quand calculer les checksums ?

  • Au moment de l’ingestion : dès que vous copiez les fichiers vers le stockage d’archive.
  • Après chaque migration : changement de disque, de serveur, de cloud, ou de format.
  • En contrôle régulier : planifiez des vérifications périodiques (mensuelles, trimestrielles, ou annuelles).

Où stocker les checksums ?

  • Dans un fichier texte par dossier (ex. checksums_sha256.txt).
  • Et/ou dans votre table de métadonnées (colonne “checksum”).

Si vous gérez des données personnelles, gardez aussi un registre des accès et appliquez les principes de sécurité et de minimisation des données décrits par la CNIL sur le RGPD.

5) Structure de dossiers + nommage : une organisation qui survit aux années

Une bonne structure permet à n’importe qui (même plus tard) de comprendre où sont les masters, les copies, les formulaires et les transcriptions. Elle facilite aussi l’automatisation des sauvegardes et des contrôles.

Règles de nommage (simples et efficaces)

  • Utilisez un ID unique partout : dossier, fichiers, métadonnées.
  • Évitez les espaces et accents : préférez tirets - et underscores _.
  • Mettez la date au format AAAA-MM-JJ.
  • Indiquez le rôle du fichier : master, access, transcript, release.

Exemple de structure de dossiers (par entretien)

  • OH_2026_001/
    • 01_master/ (WAV, PDF/A “final”, scans de documents signés si autorisés)
    • 02_production/ (montage, nettoyage, notes de travail)
    • 03_access/ (MP3/M4A, PDF, VTT/SRT)
    • 04_metadata/ (CSV/JSON, README, checksums)
    • 05_rights/ (formulaires, restrictions, correspondances)

Le fichier README (souvent oublié, très utile)

  • Décrivez en 10 lignes : projet, conventions de nommage, contacts, règles d’accès.
  • Ajoutez un journal des changements (qui a modifié quoi, et pourquoi).

6) Accès, restrictions et confidentialité : décider avant de diffuser

Les histoires orales contiennent souvent des informations sensibles sur la vie privée, le travail, la santé ou des événements difficiles. Vous devez donc définir des niveaux d’accès clairs et les appliquer à l’audio et aux transcriptions.

Quatre niveaux d’accès (modèle simple)

  • Public : diffusion libre (site web, plateforme, salle).
  • Sur place : consultation uniquement dans un lieu contrôlé.
  • Embargo : accès bloqué jusqu’à une date.
  • Accès sur demande : examen au cas par cas, selon les motifs et le profil.

Contrôles concrets à mettre en place

  • Séparez physiquement les contenus restreints (dossier “restricted”, bucket dédié, ou dépôt distinct).
  • Appliquez le moindre privilège : seules les personnes qui en ont besoin peuvent accéder.
  • Journalisez les accès si vous le pouvez (qui, quand, quoi).
  • Masquez les données sensibles dans les copies d’accès (version expurgée), si c’est prévu par vos accords.

Attention aux transcriptions

  • Une transcription rend l’information recherchable, donc plus facile à exposer.
  • Si l’audio est restreint, la transcription doit souvent l’être aussi, sauf accord explicite.

Si vous publiez du contenu audio/texte, pensez aussi à l’accessibilité (navigation, lisibilité, sous-titres) et à la cohérence des droits sur chaque version.

Checklist : préparation d’une histoire orale pour la préservation à long terme

Utilisez cette liste avant de déposer vos fichiers dans un système d’archivage ou un stockage “froid”. Elle vise l’intégrité, la réutilisation et la sécurité.

A. Audio

  • ☐ Un master WAV (PCM) conservé sans montage destructif.
  • ☐ Une copie d’accès (MP3 ou M4A) testée sur plusieurs lecteurs.
  • ☐ Le fichier n’a pas de silences inutiles extrêmes, ou vous l’avez documenté.
  • ☐ Les paramètres audio (kHz, bit depth, canaux) sont notés.

B. Transcriptions

  • ☐ Une version éditable (DOCX/ODT) pour corrections.
  • ☐ Une version de préservation (TXT UTF-8 et/ou PDF/A).
  • ☐ Les noms des locuteurs sont cohérents (Intervieweur, Participant, etc.).
  • ☐ Les passages inaudibles sont marqués de façon standard (ex. [inaudible 00:12:34]).

C. Métadonnées

  • ☐ ID unique, titre, date, lieu, langue.
  • ☐ Résumé et mots-clés.
  • ☐ Droits, consentements, restrictions et durée d’embargo.
  • ☐ Informations techniques (équipement, logiciel si pertinent).

D. Intégrité et stockage

  • ☐ Checksums SHA-256 générés pour tous les fichiers.
  • ☐ Checksums stockés dans un fichier texte + dans la table de métadonnées (si possible).
  • ☐ Deux copies dans des emplacements différents (au minimum).
  • ☐ Procédure écrite de vérification régulière (qui fait quoi, quand).

E. Accès et confidentialité

  • ☐ Niveau d’accès défini (public / sur place / embargo / sur demande).
  • ☐ Dossiers “restricted” séparés et permissions appliquées.
  • ☐ Version expurgée créée si nécessaire, et documentée.
  • ☐ Un README explique les règles d’accès et les contacts.

Common questions

  • Dois-je garder l’audio brut (non nettoyé) ?
    Oui, gardez-le comme master si possible, et créez une version de production si vous faites du nettoyage.
  • WAV prend trop de place : puis-je archiver en MP3 ?
    Pour l’accès, oui ; pour la préservation, évitez, car la compression avec perte enlève de l’information.
  • Quelle différence entre transcription et sous-titres ?
    La transcription vise le texte complet (souvent avec repères), les sous-titres sont découpés pour la lecture synchronisée.
  • Comment gérer un entretien avec plusieurs sessions ?
    Gardez un même ID d’entretien avec des suffixes (ex. OH_2026_001_s01, s02) et une métadonnée “partie”.
  • Puis-je anonymiser une histoire orale ?
    Oui, mais documentez clairement ce qui a été modifié, et conservez une version non anonymisée uniquement si vos droits le permettent.
  • À quoi sert le PDF/A ?
    C’est une variante de PDF pensée pour l’archivage, utile si vous devez préserver la mise en page sur le long terme.
  • Que faire si je dois partager la transcription à une équipe ?
    Partagez une copie de travail, gardez le master en lecture seule, et utilisez un système de versions.

Choisir l’aide adaptée (transcription, relecture, formats)

Si vous préparez une collection, la transcription et la normalisation (noms de locuteurs, repères temporels, cohérence des fichiers) prennent du temps. Vous pouvez aussi externaliser une partie du flux, puis garder la main sur les métadonnées, les droits et les contrôles.

GoTranscript peut vous aider à produire des transcriptions fiables et exploitables, ainsi que des fichiers utiles pour l’accès et la diffusion. Quand vous êtes prêt·e à démarrer ou à standardiser votre collection, consultez nos professional transcription services.