Pour importer ou exporter une transcription dans ELAN sans casser les timecodes, gardez toujours les temps dans le fichier .eaf comme « source de vérité » et utilisez CSV/texte surtout pour l’analyse, la relecture ou l’archivage lisible. Le risque principal vient des conversions (format de temps, séparateurs, encodage) et de la perte de structure (tiers, contraintes, relations). Ce guide vous montre des flux sûrs, les formats à privilégier et une checklist pour éviter les segments décalés.
Mot-clé principal : importer exporter ELAN timecodes
Comprendre ce qui casse les timecodes dans ELAN
ELAN stocke vos annotations et leurs timecodes dans le fichier .eaf, qui référence souvent un média (audio/vidéo) et une échelle de temps interne. Quand vous passez par du CSV ou du texte, vous sortez de ce modèle, donc vous devez reconstruire correctement les temps à la réimportation.
En pratique, les timecodes se cassent surtout à cause d’un détail de format, pas à cause d’ELAN lui-même.
Les causes les plus fréquentes
- Format de temps incohérent (hh:mm:ss,ms vs secondes décimales, virgule vs point).
- Arrondi (ex. 12,345 s devient 12,35 s et décale les segments).
- Changement de séparateur (CSV avec « ; » en France, mais fichier produit en « , »).
- Encodage (UTF-8 vs ANSI) qui abîme les caractères et parfois les délimiteurs.
- Perte de structure de tiers (tiers dépendants, contraintes temporelles, relations parent/enfant).
- Modification de l’ordre des colonnes entre export et import.
- Décalage média (fichier audio/vidéo remplacé, resynchronisé, ou version avec silence ajouté).
Règle simple
Si votre objectif est de conserver les timecodes et la structure ELAN, conservez et archivez toujours le .eaf + le média d’origine. Utilisez CSV/texte comme dérivé, pas comme format maître.
Quels formats utiliser selon votre objectif (et ce qu’ils préservent)
Avant de choisir CSV ou texte, clarifiez votre usage : analyse, partage, archivage, ou retour dans ELAN. Un bon flux dépend surtout de ce choix.
Formats courants autour d’ELAN
- .eaf : format natif ELAN, conserve tiers, contraintes, time alignment, liens au média.
- Texte (TXT) : lisible, utile pour relecture, mais perd presque toute la structure.
- CSV : pratique pour tableurs et scripts, peut conserver des colonnes de temps, mais pas les relations complexes de tiers.
Ce que CSV/Texte ne gardent pas bien
- Hiérarchies (tiers dépendants, annotations “ref” vs “alignables”).
- Contraintes (Time Subdivision, Symbolic Subdivision, Included In).
- Métadonnées ELAN (linguistique, contrôles, préférences) si vous ne les exportez pas explicitement.
Si vous devez absolument réimporter dans ELAN, prévoyez dès le départ une table qui porte clairement : Tier, Start, End, Value (et éventuellement un ID stable).
Workflow sûr : exporter depuis ELAN vers CSV/Texte sans perdre l’alignement
L’objectif de l’export est de sortir des données sans que les temps changent et sans ambiguïté sur ce que représente chaque ligne. Pour cela, standardisez votre format de temps et verrouillez vos séparateurs.
Étape 1 : figer la base (avant export)
- Dupliquez votre .eaf (copie de travail) et gardez un original intact.
- Vérifiez que le bon fichier média est lié (même durée, même version).
- Décidez d’un format de temps unique pour tout le projet (ex. hh:mm:ss,ms).
Étape 2 : choisir le bon export selon l’usage
- Pour analyse (Excel/R/Python) : CSV avec colonnes Start/End et noms de tiers.
- Pour relecture simple : texte avec timecodes visibles et un séparateur clair entre champ temps et contenu.
- Pour archivage : .eaf + média + un export CSV (facultatif) + une note README.
Étape 3 : protéger les timecodes à l’export
- Évitez les temps en « secondes décimales » si votre chaîne (tableur, scripts) arrondit.
- Conservez les millisecondes (ms) sans arrondi si possible.
- Utilisez toujours le même séparateur CSV (souvent « ; » en France) et documentez-le.
- Choisissez UTF-8 pour éviter les caractères cassés (accents, IPA, symboles).
Astuce : dans un tableur, forcez les colonnes Start/End en texte pour éviter que le logiciel ne “reformate” le temps.
Workflow sûr : importer un CSV/Texte dans ELAN sans casser les timecodes
L’import est plus risqué que l’export, car vous demandez à ELAN de reconstruire des annotations alignées. Réussir l’import dépend surtout d’un fichier propre et d’une structure de tiers décidée avant.
Avant d’importer : définissez la cible dans ELAN
- Créez ou vérifiez les tiers attendus (mêmes noms, mêmes conventions).
- Décidez si vos annotations doivent être alignables (avec Start/End) ou référencées (dépendantes d’un parent).
- Si vous avez des tiers dépendants, importez d’abord le tier parent aligné, puis reconstruisez les enfants.
Structure minimale recommandée pour un CSV réimportable
- tier : nom exact du tier.
- start : timecode de début (format stable).
- end : timecode de fin (format stable).
- value : texte de l’annotation.
- id (optionnel) : identifiant unique pour suivi et corrections.
Règles de temps à respecter (pour éviter les décalages)
- Start < End, toujours.
- Évitez les segments de durée zéro (Start = End).
- Gardez une précision constante (ex. toujours ms).
- N’utilisez pas de virgule dans les nombres si le parseur attend un point (et inversement).
Préserver la structure de tiers (ce que vous pouvez faire)
- Incluez une colonne parent_id si vous comptez reconstruire des dépendances via script.
- Si vous ne pouvez pas reconstruire automatiquement, exportez séparément chaque tier ou groupe de tiers et réimportez dans le bon ordre.
- Documentez vos conventions de nommage (ex. SPK1_Orth, SPK1_Gloss) dans un README.
Si votre projet repose sur une hiérarchie riche, gardez le .eaf comme format de travail et évitez de “tourner” tout le projet en CSV puis de revenir en arrière.
Checklist d’export : analyse, partage, archivage
Cette checklist réduit les surprises quand vous rouvrez le projet des mois plus tard ou quand vous partagez des fichiers à une autre équipe. Elle vous aide aussi à repérer vite un fichier « à risque ».
Checklist rapide (à cocher)
- ☐ Je garde .eaf + le média original (même nom, même durée).
- ☐ Je note la version du média (date, export, montage).
- ☐ Je choisis un format de timecode unique et je le note (ex. hh:mm:ss,ms).
- ☐ Je conserve les colonnes tier/start/end/value dans le CSV.
- ☐ Je verrouille le séparateur CSV (comma ou point-virgule) et je l’indique.
- ☐ J’exporte en UTF-8.
- ☐ Je vérifie 5–10 lignes au hasard : start/end cohérents, texte intact.
- ☐ Je crée un README (structure des tiers, encodage, séparateur, format de temps).
Checklist spécifique « analyse »
- ☐ Les timecodes sont en texte (pas convertis automatiquement).
- ☐ Les sauts de ligne dans les cellules sont gérés (sinon ils cassent le CSV).
- ☐ J’ai une colonne ID si je dois faire des allers-retours de corrections.
Checklist spécifique « archivage »
- ☐ J’archive aussi les fichiers associés (lexiques, templates, notes de terrain).
- ☐ Je garde les noms de fichiers stables (éviter “final_v7_OK”).
- ☐ Je teste l’ouverture sur une autre machine (si possible) avant de clôturer.
Erreurs courantes (et corrections rapides)
Quand un import/export “casse”, le symptôme le plus visible est un décalage progressif ou des annotations qui tombent au mauvais endroit. Voici des cas typiques avec des actions simples.
1) Segments décalés (misaligned segments)
- Symptôme : tout est décalé de quelques secondes, ou le décalage augmente au fil du temps.
- Causes possibles : mauvais fichier média, version montée, framerate différent, arrondi des temps.
- Fix : reliez exactement le média d’origine, puis réimportez depuis un export non arrondi (ms conservées).
2) Start/End inversés ou durées zéro
- Symptôme : import incomplet, erreurs, ou annotations invisibles.
- Cause : tri, copier-coller, conversion tableur.
- Fix : validez le CSV avant import (filtrez Start >= End), corrigez et réessayez.
3) Problèmes d’encodage (accents, IPA, caractères carrés)
- Symptôme : caractères remplacés, textes coupés, colonnes qui « bougent ».
- Cause : fichier enregistré en ANSI/Windows-1252, ou mauvais choix d’encodage à l’import.
- Fix : réenregistrez en UTF-8 (idéalement UTF-8 sans BOM si votre chaîne le préfère) et réimportez.
4) CSV “cassé” à cause de retours à la ligne dans les cellules
- Symptôme : lignes décalées, colonnes qui ne correspondent plus.
- Cause : une annotation contient un saut de ligne non protégé.
- Fix : remplacez les retours à la ligne par « \n » ou espace, ou assurez-vous que les champs texte sont bien entre guillemets.
5) Perte de structure de tiers
- Symptôme : tout arrive dans un seul tier, ou les tiers enfants ne se reconstruisent pas.
- Cause : export trop simple (texte) ou CSV sans info de tier/parent.
- Fix : réexportez en incluant la colonne tier, et reconstruisez les tiers dépendants à partir des parents (souvent via étape intermédiaire ou script).
Common questions
- Est-ce que je peux travailler uniquement en CSV puis revenir dans ELAN ?
Vous pouvez pour des annotations simples alignées, mais vous risquez de perdre les relations de tiers et certaines contraintes, donc gardez le .eaf comme format principal. - Quel format de timecode est le plus sûr pour éviter l’arrondi ?
Un format avec millisecondes explicites (ex. hh:mm:ss,ms) reste généralement plus stable qu’une valeur en secondes décimales manipulée par un tableur. - Pourquoi mon CSV s’ouvre mal dans Excel ?
Souvent à cause du séparateur (virgule/point-virgule) ou de l’encodage, donc importez via l’assistant en choisissant séparateur et UTF-8. - Comment éviter que le tableur change mes timecodes ?
Définissez les colonnes Start/End en “Texte” avant de coller ou d’importer, et évitez les conversions automatiques de date/heure. - Comment vérifier rapidement que je n’ai pas cassé l’alignement ?
Contrôlez quelques segments au début, au milieu et à la fin, et comparez l’emplacement audio avec les mêmes timecodes dans l’export. - Que dois-je archiver avec mon projet ELAN ?
Au minimum : .eaf, média original, et un README (format temps, encodage, structure des tiers), plus vos exports dérivés si utiles.
Conclusion : un flux simple et robuste
Pour éviter de casser les timecodes, gardez le .eaf et le média comme référence, standardisez votre format de temps et contrôlez séparateur + encodage. Utilisez CSV/texte comme formats d’échange et d’analyse, mais anticipez la reconstruction si votre projet utilise des tiers dépendants.
Si vous devez transformer des fichiers audio/vidéo en texte fiable pour ensuite annoter, relire, traduire ou sous-titrer, GoTranscript peut vous aider avec des solutions adaptées, dont des professional transcription services.