Pour annoter des données multilingues dans ELAN, la méthode la plus fiable consiste à séparer clairement la langue source et chaque traduction dans des tiers dédiés, puis à appliquer un glossaire et un circuit de relecture. Cette organisation limite les incohérences, facilite la recherche, et garde un lien propre entre l’audio, la transcription, et les versions traduites. Dans ce guide, vous allez voir une configuration de projet simple, un workflow pour le code-switching, et des étapes de validation pour des traductions cohérentes.
Mot-clé principal : ELAN pour données multilingues.
Key takeaways
- Créez des tiers séparés : langue originale, traduction(s), notes, et décisions de glossaire.
- Choisissez un type de tier (alignable ou référence) selon votre besoin d’alignement temporel.
- Gérez le code-switching avec des tiers de langue par segment et des règles de découpe.
- Appliquez un glossaire via une liste contrôlée + une étape de relecture dédiée.
- Traitez les termes ambigus avec des tags de statut (à confirmer, décidé, rejeté) et une trace de décision.
1) Planifier votre projet ELAN (avant de créer les tiers)
Avant de cliquer partout, fixez 4 décisions simples : vos langues, votre niveau de granularité, vos livrables, et qui valide les choix terminologiques. Cette étape évite de refaire les tiers quand le projet grandit.
- Langues en présence : langue principale, langues en alternance (code-switching), et langue(s) de traduction.
- Unité d’annotation : tour de parole, phrase, proposition, ou segment court (utile si le code-switching est fréquent).
- Livrable : export texte, sous-titres, corpus annoté, ou tableau pour analyse.
- Autorité du glossaire : une personne (ou un petit groupe) décide en cas de conflit.
Décidez aussi si vous voulez que chaque traduction soit alignée dans le temps (utile pour sous-titres, étude de prosodie) ou juste liée au segment source (souvent suffisant pour analyse linguistique).
2) Créer une structure de tiers robuste : original + traductions + contrôle
Dans ELAN, une structure claire repose sur un tier “parent” segmenté dans le temps et des tiers “enfants” reliés. En pratique, on sépare : (1) segmentation, (2) transcription source, (3) langue(s) et alternances, (4) traductions, (5) contrôle qualité.
Le “kit” de tiers recommandé
- SEG (alignable) : segmentation temporelle de base (unité = tour/phrase/segment).
- SRC_VERBATIM (référence à SEG) : transcription en langue originale (verbatim).
- SRC_NORMALISE (référence à SEG) : version nettoyée (optionnel) pour recherche.
- LANG (référence à SEG) : code langue par segment (ex. fr, en, ar, …).
- CS_NOTE (référence à SEG) : note sur le code-switching (où, pourquoi, incertain).
- TR_FR, TR_EN, etc. (référence à SEG) : traduction(s) par segment.
- GLOSS_TAG (référence à SEG) : tags de glossaire/termes clés utilisés.
- REVIEW_STATUS (référence à SEG) : statut (à relire, ok, à corriger).
- REVIEW_NOTE (référence à SEG) : justification, points litigieux, décisions.
Gardez des noms de tiers stables et lisibles, car vous les retrouverez dans les exports. Utilisez un préfixe (SRC_, TR_, REVIEW_) pour filtrer facilement.
Alignable ou référence : quoi choisir ?
Utilisez SEG alignable pour définir le temps, puis mettez la plupart des contenus en tiers de référence liés à SEG. Cette approche garde une segmentation unique, et évite que les traductions “dérivent” dans la timeline.
- Choisissez des tiers alignables pour : segmentation, gestes, événements sonores, chevauchements, sous-titres timecodés.
- Choisissez des tiers de référence pour : transcription, traduction, glossaire, notes, statuts.
3) Mettre en place des tiers de traduction (et éviter les incohérences)
Une traduction cohérente dépend plus d’un workflow que d’un “bon traducteur”. Dans ELAN, vous pouvez réduire les écarts en fixant des règles d’écriture, puis en ajoutant des tiers de contrôle.
Règles simples à écrire (et à coller dans un document projet)
- Une traduction par segment : pas de fusion de segments sans note.
- Style : littéral vs idiomatique (choisissez, puis tenez-vous-y).
- Noms propres : règle de translittération et de casse.
- Hésitations / répétitions : conservées ou non en traduction.
- Marqueurs : comment noter l’inaudible, les rires, les pauses.
Astuce structure : “TR_LIT” et “TR_SENS”
Si votre équipe hésite entre littéral et sens, créez deux tiers de traduction pour une même langue : TR_FR_LIT et TR_FR_SENS. Vous gardez la trace des choix, et vous évitez les compromis confus.
Étape de relecture : à intégrer dès le début
Ajoutez un tier REVIEW_STATUS avec une liste contrôlée (ex. “à relire”, “ok”, “à corriger”, “bloqué”). Ajoutez aussi REVIEW_NOTE pour expliquer les changements importants.
4) Workflow glossaire : imposer des choix sans casser la production
Le glossaire sert à une chose : traduire les mêmes termes de la même façon, sauf exception justifiée. Dans ELAN, vous pouvez combiner un document de glossaire “hors ELAN” et des contrôles “dans ELAN” via des listes contrôlées.
Étape A : construire un mini-glossaire utile
- Terme source (forme exacte, variantes, orthographe).
- Traduction choisie (par langue de sortie).
- Définition courte (1 phrase) et contexte.
- Exemple (un segment ID si possible) et exceptions.
- Statut : proposé, validé, obsolète.
Gardez le glossaire simple au départ, sinon personne ne l’utilise. Ajoutez des termes au fil des divergences rencontrées pendant la relecture.
Étape B : “enforcement” dans ELAN avec une liste contrôlée
Créez une Controlled Vocabulary (liste contrôlée) pour le tier GLOSS_TAG avec les entrées principales (ex. “TERME_X=traduction_Y”). Les annotateurs taguent les segments où le terme apparaît, puis la relecture vérifie vite la cohérence.
- GLOSS_TAG contient des tags, pas la traduction entière.
- La traduction reste dans TR_*, et le tag sert de contrôle.
- Ajoutez un tag GLOSS_NONE si aucun terme du glossaire ne s’applique.
Étape C : revue glossaire en 3 passes (rapide et réaliste)
- Passe 1 (auto-contrôle) : le traducteur remplit TR_* puis tague GLOSS_TAG pour les termes clés.
- Passe 2 (relecteur) : le relecteur filtre les segments par tags et vérifie la cohérence de TR_*.
- Passe 3 (décision) : en cas de conflit, mise à jour du glossaire + correction des segments concernés.
Si vous travaillez à plusieurs, ajoutez un tier GLOSS_DECISION (référence à SEG) avec une liste contrôlée : “validé”, “exception”, “à discuter”.
5) Gérer le code-switching : découpe, langue par segment, et règles de traduction
Le code-switching casse souvent les traductions, car la “langue du segment” change au milieu d’une phrase. Vous pouvez le traiter proprement avec une règle de segmentation et un tier de langue explicite.
Option 1 (simple) : une langue principale par segment + note
Gardez la segmentation large (phrase/tour), mettez la langue dominante dans LANG, puis expliquez l’alternance dans CS_NOTE. Cette option marche si l’alternance reste courte et ne change pas le sens global.
- LANG = fr (dominant), CS_NOTE = “insertion en en: ‘deadline’”.
- TR_FR traduit l’ensemble, en choisissant une stratégie stable (emprunt, italique, traduction).
Option 2 (précise) : segmenter au point de changement de langue
Découpez SEG dès que la langue change, puis mettez LANG pour chaque sous-segment. Cette option aide si vous analysez les alternances, ou si la traduction dépend fortement de la langue locale.
- Règle pratique : 1 segment = 1 langue quand c’est possible.
- Gardez des segments courts mais lisibles, sinon la relecture devient lente.
Option 3 (mixte) : segment principal + sous-tier “CS_SPAN”
Gardez SEG stable, mais créez un tier alignable secondaire CS_SPAN pour marquer les spans de changement de langue (début/fin). Vous gardez la traduction sur SEG, et vous marquez finement les alternances.
Règles de traduction pour le code-switching
- Emprunt conservé : gardez le mot d’origine si c’est une pratique de votre corpus (ex. jargon).
- Traduction + forme source : “date limite (deadline)” si utile pour compréhension.
- Normalisation : remplacez par un terme standard, et notez l’original dans SRC_NORMALISE ou REVIEW_NOTE.
Choisissez une règle par type de cas (jargon, citations, marques), puis documentez-la dans votre guide de projet. Sans règle, deux traducteurs feront deux choses différentes.
6) Termes ambigus et décisions traçables : éviter les “traductions au hasard”
Un terme peut être ambigu (sens, référent, ironie) ou inaudible, et vous ne voulez pas que la traduction cache ce doute. Créez une mécanique simple : tag d’incertitude + proposition + décision.
Structure recommandée pour l’ambiguïté
- AMB_STATUS (référence à SEG) : “incertain”, “à confirmer”, “décidé”.
- AMB_OPTIONS (référence à SEG) : 2–3 traductions possibles (courtes).
- AMB_DECISION (référence à SEG) : choix final + raison en 1 phrase.
Si vous ne voulez pas créer 3 tiers, réutilisez REVIEW_STATUS et REVIEW_NOTE avec une convention d’écriture (ex. “AMB: …”). Gardez une trace, car elle évite de re-débattre à chaque relecture.
Checklist de relecture pour termes ambigus
- Le doute est-il visible (tag/statut) ?
- La traduction respecte-t-elle le glossaire si le terme y figure ?
- La décision finale est-elle documentée si vous choisissez une option ?
7) Export, contrôle final, et pièges fréquents
Une fois vos tiers en place, vous voulez pouvoir exporter sans perdre l’alignement, et repérer vite les segments “à problème”. Préparez un contrôle final qui ne dépend pas de la mémoire de l’équipe.
Contrôle final avant export (10 minutes qui évitent des heures)
- Filtrer REVIEW_STATUS = “à corriger” ou “bloqué”.
- Filtrer AMB_STATUS ≠ “décidé” (si vous utilisez ce tier).
- Repérer les segments où LANG est vide.
- Vérifier que chaque segment SEG a bien : SRC_VERBATIM + TR_* (selon le livrable).
Pièges courants (et comment les éviter)
- Deux segmentations (source vs traduction) : gardez une seule base SEG, et reliez tout.
- Noms de tiers incohérents : utilisez un schéma fixe (SRC_, TR_, REVIEW_) dès le début.
- Glossaire trop gros : commencez petit, ajoutez seulement quand un conflit apparaît.
- Code-switching ignoré : au minimum, renseignez LANG et une note d’alternance.
- Ambiguïté masquée : taguez l’incertitude au lieu de “choisir au feeling”.
Pour comprendre les principes d’accessibilité et pourquoi les textes synchronisés (captions/sous-titres) demandent une structure propre, vous pouvez consulter les recommandations du W3C sur les WCAG. Pour un cadre général sur les codes de langue et leur écriture (utile pour votre tier LANG), référez-vous à BCP 47 (RFC 5646).
Common questions
- Dois-je créer un tier de traduction alignable dans le temps ?
La plupart du temps, non : gardez SEG alignable et TR_* en référence à SEG. Créez une traduction alignable seulement si vous devez ajuster la durée indépendamment (ex. sous-titres avec contraintes strictes). - Comment gérer deux traductions (littérale et idiomatique) sans confusion ?
Utilisez deux tiers distincts (ex. TR_FR_LIT et TR_FR_SENS) et un statut de relecture pour chacun. Ajoutez une règle qui dit laquelle sert pour le livrable final. - Quelle est la meilleure unité de segmentation pour un corpus avec beaucoup de code-switching ?
Segmentez plus court, idéalement au changement de langue, mais gardez des segments lisibles. Si cela devient trop fin, passez à une option mixte avec un tier CS_SPAN. - Comment “forcer” le glossaire si ELAN ne corrige pas automatiquement le texte ?
Utilisez une liste contrôlée dans un tier GLOSS_TAG et une passe de relecture qui filtre par tags. Le “forcing” vient du contrôle systématique, pas d’un correcteur automatique. - Que faire si un terme n’a pas d’équivalent clair dans la langue cible ?
Marquez l’ambiguïté (REVIEW_STATUS ou AMB_STATUS), proposez 2–3 options, puis décidez et documentez la raison. Ajoutez ensuite une entrée de glossaire si le terme revient souvent. - Comment éviter que deux personnes traduisent le même concept différemment ?
Fixez un glossaire minimal, imposez des règles de style, et ajoutez une relecture dédiée à la cohérence terminologique. Les tags de glossaire accélèrent la vérification.
Aller plus loin avec transcription, sous-titres et relecture
Si vous partez d’audio/vidéo et que vous voulez gagner du temps avant ELAN, vous pouvez combiner une première version automatique puis une relecture. GoTranscript propose des options comme la transcription automatisée et aussi un service dédié de relecture de transcription selon votre besoin.
Quand vous êtes prêt à transformer vos enregistrements en texte propre, puis à alimenter vos tiers de traduction et de contrôle dans ELAN, GoTranscript peut fournir les bonnes solutions via ses professional transcription services.