Pour pseudonymiser des transcriptions de recherche, vous devez choisir une convention de nommage claire, l’appliquer partout, et garder une clé de correspondance séparée et protégée. Des pseudonymes cohérents facilitent l’analyse (qui parle, quels rôles, quelles vagues d’entretien) sans exposer l’identité des participants. Ce guide propose des règles simples, des exemples et un workflow pour rester consistent entre transcriptions, notes de terrain et publications.
Mot-clé principal : règles de pseudonymisation pour transcriptions de recherche.
Key takeaways
- Choisissez une seule convention de pseudonymes et documentez-la avant de commencer la transcription.
- Décidez tôt si vous gardez le genre, l’âge, le rôle ou la localisation dans le pseudonyme (ou si vous restez neutre).
- Créez une clé de correspondance (mapping key) séparée, chiffrée et accessible au minimum de personnes.
- Gardez la cohérence des références (personnes, lieux, organisations) dans tous les supports : transcripts, tableaux de codage, citations publiées.
- Évitez les stéréotypes et les pseudonymes “parlants” qui peuvent révéler des indices.
1) Ce qu’un bon pseudonyme doit faire (et ne pas faire)
Un pseudonyme sert à protéger l’identité tout en vous permettant de suivre une même personne à travers plusieurs entretiens, documents ou vagues de collecte. Il doit aussi rester lisible pour l’équipe, surtout quand vous codez des centaines d’extraits.
Un bon pseudonyme est à la fois cohérent, culturellement approprié et utile pour l’analyse. Vous gagnez du temps, vous réduisez les erreurs et vous évitez des indices involontaires dans vos citations.
Ce que le pseudonyme doit faire
- Unicité : un pseudonyme = une personne, sans ambiguïté.
- Stabilité : le même pseudonyme partout (transcripts, notes, tableaux, annexes).
- Lisibilité : facile à repérer dans un verbatim (“P12”, “Ent03_P12”).
- Flexibilité : peut intégrer des infos utiles (vague, site, rôle) si c’est nécessaire.
- Discrétion : ne doit pas donner de pistes d’identification.
Ce que le pseudonyme ne doit pas faire
- Révéler une origine, un statut ou une identité sensible si ce n’est pas indispensable.
- Renforcer des stéréotypes (ex. associer systématiquement certains prénoms à une communauté ou à un niveau social).
- Être “trop rare” dans un petit terrain (un prénom unique peut devenir un indice).
- Encoder trop d’attributs (âge exact, quartier, métier précis) qui rendent la ré-identification plus facile.
2) Choisir votre stratégie : neutre, descriptive, ou hybride
Avant de créer des pseudonymes, décidez ce que vous voulez préserver dans l’identifiant. Cette décision dépend de votre protocole, du risque de ré-identification et de ce dont vous avez besoin pour l’analyse.
Option A : pseudonymes neutres (recommandé si le risque est élevé)
Vous utilisez des codes sans genre et sans information personnelle. Cette option réduit les indices, mais demande parfois un tableau séparé pour l’analyse (ex. rôle, site).
- Exemples : P01, P02, P03.
- Variantes : INT01_P01 (entretien 1, participant 1), SITEA_P01.
Option B : pseudonymes “prénom” culturellement cohérents (si le risque est modéré)
Vous attribuez des prénoms plausibles dans le contexte culturel, sans viser une correspondance “exacte”. Cette option rend la lecture plus naturelle, mais augmente le risque d’indices si le terrain est petit.
- Exemples : “Sam”, “Alex”, “Camille” (souvent perçus comme plus neutres en français).
- Règle utile : choisissez des prénoms fréquents dans votre corpus, pas des prénoms uniques.
Option C : hybride (code + étiquette analytique)
Vous combinez un code stable et une information analytique non identifiante. Cette option aide beaucoup quand vous comparez des groupes (ex. participants vs professionnels) sans stocker trop d’infos dans le pseudonyme.
- Exemples : PRO_P07 (professionnel), USG_P12 (usager), ETU_P03 (étudiant).
- Ajoutez une vague si besoin : USG_W2_P12 (vague 2).
3) Conventions de nommage prêtes à l’emploi (avec règles)
Une convention simple vaut mieux qu’un système “parfait” que personne n’applique. Choisissez un format, écrivez-le dans un document d’équipe, et ne changez plus en cours de route.
Convention 1 : code participant simple
- Format : P + numéro sur 2 ou 3 chiffres.
- Exemple : P01, P02… P127.
- Règles : pas de réutilisation de numéros, même si un participant se retire.
Convention 2 : site + participant
- Format : SITE + “_” + P + numéro.
- Exemple : PAR_P03, LYO_P03 (attention : P03 doit rester unique par site, ou unique globalement).
- Règle critique : décidez si le numéro est global (recommandé) ou par site, et documentez-le.
Convention 3 : rôle + vague + participant
- Format : ROLE + “_W” + vague + “_P” + numéro.
- Exemple : USG_W1_P04, PRO_W1_P02, USG_W2_P04.
- Bon usage : pratique si vous suivez les mêmes personnes sur plusieurs vagues.
Convention 4 : pseudonyme “prénom” + code stable
Vous utilisez un prénom pour la lecture, mais vous gardez le code comme identifiant de vérité. Cette option réduit les confusions quand deux personnes ont des prénoms proches.
- Format : Prénom (Pxx) dans l’en-tête et dans les outils de codage.
- Exemple : “Camille (P07)” et “Sam (P12)”.
- Règle : en publication, vous pouvez ne garder que “Camille” si le risque est faible, mais gardez le code en interne.
4) Workflow : créer et protéger la clé de correspondance (mapping key)
La clé de correspondance relie l’identité réelle au pseudonyme. C’est le fichier le plus sensible de votre projet, donc séparez-le des transcriptions et limitez l’accès.
Étape 1 : définir les champs minimum
- Identifiant pseudonyme (ex. P07)
- Nom réel (ou identifiant interne)
- Coordonnées (si nécessaire) ou référence au consentement
- Informations analytiques utiles (ex. groupe, vague), sans détails identifiants
- Notes sur les substitutions (ex. “ville X → VilleA”)
Étape 2 : séparer les fichiers
- Dossier A (sensibles) : clé de correspondance + consentements + coordonnées.
- Dossier B (travail) : transcriptions pseudonymisées + notes de codage.
- Règle : aucun nom réel dans le dossier B, y compris dans les noms de fichiers.
Étape 3 : contrôler l’accès et la sécurité
Adaptez vos mesures au niveau de risque, mais appliquez au minimum le principe du “besoin d’en connaître”. En contexte européen, la pseudonymisation reste une donnée personnelle au sens du RGPD, car vous pouvez relier le code à une personne via la clé.
Pour un rappel de définitions et de notions, vous pouvez consulter les explications de la CNIL sur la pseudonymisation. Pour le cadre général, le texte du RGPD détaille les principes de protection des données.
Étape 4 : gérer les mises à jour sans casser la cohérence
- Si un participant corrige une info, mettez à jour la clé, pas les pseudonymes.
- Si vous ajoutez une vague, gardez le même Pxx et ajoutez seulement W2/W3.
- Gardez un “journal des changements” (date, quoi, qui) pour éviter les versions fantômes.
5) Exemples concrets : cohérence dans les transcripts, le codage et la publication
Le plus dur n’est pas de créer un pseudonyme, mais de garder toutes les références alignées. Les exemples ci-dessous montrent des règles simples qui évitent les contradictions.
Exemple A : entretien unique, pseudonymes neutres
- Fichier audio : INT01.wav
- Fichier transcript : INT01_transcript_PSEUDO.docx
- Dans le transcript : “Enquêteur : … / P01 : … / P02 : …”
- Dans le tableau de codes : “P01 — Groupe A”
- Dans l’article : “P01 explique que…”
Exemple B : suivi longitudinal (même personne, plusieurs vagues)
- Règle : P04 reste P04 dans toutes les vagues.
- Nommage fichiers : USG_W1_P04.txt, USG_W2_P04.txt
- Citation en publication : “(P04, vague 2)”
Exemple C : besoin analytique sans révéler le genre
Si vous devez analyser des différences liées au genre mais que vous ne voulez pas le montrer dans les citations, gardez le genre dans un champ séparé de la clé, pas dans le pseudonyme.
- Pseudonyme : P18
- Champ clé (interne) : genre = “F” (ou autre catégorisation de votre protocole)
- Publication : “P18 (groupe B)” sans mention du genre
Exemple D : remplacement cohérent des lieux et organisations
Ne pseudonymisez pas seulement les personnes. Les lieux, écoles, hôpitaux, entreprises et événements peuvent identifier une personne, surtout sur un petit terrain.
- Règle : une entité réelle = un alias stable.
- Exemple : “Lycée Jean-Moulin” → “Lycée Nord” dans tous les transcripts.
- Table d’alias (séparée) : Entité réelle | Alias | Notes (ex. “à garder vague”).
Exemple E : citations multi-personnes dans une même scène
Quand plusieurs participants se citent entre eux, la cohérence devient fragile. Utilisez des marqueurs simples et évitez d’introduire de nouveaux pseudonymes à la volée.
- “P03 : Comme P07 l’a dit hier…” (reste P07 partout)
- Ne remplacez pas P07 par “mon collègue” dans un autre extrait, sauf si vous le faites partout.
6) Pièges fréquents (et comment les éviter)
La plupart des erreurs viennent de petits choix faits trop vite. Corriger après publication ou après codage prend beaucoup plus de temps.
Piège 1 : changer de format en cours de projet
- Symptôme : P1, P01 et Participant-01 coexistent.
- Solution : choisissez un format à longueur fixe (P01) et faites une normalisation.
Piège 2 : utiliser des pseudonymes “parlants”
- Exemple à éviter : “Madame Directrice”, “Le Maire”, “La Pharmacienne”.
- Pourquoi : dans un petit terrain, le rôle suffit à identifier.
- Solution : ROLE générique (PRO) + code (PRO_P02) et détails dans une colonne interne.
Piège 3 : garder des “quasi-identifiants” dans le texte
- Âge exact (“j’ai 57 ans”), date précise, service très spécialisé, nom d’un événement local.
- Solution : généraliser (ex. “fin cinquantaine”, “début 2024”) selon vos règles d’édition.
Piège 4 : incohérence entre transcript et publication
- Symptôme : “P12” dans le corpus, “Alex” dans l’article, sans table de correspondance.
- Solution : définissez une règle : “code interne” vs “pseudonyme lisible” et comment vous convertissez.
Piège 5 : laisser des identifiants dans les métadonnées
- Nom du fichier audio, noms dans les propriétés Word/PDF, commentaires, suivi des modifications.
- Solution : standardisez le nommage des fichiers et nettoyez les métadonnées avant partage.
Common questions
1) Dois-je utiliser des prénoms ou des codes (P01, P02) ?
Utilisez des codes si le risque d’identification est élevé ou si votre terrain est petit. Utilisez des prénoms si la lisibilité est essentielle, mais associez-les à un code stable en interne.
2) Comment rester “culturellement approprié” sans stéréotypes ?
Choisissez des pseudonymes fréquents et variés, et évitez d’associer un prénom à une caractéristique sensible. Si vous n’êtes pas sûr, adoptez des codes neutres et déplacez les infos utiles dans la clé.
3) Puis-je garder le genre dans le pseudonyme ?
Oui si c’est nécessaire pour l’analyse et si cela ne crée pas de risque excessif. Sinon, gardez le genre dans un champ interne séparé et utilisez des pseudonymes neutres dans les citations.
4) Comment gérer les personnes avec le même rôle (ex. deux “enseignants”) ?
Ajoutez un code unique : ENS_P01, ENS_P02, ou PRO_P01, PRO_P02. Évitez “Enseignant 1/2” si vous risquez d’inverser les personnes entre extraits.
5) Dois-je pseudonymiser aussi les lieux et les organisations ?
Souvent oui, car un lieu précis peut identifier une personne. Créez une table d’alias pour les entités (école, service, ville) et réutilisez toujours le même alias.
6) Que faire si un participant demande à être cité sous son vrai nom ?
Suivez votre protocole éthique et votre cadre légal, et documentez la décision. Si vous acceptez, assurez-vous que cela n’expose pas d’autres participants par recoupement.
7) Comment éviter les erreurs quand plusieurs personnes transcrivent ?
Donnez à toute l’équipe un guide de style (format des pseudonymes, règles de remplacement, liste d’alias). Prévoyez une étape de relecture pour vérifier la cohérence, par exemple via un service de relecture de transcription.
Checklist rapide à copier dans votre protocole
- J’ai choisi une convention (ex. P01) et je l’ai documentée.
- J’ai défini ce qui apparaît (ou non) dans le pseudonyme : rôle, vague, site, genre.
- J’ai une clé de correspondance séparée, protégée, avec accès limité.
- J’ai une table d’alias pour lieux/organisations/événements.
- Je contrôle la cohérence entre transcripts, codage et citations publiées.
- Je nettoie les métadonnées et les noms de fichiers avant partage.
Choisir le bon niveau d’aide : automatique, humain, ou mixte
Si vous transcrivez beaucoup d’heures, l’automatisation peut accélérer la première version, puis une relecture peut sécuriser la cohérence des pseudonymes. Selon vos contraintes, vous pouvez démarrer avec une transcription automatique et appliquer votre guide de pseudonymisation au moment de l’édition.
Si vous travaillez en équipe ou sur des données sensibles, un flux clair (noms de fichiers, règles, relecture) vous évite des fuites involontaires. Vous pouvez aussi centraliser les commandes et formats via la page de commande de transcription pour garder un process stable.
Si vous cherchez une façon fiable de produire des verbatims prêts pour l’analyse, GoTranscript propose les bonnes solutions, du brouillon rapide à la relecture, tout en vous laissant appliquer vos règles de pseudonymisation. Découvrez nos professional transcription services pour obtenir des transcriptions faciles à anonymiser et à citer.
