Blog chevron right Recherche

Checklist de désidentification pour des transcriptions qualitatives (PII + identifiants indirects)

Daniel Chang
Daniel Chang
Publié dans Zoom mars 27 · 27 mars, 2026
Checklist de désidentification pour des transcriptions qualitatives (PII + identifiants indirects)

Pour désidentifier une transcription qualitative, vous devez retirer les identifiants directs (nom, e-mail, téléphone) et réduire les identifiants indirects (rôles rares, événements uniques, petits lieux) qui peuvent révéler une personne par recoupement. La meilleure approche est une checklist pas à pas, avec des remplacements cohérents, puis une revue finale du risque de ré-identification avant tout partage.

Ce guide donne une méthode simple, adaptée aux entretiens, focus groups et observations, avec un point dédié aux métadonnées (noms de fichiers, propriétés de documents) que l’on oublie souvent.

Mot-clé principal : checklist de désidentification

Key takeaways

  • Traitez séparément les identifiants directs (PII évidentes) et les identifiants indirects (détails qui rendent une personne unique).
  • Utilisez des remplacements standard (pseudonymes, tranches d’âge, régions) et gardez-les cohérents sur tout le corpus.
  • N’oubliez pas les métadonnées : un fichier peut révéler un nom même si le texte est “propre”.
  • Faites une revue finale “risque de ré-identification” avant de partager, surtout avec un public externe.

1) Avant de commencer : fixez le niveau de désidentification

Avant d’éditer, décidez à qui vous allez partager la transcription et pour quel usage, car cela change le niveau de détail acceptable. Plus l’audience est large (client, partenaire, publication), plus vous devez généraliser.

Alignez aussi votre démarche avec vos obligations de protection des données (en Europe, la référence est le RGPD) et votre protocole de recherche (consentement, durée de conservation, accès).

Checklist de préparation (5 minutes)

  • Définir l’audience : interne (équipe) / externe (client, revue, public).
  • Définir le format de sortie : transcript texte, extraits, citations, annexe.
  • Fixer une règle de cohérence : même personne = même pseudonyme partout.
  • Créer une “table de remplacement” (mapping) et décider où la stocker.
  • Choisir des balises standard : [NOM], [TÉL], [VILLE], etc.

Bon réflexe : séparez le fichier “propre” et la table de correspondance

Gardez la table qui relie les pseudonymes aux identités réelles dans un emplacement séparé, avec accès limité. Ne l’envoyez jamais avec la transcription désidentifiée.

2) Checklist pas à pas : retirer les identifiants directs (PII)

Les identifiants directs pointent vers une personne sans effort de recoupement, comme un nom complet ou un e-mail. Traitez-les en premier, car ils sont souvent faciles à repérer avec une recherche dans le document.

2.1 Noms et prénoms

  • Remplacer les noms réels par des pseudonymes cohérents : “Sophie”, “Participant 03”, “Médecin A”.
  • Remplacer aussi les noms cités (collègues, membres de la famille, managers, clients) : [COLLÈGUE], [MÈRE], [CLIENT].
  • Traiter les initiales et surnoms (ex. “J.-P.”, “Lolo”).

Si vous devez garder un lien familial ou hiérarchique, encodez-le : “[SŒUR_1]”, “[MANAGER_1]”, puis réutilisez la même étiquette.

2.2 Coordonnées (e-mail, téléphone, adresses, réseaux)

  • E-mails : remplacer par [EMAIL] ou un format neutre (ex. prenom.nom@exemple.fr).
  • Téléphones : remplacer par [TÉL], y compris les extensions et WhatsApp.
  • Adresses : supprimer le numéro et la rue, généraliser au niveau “ville/région” selon le besoin.
  • Identifiants de réseaux : @pseudo, URL de profil, liens de calendrier, liens Drive partagés.

2.3 Identifiants officiels et numéros uniques

  • Numéros de dossier, patient, employé, étudiant, ticket SAV, numéro de commande.
  • Immatriculations, plaques, identifiants internes, QR codes mentionnés.
  • Coordonnées bancaires, IBAN, codes, mots de passe (même “temporaire”).

Remplacez par des balises : [ID_DOSSIER], [NUM_COMMANDE], [ID_EMPLOYÉ], sans conserver le format original si cela peut aider à recouper.

2.4 Visages, voix, et éléments biométriques (si vous partagez l’audio/vidéo)

Une transcription seule réduit déjà des risques, mais les enregistrements peuvent identifier une personne par la voix. Si vous partagez des médias, prévoyez des règles séparées (suppression, restriction d’accès, ou traitement audio/vidéo).

Mini-contrôle qualité (recherche rapide)

  • Rechercher “@”, “.com”, “.fr”, “+33”, “06”, “07”.
  • Rechercher “rue”, “avenue”, “boulevard”, “BP”, “code postal”.
  • Rechercher les motifs de chiffres longs (ex. 8+ chiffres) et les sigles internes.

3) Checklist : réduire les identifiants indirects (détails qui rendent une personne unique)

Les identifiants indirects semblent “innocents”, mais ils peuvent identifier quelqu’un quand on combine plusieurs détails. Le risque augmente si votre population est petite, votre secteur spécialisé, ou si l’histoire est publique.

3.1 Rôles rares et intitulés trop précis

  • Remplacer un rôle unique (“seul ergonome en soins intensifs pédiatriques de…”) par une catégorie plus large : “professionnel de santé”, “cadre hospitalier”.
  • Généraliser les certifications rares, titres, prix, ou fonctions très spécifiques.
  • Éviter la combinaison “poste + service + ville + ancienneté” si elle devient unique.

Règle simple : si un lecteur interne pourrait deviner la personne en 10 secondes, généralisez davantage.

3.2 Lieux : petites communes, sites uniques, établissements reconnaissables

  • Remplacer les petites localités par une zone : “près de [GRANDE_VILLE]”, “dans l’ouest de la France”.
  • Remplacer les noms d’établissements (écoles, hôpitaux, entreprises) par [ÉTABLISSEMENT] ou une catégorie.
  • Supprimer les repères hyper locaux (nom de station, quartier, bâtiment, “juste à côté de…”).

Si le lieu est important pour l’analyse, gardez un niveau utile mais non traçable (région, type de territoire : urbain/rural).

3.3 Événements uniques et dates précises

  • Remplacer une date exacte par un mois, trimestre, ou année : “en 2024”, “au printemps”.
  • Généraliser les événements très médiatisés (“l’accident du…”, “la fermeture de…”).
  • Attention aux “premières fois” (“j’ai lancé le seul programme X”) et aux chiffres très spécifiques.

Quand un événement est central, vous pouvez le garder sous forme abstraite : “[INCIDENT_MAJEUR]” ou “[RÉORGANISATION]”.

3.4 Petits effectifs et combinaisons dangereuses

  • Tranches d’âge au lieu d’âge exact : “30–39 ans”.
  • Ancienneté en fourchette : “5–10 ans”.
  • Éviter “âge + service + ville + détail familial” dans une même citation.

Un seul détail peut être acceptable, mais trois détails peuvent suffire à identifier.

3.5 Citations : gardez le sens, pas la trace

  • Retirer les noms propres dans les citations, même si cela “casse” un peu le style.
  • Remplacer les marques, produits, et outils internes si cela pointe vers une équipe ou une entreprise spécifique.
  • Conserver l’émotion et l’argument, mais enlever les détails “enquêteur détective”.

4) Checklist “métadonnées” : le risque invisible (fichiers, propriétés, exports)

Vous pouvez nettoyer le texte et laisser des identifiants dans le fichier lui-même. Avant de partager, contrôlez les noms de fichiers, les propriétés du document et les traces dans les exports.

4.1 Noms de fichiers et arborescence

  • Renommer les fichiers : éviter “Entretien_Marie_Dupont_06-07-2025.docx”.
  • Utiliser une convention neutre : “INT_P03_2025Q3.txt”.
  • Éviter de partager des captures d’écran où l’arborescence révèle un nom (ex. dossier “Patients_CliniqueX”).

4.2 Propriétés du document (auteur, entreprise, historique)

  • Vérifier l’auteur, l’organisation, les commentaires et “suivi des modifications”.
  • Supprimer les versions et noms dans l’historique si l’outil les conserve.
  • Exporter en format simple (ex. .txt) si vous n’avez pas besoin des métadonnées avancées.

Sur certains outils, les propriétés peuvent inclure le nom du compte, l’e-mail ou l’ordinateur utilisé.

4.3 PDFs, scans et “texte caché”

  • Contrôler les entêtes/pieds de page : nom du participant, site, numéro de dossier.
  • Vérifier les signets, liens, pièces jointes, et champs de formulaire.
  • Si vous faites une OCR, vérifier que le texte reconnu n’a pas réintroduit des noms.

4.4 Audio/vidéo et exports de plateformes

  • Les exports peuvent inclure le nom d’utilisateur de l’hébergeur ou un ID de réunion.
  • Les sous-titres et transcriptions automatiques peuvent contenir des noms non repérés au premier passage.
  • Si vous partagez des extraits, re-vérifiez chaque extrait isolément.

5) Revue finale : “risque de ré-identification” avant partage

La désidentification n’est pas juste une chasse aux noms, c’est une évaluation du risque de recoupement. Faites une revue finale comme si vous étiez un lecteur curieux avec un peu de contexte.

5.1 Test de recoupement (simple et efficace)

  • Relisez en vous demandant : “Qui, dans mon organisation, pourrait deviner la personne ?”.
  • Repérez les combinaisons : rôle rare + lieu + date + événement.
  • Repérez les “histoires publiques” (presse locale, réseaux sociaux, site web d’entreprise).

5.2 Grille de décision : garder, généraliser, supprimer

  • Garder si le détail est nécessaire à l’analyse et non unique.
  • Généraliser si le détail est utile mais trop précis (ex. ville → région).
  • Supprimer si le détail n’aide pas l’analyse ou augmente beaucoup le risque.

Documentez vos règles dans un court “guide de codage” pour que l’équipe fasse les mêmes choix.

5.3 Double lecture et traçabilité

  • Si possible, faire relire par une seconde personne (regard neuf).
  • Conserver une trace : date de désidentification, version, règles appliquées.
  • Éviter de multiplier les copies : une source contrôlée, des exports maîtrisés.

6) Pièges courants (et comment les éviter)

Certains risques reviennent souvent, même dans des équipes expérimentées. Les connaître vous fait gagner du temps et réduit les erreurs.

Pièges sur le contenu

  • Oublier les personnes “secondaires” : collègues, enfants, médecins, profs.
  • Garder des chiffres trop précis : “je suis 1 des 3…” dans une petite structure.
  • Conserver un intitulé exact qui existe sur LinkedIn mot pour mot.
  • Partager une citation isolée qui redevient identifiable hors contexte.

Pièges sur les fichiers

  • Nom de fichier contenant le nom réel.
  • Commentaires Word avec un nom, ou “suivi des modifications” activé.
  • Export automatique d’une plateforme avec ID de réunion et participants.

Pièges sur la cohérence

  • Changer de pseudonyme au milieu du document.
  • Remplacer “Paris” par “grande ville” une fois, puis le laisser plus loin.
  • Utiliser des balises ambiguës (ex. [VILLE] pour plusieurs villes différentes) sans préciser [VILLE_1], [VILLE_2].

Common questions

Faut-il toujours supprimer tous les lieux ?

Non, si le lieu est important pour l’analyse, vous pouvez le garder à un niveau plus large (région, type de zone). L’objectif est de réduire le risque d’identifier une personne, pas d’effacer le contexte utile.

Quelle différence entre anonymisation et pseudonymisation ?

La pseudonymisation remplace des identifiants par des codes, mais une table de correspondance peut permettre de revenir à l’identité. L’anonymisation vise à rendre l’identification impossible ou très improbable, même par recoupement, ce qui est plus difficile à garantir en pratique.

Dois-je désidentifier avant ou après le codage qualitatif ?

Beaucoup d’équipes désidentifient avant le partage et le codage collaboratif pour limiter l’exposition. Si certains détails sont essentiels au codage, vous pouvez garder une version “interne” plus détaillée et une version “partage” plus générale.

Comment gérer les focus groups où les participants se nomment entre eux ?

Remplacez tous les prénoms cités par des balises cohérentes (ex. [P02], [P05]) et vérifiez les tours de parole. Faites attention aux “tu te souviens quand…” qui peuvent contenir des événements uniques.

Les transcriptions automatiques augmentent-elles le risque ?

Elles peuvent réintroduire des noms ou des détails mal transcrits qui passent sous le radar. Prévoyez une relecture dédiée à la désidentification, même si vous utilisez un outil d’IA.

Que faire si un participant veut être cité avec son nom ?

Suivez votre cadre de consentement et votre politique de diffusion, et documentez clairement ce qui est autorisé. Même dans ce cas, vérifiez les informations sur des tiers (collègues, patients, clients) qui n’ont pas consenti.

Quel format est le plus sûr pour partager une transcription ?

Un format simple (texte) réduit souvent les métadonnées, mais le vrai sujet reste le contrôle d’accès et la version partagée. Quel que soit le format, renommez le fichier et vérifiez ses propriétés.

Si vous préparez des entretiens, podcasts ou recherches à partager, GoTranscript peut vous aider à obtenir des livrables clairs (transcription, relecture, et formats adaptés) tout en gardant votre workflow simple. Vous pouvez en savoir plus sur nos professional transcription services, et, si vous avez besoin de sorties vidéo, consulter aussi nos services de sous-titrage codé.