Blog chevron right Recherche

Erreurs d’anonymisation qui ré-identifient les participants (et comment les éviter)

Daniel Chang
Daniel Chang
Publié dans Zoom mai 11 · 11 mai, 2026
Erreurs d’anonymisation qui ré-identifient les participants (et comment les éviter)

L’anonymisation échoue quand un détail permet de reconnaître une personne, même sans son nom. Pour l’éviter, il faut retirer les identifiants directs, traiter les indices indirects, puis relire les transcriptions comme le ferait une personne qui connaît le terrain.

  • À retenir : un prénom retiré ne suffit presque jamais.
  • Les titres de poste rares, les dates précises, les lieux précis et les phrases très reconnaissables peuvent ré-identifier un participant.
  • La meilleure protection combine généralisation, regroupement, paraphrase prudente et contrôle avant partage.
  • Une checklist de “risk scan” aide les chercheurs à repérer les risques avant publication.

Pourquoi l’anonymisation des transcriptions échoue

Dans une transcription de recherche, le risque ne vient pas seulement des noms, adresses ou numéros de téléphone. Il vient aussi des détails qui, mis ensemble, pointent vers une seule personne.

Le Règlement général sur la protection des données explique qu’une personne peut être identifiable directement ou indirectement, notamment par un ou plusieurs éléments propres à son identité. Vous pouvez consulter cette définition dans le texte du RGPD.

Une transcription contient souvent beaucoup d’indices indirects. Un participant parle de son métier, de son parcours, d’un événement local, d’un conflit au travail ou d’une situation médicale.

Chaque indice peut sembler banal seul. Ensemble, ils peuvent former une empreinte très précise.

Le problème augmente quand le public visé connaît le contexte. Dans une petite association, une équipe de recherche, une école, une commune ou un service hospitalier, quelques détails suffisent parfois.

L’anonymisation demande donc plus qu’un remplacement automatique des noms. Elle demande une lecture de risque, phrase par phrase, avec une vraie attention au contexte.

Les erreurs les plus fréquentes qui ré-identifient les participants

1. Garder des titres de poste uniques

Un titre de poste peut devenir un identifiant direct dans un petit milieu. “La seule directrice financière de l’hôpital”, “le responsable cybersécurité du campus” ou “la médiatrice culturelle du village” pointent vite vers une personne.

Le risque monte quand le titre s’ajoute à une organisation, une ville ou une période. Même sans nom, le lecteur peut faire le lien.

Comment réduire le risque :

  • Remplacez le titre exact par une catégorie plus large : “cadre”, “professionnel de santé”, “personne chargée de la gestion”.
  • Retirez le nom de l’organisation si le poste reste rare.
  • Regroupez plusieurs fonctions proches quand le détail n’est pas nécessaire à l’analyse.
  • Gardez le niveau hiérarchique seulement si votre recherche en a besoin.

Évitez aussi les titres honorifiques, mandats locaux et rôles bénévoles uniques. “Président d’une petite coopérative agricole” peut suffire à reconnaître une personne.

2. Laisser des combinaisons rares d’événements

Une seule information rare peut identifier quelqu’un. Mais les combinaisons rares créent souvent le plus grand danger.

Par exemple, “a déménagé de Lyon à Brest après un accident de vélo, puis a repris des études d’infirmier” peut être trop précis. Chaque détail semble utile, mais l’ensemble devient reconnaissable.

Comment réduire le risque :

  • Supprimez les détails qui ne changent pas le sens de l’extrait.
  • Généralisez les événements : “après un problème de santé” au lieu d’un accident précis.
  • Changez l’ordre narratif si l’ordre exact n’est pas essentiel.
  • Regroupez des catégories : “dans une grande ville” plutôt que le trajet exact entre deux villes.

Demandez-vous toujours si une personne du même groupe pourrait dire : “Je sais de qui il s’agit”. Si oui, l’extrait demande plus de travail.

3. Publier des dates et lieux trop précis

Les dates précises ré-identifient vite, surtout avec des événements publics. “Le 14 mars 2022, dans la salle du conseil municipal de X” donne un chemin clair vers la personne.

Les lieux précis posent le même problème. Une rue, une petite ville, un service, un bâtiment ou une salle peuvent réduire le groupe possible à quelques personnes.

Comment réduire le risque :

  • Remplacez une date par un mois, une saison ou une période : “au printemps 2022”.
  • Remplacez un lieu précis par une zone : “dans une commune rurale”, “dans un établissement public”.
  • Retirez les lieux secondaires qui n’ajoutent rien à l’analyse.
  • Évitez de combiner une date rare avec un lieu rare.

Gardez une version interne plus détaillée seulement si votre protocole l’autorise et si elle reste protégée. La version partagée ou publiée doit contenir moins de précision.

4. Citer des phrases très distinctives

Certains participants utilisent des expressions, images ou tournures très personnelles. Une citation peut donc identifier son auteur, même si vous retirez tous les noms.

Le risque augmente si la phrase a déjà été dite en réunion, publiée sur un réseau social ou associée à une personne connue dans le groupe. Une recherche en ligne peut aussi retrouver une phrase très rare.

Comment réduire le risque :

  • Paraphrasez les phrases très reconnaissables quand le style n’est pas l’objet de l’étude.
  • Gardez le sens, mais retirez les métaphores uniques, slogans, blagues privées et détails superflus.
  • Évitez les citations longues si un court extrait suffit.
  • Ne publiez pas une phrase que le participant utilise comme signature personnelle.

La paraphrase doit rester honnête. Elle ne doit pas changer le sens, le ton général ou l’intention du participant.

5. Remplacer les noms, mais garder les relations

Les relations peuvent identifier aussi bien que les noms. “Mon frère, qui dirige l’unique clinique du canton” ou “ma fille, élue au conseil municipal” donne des indices forts.

Les liens familiaux, professionnels et communautaires méritent donc la même attention que les identifiants directs. Ils réduisent souvent le cercle des personnes possibles.

Comment réduire le risque :

  • Remplacez les liens exacts par des liens plus larges : “un proche”, “un collègue”, “un responsable local”.
  • Supprimez le rôle de l’autre personne si ce rôle n’est pas nécessaire.
  • Vérifiez que les pseudonymes ne créent pas une fausse piste gênante.
  • Gardez la cohérence des pseudonymes dans tout le document.

Attention aussi aux petits groupes. Dans une famille, une équipe ou une classe, “un proche” peut encore rester trop précis si le récit donne d’autres indices.

Comment anonymiser sans détruire la valeur de la recherche

Le but n’est pas de rendre chaque transcription vague et inutile. Le but est de garder les informations nécessaires à l’analyse tout en réduisant les chemins vers l’identité.

Vous pouvez choisir plusieurs techniques selon le risque. La bonne méthode dépend du public, du sujet, de la taille du groupe et de la sensibilité des données.

Utiliser la généralisation

La généralisation remplace un détail précis par une catégorie plus large. Elle fonctionne bien pour les âges, les dates, les lieux, les métiers et les organisations.

  • “43 ans” devient “dans la quarantaine”.
  • “le 6 janvier 2023” devient “début 2023”.
  • “dans un lycée de Nantes” devient “dans un établissement scolaire urbain”.
  • “chirurgien pédiatrique” devient “médecin spécialiste”, si le détail n’est pas central.

Ne généralisez pas au hasard. Notez vos règles pour garder une cohérence entre les transcriptions.

Regrouper les catégories rares

Les catégories rares attirent l’attention. Regroupez-les avec des catégories proches quand elles ne servent pas directement la question de recherche.

  • Regroupez les lieux très petits sous “zone rurale” ou “petite commune”.
  • Regroupez les âges extrêmes sous “plus de 70 ans” ou “moins de 25 ans”.
  • Regroupez les métiers rares sous un secteur plus large.

Cette méthode protège mieux quand le lecteur connaît le terrain. Elle réduit aussi le risque de stigmatiser une seule personne.

Paraphraser avec transparence

La paraphrase aide quand une citation exacte contient des indices ou une voix trop reconnaissable. Elle doit rester fidèle au sens.

Indiquez dans votre méthode que certaines citations ont été légèrement modifiées pour protéger les participants, si votre cadre de publication le permet. Le UK Data Service propose des conseils utiles sur le partage et l’anonymisation de données de recherche dans ses ressources sur l’anonymisation.

Évitez de “nettoyer” la parole au point de changer la position sociale, l’émotion ou l’incertitude du participant. Une bonne paraphrase protège sans trahir.

Séparer la version de travail et la version partagée

Votre équipe peut avoir besoin d’une transcription plus complète pendant l’analyse. Le document partagé, archivé ou publié doit souvent être plus réduit.

Créez donc plusieurs niveaux de fichiers. Par exemple : brut sécurisé, anonymisé interne, puis extrait publié.

Limitez l’accès aux versions riches en détails. N’envoyez pas une transcription complète quand un extrait anonymisé suffit.

Checklist “risk scan” avant de partager une transcription ou une citation

Utilisez cette checklist avant tout partage avec un partenaire, un comité, une revue, un dépôt de données ou un public. Elle aide à repérer les indices qui restent après une première anonymisation.

1. Identifiants directs

  • Ai-je retiré les noms, prénoms, surnoms et initiales ?
  • Ai-je retiré les adresses, numéros de téléphone, e-mails, comptes sociaux et URL personnelles ?
  • Ai-je retiré les noms d’organisations quand ils rendent la personne identifiable ?
  • Ai-je vérifié les métadonnées du fichier, comme le nom du fichier ou les commentaires ?

2. Identifiants indirects

  • Le titre de poste est-il unique dans ce contexte ?
  • La combinaison âge, genre, métier, lieu et parcours réduit-elle le groupe à une personne ?
  • Une date ou un lieu permet-il de retrouver un événement public ?
  • Les liens familiaux, hiérarchiques ou communautaires révèlent-ils trop d’informations ?

3. Citations et style de parole

  • La citation contient-elle une phrase très distinctive ?
  • Le participant utilise-t-il une expression connue dans son groupe ?
  • Une recherche en ligne pourrait-elle retrouver cette phrase exacte ?
  • Une paraphrase fidèle réduirait-elle le risque sans affaiblir l’analyse ?

4. Contexte de partage

  • Qui lira ce document : public large, pairs, financeur, partenaire local ou membres du terrain ?
  • Ces lecteurs connaissent-ils les participants ou leur milieu ?
  • Le sujet expose-t-il les participants à un risque social, professionnel, juridique ou médical ?
  • Le niveau de détail reste-t-il nécessaire pour répondre à la question de recherche ?

5. Contrôle final

  • Ai-je relu chaque extrait comme une personne qui connaît le terrain ?
  • Ai-je fait relire les extraits sensibles par une deuxième personne autorisée ?
  • Ai-je gardé une trace des changements faits et des raisons ?
  • Ai-je séparé les fichiers bruts, internes et publiables ?

Si vous répondez “oui” à une question de risque, ne publiez pas tout de suite. Généralisez, retirez, regroupez ou paraphrasez avant de partager.

Décider quoi garder, modifier ou supprimer

Une bonne décision commence par une question simple : ce détail sert-il vraiment l’analyse ? S’il n’aide pas à comprendre le résultat, il ne mérite pas de créer un risque.

Classez chaque élément sensible en trois groupes. Cela rend les choix plus faciles et plus cohérents.

  • À garder : détails essentiels à la question de recherche et impossibles à remplacer sans perte de sens.
  • À modifier : détails utiles, mais trop précis sous leur forme actuelle.
  • À supprimer : détails intéressants, mais non nécessaires à l’analyse.

Par exemple, une étude sur l’accès aux soins en zone rurale peut avoir besoin de garder “zone rurale”. Elle n’a pas toujours besoin de garder le nom du village, le nom du médecin et la date exacte du rendez-vous.

Une étude sur les trajectoires professionnelles peut avoir besoin du secteur et du niveau de responsabilité. Elle n’a pas toujours besoin du titre exact, de l’employeur et du nom du service.

Gardez aussi en tête le risque cumulé. Un détail modifié ne protège pas assez si dix autres détails restent précis.

Pour les projets basés sur des entretiens, la qualité de départ compte aussi. Une transcription claire rend les passages sensibles plus faciles à repérer, surtout si vous prévoyez ensuite une anonymisation ou une relecture avec des services de relecture de transcription.

Pièges pratiques dans les fichiers de transcription

Les erreurs d’anonymisation ne se trouvent pas seulement dans le texte visible. Elles se cachent aussi dans la structure du fichier et dans le processus de travail.

Noms de fichiers et dossiers

Un fichier nommé “Entretien_Marie_Dupont_mairie_12-04-2024.docx” annule une partie de l’anonymisation. Utilisez des codes neutres, comme “P014_entretien_v2”.

Vérifiez aussi les dossiers partagés. Un dossier portant le nom d’un site, d’un service ou d’un groupe très restreint peut révéler le contexte.

Commentaires et suivi des modifications

Les commentaires dans un document peuvent contenir des noms, des hypothèses ou des rappels sensibles. Le suivi des modifications peut aussi afficher les anciennes versions du texte.

Avant partage, exportez une version propre. Vérifiez que les commentaires, marques de révision et notes internes ont disparu.

Horodatages et repères audio

Les horodatages ne sont pas toujours sensibles. Mais ils peuvent poser problème si vous partagez aussi l’audio ou si un passage précis se relie à une voix reconnaissable.

Évaluez le besoin réel des horodatages dans la version publiée. Si le lecteur n’en a pas besoin, retirez-les.

Pseudonymes mal choisis

Un pseudonyme doit protéger, pas suggérer la vraie identité. Évitez les pseudonymes trop proches du vrai prénom, de l’origine, du genre ou d’un surnom connu.

Gardez une table de correspondance séparée, sécurisée et accessible seulement aux personnes autorisées. Ne l’incluez jamais dans le fichier partagé.

Common questions

Quelle est la différence entre anonymisation et pseudonymisation ?

L’anonymisation vise à empêcher l’identification de la personne de façon raisonnable. La pseudonymisation remplace les identifiants par des codes, mais une table de correspondance peut encore relier le code à la personne.

Dans la pratique, une transcription pseudonymisée peut encore contenir beaucoup d’indices indirects. Elle demande donc une analyse de risque avant partage.

Faut-il toujours supprimer les lieux précis ?

Non, pas toujours. Si le lieu précis sert l’analyse et ne crée pas de risque fort, vous pouvez parfois le garder.

Mais dans une petite communauté ou un sujet sensible, mieux vaut souvent utiliser une zone plus large. Le bon choix dépend du public et du contexte.

Peut-on modifier une citation exacte ?

Oui, si vous le faites pour protéger l’identité et si vous gardez le sens. Vous pouvez paraphraser ou retirer des détails entre crochets, selon les règles de votre discipline.

Expliquez votre approche dans la méthode quand c’est utile. Cela aide le lecteur à comprendre pourquoi certaines citations ne sont pas entièrement verbatim.

Les outils automatiques suffisent-ils pour anonymiser ?

Ils peuvent aider à repérer des noms, dates ou lieux. Mais ils ne comprennent pas toujours les combinaisons rares, les relations locales ou les phrases distinctives.

Une relecture humaine reste donc importante pour les transcriptions de recherche. C’est encore plus vrai pour les sujets sensibles.

Dois-je demander l’avis des participants sur les citations ?

Cela dépend de votre protocole, de votre consentement et de votre comité éthique. Dans certains projets, le retour participant peut aider à repérer un risque que l’équipe n’a pas vu.

Mais ce retour peut aussi créer d’autres contraintes. Décidez cette étape avant la collecte si possible.

Que faire si une citation est parfaite, mais trop identifiable ?

Ne la publiez pas telle quelle. Cherchez d’abord une version plus courte, plus générale ou paraphrasée.

Si la citation reste trop risquée après modification, utilisez une synthèse analytique. La protection du participant doit passer avant la beauté de l’extrait.

Combien de détails peut-on garder dans une transcription partagée ?

Il n’existe pas de nombre fixe. Le niveau acceptable dépend du sujet, du groupe, du public, du consentement et du risque pour les personnes.

Gardez seulement ce qui sert l’objectif du partage. Retirez ou généralisez le reste.

Conclusion : anonymiser, c’est penser comme un lecteur qui connaît le terrain

Les erreurs d’anonymisation viennent souvent de détails ordinaires : un poste rare, une date précise, une phrase unique ou une suite d’événements. Pour réduire le risque, regardez chaque transcription comme un puzzle que quelqu’un pourrait reconstituer.

Des transcriptions claires facilitent ce travail, car elles rendent les indices sensibles plus visibles. Si votre équipe doit préparer, vérifier ou partager des entretiens, GoTranscript propose les bonnes solutions, dont des professional transcription services adaptés aux projets qui demandent une base texte fiable.