Blog

Recherche

Comment anonymiser des transcriptions de recherche (PII, identifiants indirects et journal d’anonymisation)

Andrew Russo

Publié dans Zoom mars 15 · 16 mars, 2026

Comment anonymiser des transcriptions de recherche (PII, identifiants indirects et journal d’anonymisation)

Anonymiser des transcriptions de recherche consiste à retirer ou remplacer les informations qui peuvent révéler l’identité d’une personne, directement ou par recoupement (PII et identifiants indirects). La méthode la plus sûre suit un flux simple : repérer les identifiants, appliquer des tags cohérents, tenir un journal d’anonymisation, garder une version interne et une version partageable, puis faire un scan final du risque de ré-identification.

Dans cet article, vous trouverez un workflow pas à pas, des exemples concrets de tags, et une check-list pour éviter les pièges courants quand vous partagez des verbatims, des annexes ou des extraits audio.

Mot-clé principal : anonymisation des transcriptions de recherche

Key takeaways

Traitez séparément les identifiants directs (nom, email) et les identifiants indirects (poste rare, lieu précis, événement unique).
Utilisez des tags standardisés (ex. [NOM_01], [VILLE]) pour rester cohérent sur tout le corpus.
Tenez un journal d’anonymisation (ce que vous avez changé, où, pourquoi, par qui, quand) et stockez-le à part.
Gardez toujours deux versions : une version interne (contrôlée) et une version partageable (anonymisée).
Terminez par un scan de risque de ré-identification en cherchant les combinaisons “rares + localisables + datées”.

1) Comprendre ce qu’il faut anonymiser : PII, identifiants directs et indirects

Une transcription de recherche contient souvent des informations personnelles même si vous n’avez pas posé de questions “sensibles”. L’anonymisation vise à empêcher qu’un lecteur identifie une personne, y compris par recoupement avec d’autres sources.

En Europe, la notion d’“information permettant d’identifier” s’interprète largement, ce qui inclut les identifiants indirects quand ils rendent une personne identifiable dans un contexte donné.

Identifiants directs (PII évidentes)

Nom, prénom, surnom unique.
Email, numéro de téléphone, identifiant de messagerie.
Adresse postale, immeuble, numéro d’appartement.
Numéro d’employé, matricule, numéro de dossier.
Liens vers des profils (LinkedIn, Facebook) ou noms d’utilisateur.

Identifiants indirects (PII “par recoupement”)

Fonction très spécifique (ex. “la seule sage-femme coordinatrice du service X”).
Lieu trop précis (un petit village, une école, un service hospitalier exact).
Dates et événements uniques (ex. “le jour de l’incendie de 2023 dans notre rue”).
Combinaisons : âge + profession rare + ville + situation familiale.
Détails biographiques singuliers (prix, procès, accident médiatisé).

Pseudonymisation vs anonymisation

La pseudonymisation remplace l’identité par un code, mais l’organisation peut encore relier le code à la personne via une “clé”. L’anonymisation, elle, vise à rendre l’identification impossible ou très difficile dans les conditions normales d’utilisation, ce qui demande un contrôle du risque de recoupement.

Pour le cadre légal en Europe, vous pouvez consulter la page d’introduction au RGPD de la Commission européenne.

2) Préparer un workflow clair avant d’éditer la première ligne

Vous gagnerez du temps si vous définissez des règles avant de toucher aux fichiers. Sans règles, vous risquez des tags incohérents, des oublis et des décisions impossibles à justifier après coup.

Décidez du “niveau d’anonymisation” attendu

Partage interne restreint : anonymisation légère, mais contrôle d’accès strict.
Partage avec partenaires : anonymisation plus forte + suppression de détails rares.
Publication / annexe publique : anonymisation maximale + réduction des détails contextuels.

Créez vos ressources de départ (10 minutes)

Un guide de tags (noms, lieux, organisations, dates, rôles, etc.).
Un journal d’anonymisation (tableur ou document contrôlé).
Un plan de stockage : dossier “interne” séparé du dossier “partage”.
Une règle de nommage des fichiers (ex. INT_Entretien01_verbatim.docx vs SHARE_Entretien01_anon.docx).

3) Étape 1 — Repérer les identifiants directs et indirects

Commencez par une lecture (ou une passe de surlignage) avec une grille simple. Votre objectif n’est pas d’éditer tout de suite, mais de repérer ce qui “identifie” et ce qui “rend identifiable”.

Grille de repérage rapide (à appliquer à chaque entretien)

Personnes : participants, collègues, famille, professionnels cités.
Coordonnées : email, téléphone, réseaux sociaux, adresses.
Géographie : ville, quartier, établissement, service, site.
Temporalité : dates exactes, horaires, périodes très précises.
Organisations : entreprise, association, école, hôpital, clients.
Cas uniques : événements locaux, médiatisation, contentieux.

Astuce : traquez les “triples” à risque

Le risque augmente quand une phrase combine un lieu précis, une date et un rôle rare. Même sans nom, cette combinaison peut suffire à reconnaître quelqu’un.

4) Étape 2 — Remplacer avec des tags cohérents (et utiles à l’analyse)

Remplacez les identifiants avec des tags standardisés, et gardez une logique de numérotation stable. Vous pourrez ainsi coder et citer des verbatims sans “casser” la lecture.

Règles de tags recommandées

Utilisez des crochets : [TAG] pour que la recherche soit facile.
Numérotez quand il y a plusieurs entités : [NOM_01], [NOM_02].
Gardez la même entité = le même tag dans tout le corpus (cohérence).
Choisissez un niveau de précision qui sert votre analyse (ex. ville → région).

Exemples avant / après

Nom : “Je m’appelle Sophie Martin.” → “Je m’appelle [PRENOM_01] [NOM_01].”
Entreprise : “Chez Renault, dans l’équipe achats…” → “Chez [ENTREPRISE_01], dans l’équipe [DEPARTEMENT]…”
Ville : “J’habite à Lannion.” → “J’habite dans [VILLE_MOYENNE].”
Adresse : “au 14 rue Victor-Hugo” → “au [ADRESSE].”
Date : “le 3 février 2024” → “début [ANNEE]” ou “au [T1_2024]”.
Événement unique : “le jour où le maire a été arrêté” → “lors d’un [EVENEMENT_LOCAL].”

Que faire des citations et verbatims “trop reconnaissables”

Réduisez les détails (lieu/date) plutôt que de réécrire le sens.
Remplacez une rareté par une catégorie (ex. “seul poste” → “poste de coordination”).
Si une phrase reste unique, retirez-la de la version partageable et gardez-la en interne.

5) Étape 3 — Tenir un journal d’anonymisation (log) et gérer deux versions

Le journal d’anonymisation vous permet de justifier vos choix, de rester cohérent et d’auditer le travail plus tard. Il vous aide aussi si vous devez corriger une anonymisation sans tout relire.

Que mettre dans le journal d’anonymisation

ID du document (Entretien01, Groupe02, etc.).
Emplacement (horodatage, page, ligne, ou extrait).
Type (nom, lieu, organisation, date, rôle, événement).
Action (supprimé, généralisé, remplacé par tag).
Tag utilisé (ex. [HOPITAL_01], [VILLE]).
Raison (direct, indirect, recoupement probable).
Initiales de l’éditeur + date.

Deux versions : interne vs partageable

Version interne : peut garder plus de contexte, mais reste protégée (accès limité, stockage séparé).
Version partageable : anonymisation renforcée, suppression des détails inutiles, et aucun lien vers la clé.

Où stocker la “clé” (si vous pseudonymisez)

Si vous conservez une table de correspondance (participant ↔ code), stockez-la séparément des transcriptions et limitez l’accès. Évitez de l’envoyer par email et évitez de la mettre dans le même dossier de partage que les verbatims.

Si vous devez fournir des fichiers pour sous-titrage ou accessibilité, vous pouvez aussi envisager des livrables séparés (texte, timecodes, versions anonymisées). Selon votre besoin, des services dédiés comme le closed captioning peuvent vous aider à garder un format cohérent entre vidéo et texte.

6) Étape 4 — Faire un scan final du risque de ré-identification

Avant de partager, faites une passe de contrôle orientée “risque”. Cette étape change tout, car les risques viennent souvent de combinaisons de détails, pas d’un seul champ “nom”.

Check-list de scan final (10–20 minutes par entretien)

Recherchez toutes les occurrences de : @, numéros de téléphone, URLs, “rue”, “avenue”, codes postaux.
Vérifiez les petites localités, établissements, services, et noms de projets.
Repérez les dates exactes et remplacez-les par des périodes quand possible.
Re-lisez les passages où la personne décrit un parcours rare ou un événement local.
Contrôlez la cohérence des tags (un même collègue ne doit pas devenir [NOM_02] ailleurs).
Demandez un second regard si vous publiez (une autre personne repère mieux les recoupements).

Test “ami du participant”

Posez-vous une question simple : “Si un collègue proche lit ce texte, reconnaît-il la personne en 2 minutes ?” Si la réponse est oui, généralisez davantage les lieux, les dates et les rôles.

Pièges fréquents (et comment les éviter)

Oublier les personnes tierces : anonymisez aussi collègues, enfants, médecins, managers cités.
Laisser des indices dans les métadonnées : nom de fichier, auteur Word, commentaires, historique des modifications.
Garder des noms dans les timecodes : ex. “Sophie_Entretien1.wav” → renommer en “P01.wav”.
Sur-anonymiser et perdre l’intérêt scientifique : remplacez sans détruire le sens (généraliser au bon niveau).
Incohérence des tags : créez une liste officielle et appliquez-la partout.

Common questions

Dois-je anonymiser si j’ai déjà un consentement signé ?
Souvent oui, surtout si vous partagez les transcriptions au-delà de l’équipe, car le consentement ne supprime pas le risque d’identification.
Qu’est-ce qu’un identifiant indirect “suffisant” pour identifier quelqu’un ?
C’est un détail qui, combiné à d’autres, rend une personne reconnaissable dans un contexte donné (petite équipe, ville, rôle rare, événement unique).
Faut-il remplacer ou supprimer ?
Remplacez quand le détail sert l’analyse (ex. catégorie de métier), supprimez quand il n’apporte rien et augmente le risque.
Comment gérer les citations verbatim dans un rapport ?
Utilisez la version partageable, vérifiez que la citation ne contient pas d’événement unique, et associez-la à un code participant (ex. P07).
Puis-je automatiser l’anonymisation ?
Vous pouvez accélérer le repérage avec des recherches et des outils, mais faites toujours une validation humaine, surtout pour les identifiants indirects.
Que faire si l’anonymisation rend le texte incompréhensible ?
Montez d’un cran dans la généralisation (ex. “hôpital X” → “hôpital”), et ajoutez des notes analytiques séparées au lieu de laisser des détails identifiants.

Un modèle simple de procédure (résumé pas à pas)

1. Préparer : guide de tags + journal + dossiers “interne” / “partage”.
2. Repérer : surligner directs et indirects, surtout les combinaisons rares.
3. Remplacer : appliquer des tags cohérents, généraliser lieux/dates/rôles.
4. Documenter : remplir le journal d’anonymisation à chaque décision.
5. Séparer : produire deux versions, stocker la clé à part si besoin.
6. Scanner : contrôle final + second regard si publication.

Si vous travaillez avec de gros volumes, un flux hybride peut aider : une première passe rapide avec une solution d’transcription automatisée, puis une passe d’édition/anonymisation et, si nécessaire, une relecture dédiée.

Besoin d’un format de transcription clair, cohérent et facile à anonymiser, ou d’un support pour préparer des versions partageables ? GoTranscript propose des solutions adaptées à vos usages de recherche, y compris des professional transcription services pour transformer l’audio en texte exploitable et mieux contrôlable.

Commandez maintenant