Blog

Investigación

Cómo anonimizar transcripciones de investigación (PII, identificadores indirectos y registro): guía paso a paso

Daniel Chang

Publicado en Zoom mar. 15 · 16 mar., 2026

Cómo anonimizar transcripciones de investigación (PII, identificadores indirectos y registro): guía paso a paso

Para anonimizar transcripciones de investigación de forma segura, debes detectar y eliminar (o generalizar) datos personales directos e indirectos, sustituirlos con etiquetas consistentes y documentar cada cambio en un registro de anonimización. Además, conviene guardar una versión interna (con acceso restringido) y otra versión “compartible”, y terminar con una revisión final del riesgo de reidentificación.

En esta guía verás un flujo de trabajo paso a paso, con ejemplos claros, para proteger la privacidad sin perder el valor del análisis cualitativo.

Palabra clave principal: anonimizar transcripciones de investigación.

Key takeaways

Separa identificadores directos (nombre, email) de indirectos (cargo raro, combinación de detalles).
Usa etiquetas coherentes (p. ej., [PARTICIPANTE_03], [CIUDAD_MEDIANA]) para mantener el sentido del relato.
Guarda un log de anonimización para que tu equipo entienda qué se cambió y por qué.
Mantén dos versiones: interna (más completa) y compartible (más conservadora).
Haz un escaneo final de riesgo de reidentificación antes de publicar o compartir.

1) Antes de empezar: qué es PII y qué son identificadores indirectos

En transcripciones, el riesgo no está solo en el nombre o el DNI, sino en la suma de detalles que “señalan” a una persona. Por eso conviene pensar en dos capas: lo obvio (directo) y lo que se deduce (indirecto).

Como referencia general, el RGPD considera dato personal cualquier información sobre una persona identificada o identificable, directa o indirectamente, y su tratamiento exige medidas adecuadas de protección.

Identificadores directos (PII “clásica”)

Nombre y apellidos, apodos muy conocidos, nombre artístico ligado a la persona.
Dirección, teléfono, email, usuario de redes, URL personal.
Número de documento, número de empleado, matrícula, número de historia clínica.
Rostro o voz si el material se comparte como audio/vídeo (en transcripción suele aparecer como descripción).

Identificadores indirectos (cuasi-identificadores)

Datos de localización “pequeña”: barrio, pueblo, centro escolar, hospital concreto.
Fechas exactas: “el 12 de marzo de 2024”, “hace 3 días”, “el día del accidente”.
Ocupación o cargo muy específico: “único neurocirujano pediátrico del hospital X”.
Eventos singulares: premios, accidentes, litigios, noticias locales.
Combinaciones: edad + ciudad pequeña + empresa + puesto + suceso.

Anónimo vs seudónimo (dos conceptos que se confunden)

Anonimizar significa que ya no puedes volver a identificar a la persona con medios razonables. Seudonimizar es sustituir por un código, pero conservas una “llave” (p. ej., tabla de correspondencia) que permite reidentificar.

En investigación, muchas veces necesitas seudonimización interna para controlar el trabajo de campo, pero una versión compartible suele exigir un nivel de anonimización más fuerte.

Para definiciones legales, puedes consultar el texto del RGPD (Reglamento (UE) 2016/679).

2) Workflow paso a paso para anonimizar transcripciones (con ejemplos)

Este flujo de trabajo te ayuda a ser consistente y a reducir errores. También facilita que otra persona revise tu anonimización sin “adivinar” tus criterios.

Paso 1: define el objetivo de uso y el nivel de riesgo aceptable

No es lo mismo compartir una transcripción con un supervisor interno que publicarla como material abierto. Antes de tocar el texto, decide el “destino” de la versión compartible.

Uso interno: análisis en el equipo, auditoría, trazabilidad.
Uso externo: anexos de artículo, repositorio, partners, docencia.

Cuanto más amplio sea el público y más sensibles sean los datos, más deberías generalizar y borrar detalles.

Paso 2: crea un inventario de campos sensibles (tu checklist)

Trabaja con una lista para no depender de “lo que te suena”. Así reduces omisiones, sobre todo en proyectos largos o con varios transcriptores.

Personas (participante, familiares, terceros mencionados).
Organizaciones (empresa, colegio, ONG, hospital).
Lugares (domicilio, barrio, centro, ciudad).
Fechas y periodos.
Datos de salud, religión, política, sindicato, vida sexual (si aparecen).
Casos únicos y eventos noticiosos.

Paso 3: identifica PII directa y sustitúyela por etiquetas consistentes

La regla práctica: lo directo se elimina o se sustituye siempre. Mantén consistencia en el documento y, si hay varias entrevistas, en todo el proyecto.

Participantes: [PARTICIPANTE_01], [PARTICIPANTE_02].
Entrevistador/a: [ENTREVISTADOR_A].
Personas terceras: [HERMANA], [JEFE], [MEDICO_1].

Ejemplo (antes): “Soy Marta Gómez, mi correo es m.gomez@ejemplo.com y vivo en la Calle Mayor 14.”

Ejemplo (después): “Soy [PARTICIPANTE_03], mi correo es [EMAIL] y vivo en [DIRECCION].”

Paso 4: detecta identificadores indirectos y decide: borrar, generalizar o agrupar

Con los indirectos, el objetivo es bajar el nivel de detalle sin romper el sentido analítico. Aquí suele ayudar la generalización por rangos o categorías.

Edad: 43 → [40-49] o “cuarenta y tantos”.
Ciudad: “Mondoñedo” → [CIUDAD_PEQUENA] o [PROVINCIA].
Empresa: “X, la única planta…” → [EMPRESA_MANUFACTURERA].
Fechas: “12/03/2024” → [MARZO_2024] o [2024].

Ejemplo (antes): “Trabajo como jefa de neonatología en el Hospital X de [ciudad pequeña] desde 2019.”

Ejemplo (después): “Trabajo como [CARGO_SANITARIO] en [HOSPITAL] en [CIUDAD_MEDIANA] desde [2015-2019].”

Paso 5: aplica reglas de etiquetado para no perder contexto

Si solo “tapas” datos, puedes convertir la transcripción en un texto inútil. Compensa con etiquetas informativas y consistentes, y evita inventar datos nuevos.

Prefiere generalizar antes que eliminar cuando el dato aporta contexto (p. ej., sector, rango de edad).
Evita sustituir por un dato falso específico (p. ej., cambiar “Sevilla” por “Valencia”), porque introduce sesgo.
Usa etiquetas con jerarquía: [CIUDAD_GRANDE] / [CIUDAD_MEDIANA] / [CIUDAD_PEQUENA].
Si el proyecto lo pide, separa etiquetas por tipo: [LUGAR_], [ORGANIZACION_], [PERSONA_].

Paso 6: crea y mantiene un “log de anonimización”

El log es el documento que explica los cambios de forma verificable, sin necesidad de volver al audio. También te ayuda a ser coherente entre entrevistas y a justificar decisiones.

Incluye como mínimo:

ID (entrada única) y fecha.
Archivo o entrevista (p. ej., ENT_03) y línea o marca de tiempo.
Texto original (solo en la versión interna del log) y texto anonimizado.
Tipo: directo / indirecto / sensible.
Motivo y regla aplicada (p. ej., “generalización por rango”).
Responsable y revisor/a.

Ejemplo de log (formato simple):

ENT_03 | 00:12:08 | “Soy Marta Gómez” → “Soy [PARTICIPANTE_03]” | Directo | Regla: PERSONA→PARTICIPANTE_ID
ENT_03 | 00:14:22 | “Mondoñedo” → “[CIUDAD_PEQUENA]” | Indirecto | Regla: lugar pequeño→categoría

Paso 7: guarda dos versiones (interna y compartible) y separa accesos

Este paso evita el error típico: mandar por email la versión con datos. Mantén rutas, nombres de archivo y permisos claros.

Versión interna: puede incluir más detalle, pero debe tener acceso restringido y controlado.
Versión compartible: elimina o generaliza más, y no incluye la tabla de correspondencias.
Tabla de claves (si existe): guárdala separada de las transcripciones y con permisos mínimos.

Paso 8: escaneo final de riesgo de reidentificación (checklist)

Antes de compartir, haz una lectura “como un extraño” y busca patrones que puedan delatar a alguien. Si puedes, pide una segunda revisión a alguien que no haya estado en el trabajo de campo.

¿Quedan nombres, apellidos o emails en respuestas o ejemplos?
¿Aparecen centros concretos (colegio, hospital) o barrios?
¿Hay fechas exactas o eventos muy únicos?
¿La combinación edad + puesto + lugar identifica a una sola persona?
¿Mencionas terceros (familiares, compañeros) que también requieren protección?
¿Las citas literales incluyen detalles que se pueden buscar?

3) Plantilla de etiquetas recomendada (para consistencia entre entrevistas)

Una buena plantilla reduce decisiones ad hoc. Te permite anonimizar más rápido y mantener criterios entre distintos miembros del equipo.

Etiquetas para personas y roles

[PARTICIPANTE_01], [PARTICIPANTE_02]…
[ENTREVISTADOR_A]
[PAREJA], [MADRE], [HIJO], [AMIGO_1]
[MEDICO_1], [PROFESOR_2], [RESPONSABLE_RRHH]

Etiquetas para lugares

[DIRECCION]
[BARRIO]
[CIUDAD_PEQUENA] / [CIUDAD_MEDIANA] / [CIUDAD_GRANDE]
[PROVINCIA] / [CCAA] / [PAIS]

Etiquetas para fechas y cantidades

[FECHA] (si no aporta nada) o [MES_YYYY] / [YYYY]
[HACE_1-3_MESES], [HACE_1-2_ANOS]
[CANTIDAD_PEQUENA], [CANTIDAD_MEDIA] (si un número exacto identifica)

Etiquetas para organizaciones

[EMPRESA_TECNOLOGIA], [EMPRESA_MANUFACTURERA], [ADMIN_PUBLICA]
[COLEGIO], [UNIVERSIDAD], [HOSPITAL]

4) Errores comunes al anonimizar (y cómo evitarlos)

Muchos fallos ocurren por ir con prisa o por confiar en que “nadie lo reconocerá”. Estos errores suelen aparecer incluso en equipos con experiencia.

Eliminar demasiado contexto: dejas citas vacías y pierdes valor analítico; mejor generaliza (rango, categoría) cuando el contexto importe.
Olvidar a terceros: el participante cuenta datos de otra persona (un hijo, un jefe) y queda identificada.
Inconsistencia de etiquetas: “Juan” pasa a ser [HERMANO] en un sitio y [AMIGO] en otro; crea una tabla de roles por entrevista.
Dejar “migajas” en el texto: iniciales, nombres de usuario, hashtags, nombres de proyectos o de edificios.
Fechas exactas innecesarias: convierten un relato en rastreable; usa meses o periodos.
Metadatos fuera del cuerpo: nombre del archivo, encabezado, nombre del ponente en la portada; revisa también títulos y notas.

5) Criterios para decidir cuánto anonimizar (sin romper el análisis)

Anonimizar no es un interruptor; es una serie de decisiones. Si defines criterios claros, tu equipo aplicará el mismo estándar en todo el proyecto.

Preguntas útiles para cada detalle sensible

¿Este dato es necesario para responder a la pregunta de investigación?
¿Se puede expresar como categoría (sector, rango, zona) sin perder sentido?
¿Podría identificar a alguien por ser un caso único en un entorno pequeño?
¿Aumenta el riesgo al combinarse con otros datos del mismo fragmento?

Reglas prácticas de generalización

Preferir rangos para edad, antigüedad y fechas.
Preferir niveles geográficos más amplios (provincia/CCAA) cuando el lugar sea pequeño.
Preferir sectores (sanidad, educación, logística) sobre nombres de empresa.
Reducir detalles de eventos únicos (“un caso mediático”) a descriptores generales (“un incidente público”).

6) Herramientas y control de calidad: revisión humana, búsquedas y versión final

Puedes mejorar la calidad con controles simples. No necesitas software complejo para detectar muchos rastros de identificación.

Controles rápidos en la transcripción

Búsqueda de “@”, “.com”, “calle”, “avenida”, “DNI”, “NIF”, “hospital”, “colegio”.
Patrones numéricos: teléfonos, códigos postales, matrículas, números largos.
Mayúsculas y nombres propios: revisa listas de nombres frecuentes en tu contexto.
Lectura por fragmentos: revisa especialmente la presentación inicial y los ejemplos anecdóticos.

Revisión a dos pasos (recomendable)

Primera pasada: anonimización por quien trabaja el texto.
Segunda pasada: revisor/a independiente que busque reidentificación, no estilo.

Si vas a compartir audio o vídeo

La anonimización de la transcripción no anonimiza la voz. Si compartes el contenido audiovisual, evalúa si necesitas recortar, distorsionar o no publicar el audio según tu protocolo.

Si publicas material audiovisual con texto en pantalla, valora subtítulos o captions con la versión compartible.

En contextos de accesibilidad, el marco de referencia suele ser la WCAG del W3C, aunque la anonimización y la accesibilidad son problemas distintos.

Common questions

¿Puedo anonimizar solo quitando nombres y apellidos?
No, porque una combinación de detalles (lugar, cargo, evento) puede identificar igual; revisa también identificadores indirectos.
¿Qué hago con las citas literales en un artículo?
Usa la versión compartible y generaliza detalles rastreables; si una cita sigue siendo única, reformula o resume manteniendo el sentido.
¿Es mejor poner datos falsos o etiquetas?
Suelen funcionar mejor las etiquetas o la generalización; los datos falsos específicos pueden introducir errores en el análisis.
¿Cómo anonimizo nombres de empresas o instituciones?
Sustitúyelos por categorías: [EMPRESA_TECNOLOGIA], [HOSPITAL], o por nivel geográfico: [HOSPITAL_PROVINCIAL].
¿Qué meto en el log de anonimización si no puedo guardar el texto original?
Guarda la regla aplicada, la ubicación (línea/tiempo) y el resultado; y limita el acceso al log si contiene fragmentos originales.
¿Cuándo tengo que hacer el escaneo final de reidentificación?
Siempre antes de compartir fuera del equipo y antes de subir archivos a repositorios, anexos o material docente.
¿Puedo usar transcripción automática y luego anonimizar?
Sí, pero revisa errores: un nombre mal escrito puede pasar desapercibido, y un dato sensible puede aparecer en formas inesperadas.

Siguiente paso: convierte tu audio en texto listo para anonimizar

Anonimizar es mucho más fácil cuando partes de una transcripción clara y bien estructurada. Si necesitas pasar entrevistas a texto o preparar material para revisión, GoTranscript puede ayudarte con soluciones adecuadas, incluyendo professional transcription services.

Si tu flujo de trabajo incluye un primer borrador rápido, también puedes valorar la transcripción automática y, si quieres una capa extra de control, la revisión de transcripciones.

Haz tu pedido ahora