Blog

Investigación

Plantilla de metadatos para transcripciones: Study ID, ola, participante, fecha y herramienta (sin datos identificables)

Matthew Patel

Publicado en Zoom mar. 5 · 8 mar., 2026

Plantilla de metadatos para transcripciones: Study ID, ola, participante, fecha y herramienta (sin datos identificables)

Una buena plantilla de metadatos para transcripciones te permite encontrar, filtrar y reutilizar entrevistas sin abrir cada archivo, y también reduce el riesgo de exponer datos personales. La forma más práctica es mantener un esquema “spreadsheet-ready” con un Study ID estable, una ola (wave), un ID de participante no identificable, fecha (mejor generalizada) y la herramienta/método de transcripción, más campos de calidad y anonimización.

Abajo tienes un esquema recomendado, una fila de ejemplo y reglas claras sobre qué campos nunca deben llevar identificadores. El objetivo es mejorar la trazabilidad (qué es cada transcripción y de dónde sale) sin meter información que no necesitas.

Palabra clave principal: plantilla de metadatos para transcripciones.

Key takeaways

Separa siempre identificadores operativos (Study ID, Transcript ID) de cualquier dato personal.
Generaliza lo sensible: usa mes en vez de día exacto, y región en vez de ciudad.
Registra el método/herramienta y el estado de anonimización para evitar errores al compartir.
Añade campos de estado (revisión, codificación) para saber qué está “listo” y qué no.
Define una lista de campos que nunca deben incluir identificadores (nombres, emails, teléfonos, direcciones, IDs oficiales).

Qué son los metadatos de una transcripción y por qué importan

Los metadatos son los datos “sobre” la transcripción: identifican el estudio, la ola, el tipo de participante, el idioma, cómo se transcribió y si está anonimizada. No sustituyen al contenido, pero te permiten organizarlo.

Sin metadatos, la trazabilidad se rompe: no sabes qué versión es la buena, qué entrevistas faltan, o qué puedes compartir sin riesgo. Con una plantilla común, tu equipo usa los mismos nombres y filtros desde el primer día.

Qué problemas resuelve una plantilla estándar

Búsqueda rápida: filtrar por ola, método, idioma o estado de codificación.
Control de calidad: saber qué transcripciones están revisadas o aún en borrador.
Compartición segura: distinguir “anonimizado sí/no” antes de enviar archivos.
Reproducibilidad: registrar cómo se generó el texto (humano, automático, con revisión).

Esquema de metadatos “spreadsheet-ready” (campos recomendados)

Esta tabla está pensada para Excel/Google Sheets y para importarla luego en un gestor de datos o en tu repositorio del proyecto. Incluye los campos que pedías (Study ID, método, tipo de participante, ubicación generalizada, fecha, método de transcripción, estado de anonimización, idioma y estado de codificación) y añade algunos que suelen hacer falta.

Si tu equipo prefiere menos columnas, mantén como mínimo: Study ID, Wave, Participant ID, Date (generalizada), Language, Transcription method, Anonymization status y Coding status.

Columnas (con formato y ejemplos)

study_id (texto corto, estable): STUDY-2026-01
wave (texto o número): W1, W2 o Baseline
transcript_id (único por transcripción): STUDY-2026-01_W1_P014_INT01
participant_id (seudónimo no identificable): P014
participant_type (categoría, no persona): Paciente, Profesional, Docente
method (cómo se recogió el dato): Entrevista semiestructurada, Grupo focal
collection_mode (canal): Presencial, Videollamada, Teléfono
location_generalized (nivel amplio): Andalucía, Norte de España, España (online)
date_generalized (recomendado AAAA-MM): 2026-02
recording_file_id (ID interno, sin ruta personal): AUD-000983
duration_min (número): 47
language (idioma principal): es-ES, ca-ES, eu-ES
transcription_method (controlado): Humana, Automática, Automática + revisión
tool (si aplica): Nombre de la herramienta o N/A
speaker_labels (sí/no): Sí, No
verbatim_level (controlado): Limpia, Literal
anonymization_status (controlado): No anonimizada, Anonimización parcial, Anonimizada
anonymization_notes (texto corto, sin detalles): Se reemplazaron nombres propios por etiquetas
qc_status (controlado): Pendiente, Revisada, Necesita corrección
coding_status (controlado): No codificada, En codificación, Codificada
codebook_version (texto): CB-1.2
access_level (controlado): Solo equipo, Equipo ampliado, Publicable
notes (opcional, sin identificadores): Audio con ruido al inicio

Fila de ejemplo (copiable)

Puedes copiar esto como fila de referencia y adaptar los valores.

study_id: STUDY-2026-01
wave: W1
transcript_id: STUDY-2026-01_W1_P014_INT01
participant_id: P014
participant_type: Profesional
method: Entrevista semiestructurada
collection_mode: Videollamada
location_generalized: España (online)
date_generalized: 2026-02
recording_file_id: AUD-000983
duration_min: 47
language: es-ES
transcription_method: Automática + revisión
tool: N/A
speaker_labels: Sí
verbatim_level: Limpia
anonymization_status: Anonimizada
anonymization_notes: Etiquetas para nombres y organizaciones
qc_status: Revisada
coding_status: En codificación
codebook_version: CB-1.2
access_level: Solo equipo
notes: Ruido de fondo moderado

Reglas de oro para IDs (Study ID, Wave, Participant) y nombres de archivo

Los IDs deben ser estables, cortos y sin significado personal. Si metes información como iniciales, centro, ciudad o fecha exacta, acabas filtrando datos identificables por accidente.

Define un patrón y úsalo siempre, tanto en la hoja de metadatos como en el nombre del archivo de la transcripción.

Patrón recomendado

Study ID: STUDY-AAAA-NN (ej.: STUDY-2026-01).
Wave: W1, W2, W3 o nombres simples (Baseline, Follow-up).
Participant ID: P001, P002… (sin iniciales).
Transcript ID: Study + Wave + Participant + tipo (INT01, FG01).

Convención de archivos (ejemplo)

Audio: STUDY-2026-01_W1_P014_INT01_AUDIO.mp3
Transcripción: STUDY-2026-01_W1_P014_INT01_TRANSCRIPT.docx
Versión anonimizada: STUDY-2026-01_W1_P014_INT01_TRANSCRIPT_ANON.docx

Campos que nunca deben incluir identificadores (y qué poner en su lugar)

Para mejorar búsqueda y trazabilidad no necesitas datos personales. Si un campo puede acabar en un archivo compartido, exportado o publicado, trátalo como “no apto para identificadores”.

Como referencia, el RGPD considera dato personal cualquier información que identifique o pueda identificar a una persona, directa o indirectamente, en un contexto razonable (ver definición de dato personal en el RGPD).

Nunca metas identificadores en estos campos

participant_id: no uses iniciales, nombre, DNI, número de historia clínica, usuario, matrícula, ni combinaciones “obvias”.
transcript_id y recording_file_id: evita nombres, emails, teléfonos, centros o ubicaciones exactas.
location_generalized: no pongas dirección, barrio, centro, empresa concreta ni “pueblo + profesión” si puede señalar a alguien.
date_generalized: evita día y hora exactos si no son imprescindibles; mejor mes o trimestre.
notes y anonymization_notes: no copies fragmentos del contenido que incluyan nombres o eventos únicos.
tool: no incluyas cuentas, correos, nombres de usuario, enlaces con tokens o IDs de proyecto que revelen al participante.

Qué usar en su lugar

Seudónimos (P014) y categorías (Profesional, Estudiante) en vez de nombres.
Ubicación por nivel: comunidad, región amplia o “online”.
Fecha generalizada: AAAA-MM o “2026-Q1”.
Acceso por nivel: “Solo equipo” para controlar la difusión.

Cómo implementar la plantilla paso a paso (sin complicar el flujo)

La plantilla solo funciona si forma parte del proceso diario. Si la dejas para el final, se llena con prisas y aparecen inconsistencias.

Este flujo encaja bien tanto en investigación cualitativa como en proyectos de contenido con entrevistas.

Proceso recomendado

1) Antes de grabar: asigna Study ID, wave y participant_id, y crea el transcript_id.
2) Al guardar el audio: usa el transcript_id en el nombre del archivo y registra recording_file_id y duración.
3) Al transcribir: completa transcription_method, tool, verbatim_level y speaker_labels.
4) Al anonimizar: actualiza anonymization_status y access_level, y anota solo el tipo de cambios.
5) Revisión: marca qc_status y, si procede, quién revisó usando un ID interno del equipo (no un nombre si el documento se comparte fuera).
6) Codificación: marca coding_status y codebook_version para saber con qué marco se trabajó.

Checklist rápido de consistencia

¿Cada transcripción tiene un transcript_id único?
¿Wave y fecha siguen el mismo formato en todas las filas?
¿El campo location es generalizado en todo el dataset?
¿Anonymization status coincide con el archivo (ANON vs no ANON)?

Errores comunes y cómo evitarlos

Los fallos típicos no son técnicos, son de hábitos: cada persona nombra y describe a su manera. Si pones reglas sencillas y menús desplegables, reduces variaciones.

También conviene separar “lo que necesito para analizar” de “lo que necesitaría para contactar”, y guardar eso último en otro sitio más protegido.

Errores que conviene cortar desde el inicio

Mezclar PII con metadatos: por ejemplo, “P014 (María, enfermera del centro X)”.
Usar fechas exactas sin necesidad: crea una huella fácil de identificar.
Ubicación demasiado precisa: “Hospital X, planta 3” no es un metadato, es un identificador.
Campo “notes” como cajón desastre: ahí suele colarse información sensible.
No registrar el método de transcripción: luego no sabes si una frase viene de un borrador automático.
No controlar versiones: varias transcripciones “final_final.docx” rompen la trazabilidad.

Medidas simples que funcionan

Usa listas cerradas (validación de datos) para wave, method, transcription_method, anonymization_status, qc_status y coding_status.
Define un diccionario de datos de 1 página que explique cada columna y su formato.
Separa en dos ficheros: metadatos operativos (sin PII) y tabla de contacto (con PII y acceso restringido).

Decidir el nivel de detalle: búsqueda vs privacidad

Cuanto más detalle guardas, más fácil filtrar, pero también sube el riesgo de reidentificación. La solución no es “cero detalle”, sino elegir el nivel correcto para tu objetivo.

Como regla práctica, empieza con el nivel más general que te permita responder a tus preguntas de análisis y de gestión.

Guía rápida de generalización

Fecha: mes (AAAA-MM) suele bastar; usa día solo si lo necesitas para una línea temporal fina.
Ubicación: región amplia; baja al nivel provincia solo si el análisis lo exige y el grupo es grande.
Participante: tipo/categoría; evita combinaciones muy raras (p. ej., “Alcalde del municipio X”).

Si vas a publicar o compartir fuera del equipo

Revisa que access_level sea “Publicable” solo para transcripciones realmente anonimizada.
Elimina o vacía campos de notas si no aportan valor al receptor.
Comprueba que los nombres de archivo no incluyan información sensible.

Common questions

¿Qué diferencia hay entre Study ID y Transcript ID?
El Study ID identifica el proyecto o estudio completo, y el Transcript ID identifica una transcripción concreta dentro de ese estudio. El Transcript ID suele combinar Study ID + wave + participant_id + tipo de sesión.
¿Puedo usar el nombre real del participante si la hoja no sale del equipo?
No es buena práctica, porque los archivos se copian y se reenvían con facilidad. Mejor guarda los datos de contacto en una tabla separada con acceso restringido y usa seudónimos en los metadatos.
¿Qué formato de fecha es más seguro y útil?
AAAA-MM suele equilibrar bien análisis y privacidad. Si necesitas más detalle, considera AAAA-MM-DD pero revisa el riesgo de identificación según el tamaño y contexto de la muestra.
¿Qué pongo en “tool” si la transcripción la hizo una persona?
Puedes poner “N/A” o “Humana (sin herramienta)”, y mantener el detalle en transcription_method. Si hubo software de apoyo (por ejemplo, un editor), indícalo sin incluir cuentas o enlaces internos.
¿Cómo marco que una transcripción está lista para análisis?
Usa qc_status = “Revisada” y anonymization_status = “Anonimizada” si vas a compartirla, y luego coding_status según el avance. Evita que “lista” sea un campo ambiguo.
¿Necesito guardar la ubicación si no analizo por región?
No. Si no aporta valor, elimínala o déjala en un nivel muy general (“online”). Menos datos sensibles suele ser mejor.
¿Qué hago si el propio audio contiene nombres y datos personales?
Registra el estado de anonimización y define un flujo: transcribir, luego anonimizar el texto, y restringir el acceso al audio original. Si vas a hacer subtítulos o compartir clips, aplica la misma regla.

Si quieres convertir audios en texto y mantener un flujo ordenado (con opciones humanas o automáticas), GoTranscript ofrece soluciones que encajan bien con plantillas de metadatos y procesos de revisión. Puedes empezar por sus professional transcription services y aplicar desde el primer día un esquema claro como el de esta guía.

Haz tu pedido ahora