Para compartir transcripciones en un repositorio público sin meterte en problemas, necesitas dos cosas: permiso claro para difundir y un proceso de anonimización repetible. La forma más segura es seguir un flujo “listo para repositorio”: confirmar el consentimiento, anonimizar con reglas documentadas, preparar un README, empaquetar metadatos y elegir formatos de archivo adecuados.
En esta guía tienes un workflow práctico, con checklist de qué incluir y qué excluir (por ejemplo, audio bruto si no está permitido). El objetivo es que cualquiera pueda reutilizar tus transcripciones sin exponer a nadie.
Palabra clave principal: preparar transcripciones para compartir públicamente
Key takeaways
- Empieza por el consentimiento: si no autoriza difusión pública, no publiques, o publica solo lo que el permiso permita.
- Anonimiza con reglas escritas (qué ocultas, cómo sustituyes, cómo marcas cambios) y aplícalas de forma consistente.
- Publica un paquete completo: transcripciones anonimizadas + codebook (diccionario de sustituciones) + metadatos + README.
- Excluye identificadores directos y también combinaciones que puedan reidentificar (lugares, cargos, eventos raros).
- Elige formatos simples y duraderos (TXT, CSV, JSON) y guarda el original en un lugar seguro si tienes derecho a conservarlo.
1) Antes de empezar: consentimiento, permisos y alcance de difusión
La pregunta clave no es “¿puedo subirlo?”, sino “¿qué exactamente puedo hacer público según el consentimiento y las normas de tu organización?”. Si el consentimiento solo permite uso interno o académico cerrado, un repositorio público no entra.
Si trabajas en la UE o tratas datos de personas en la UE, recuerda que el RGPD regula el tratamiento y la difusión de datos personales, incluso en forma de transcripción. Puedes consultar el marco general en el sitio oficial del Reglamento General de Protección de Datos (RGPD).
Checklist rápido de permisos (antes de tocar el texto)
- Consentimiento: ¿incluye publicación en repositorio público y reutilización por terceros?
- Derechos: ¿quién tiene derechos sobre la grabación y la transcripción (entrevistador, institución, participantes)?
- Restricciones: ¿hay cláusulas de no compartir audio, nombres, ubicaciones, o temas sensibles?
- Menores y poblaciones vulnerables: si aplica, ¿hay requisitos extra y salvaguardas?
- Base legal y finalidad: ¿la finalidad del repositorio encaja con lo informado a las personas participantes?
Decisión práctica: publicar, publicar parcialmente o no publicar
- Publicar: cuando el consentimiento permite difusión pública y el riesgo de reidentificación es bajo tras anonimización.
- Publicar parcialmente: cuando solo puedes compartir extractos, o solo transcripción sin audio, o con campos limitados.
- No publicar: cuando el permiso no lo cubre, o el contenido es tan identificable que ni con anonimización baja el riesgo.
2) Diseña reglas de anonimización (y escríbelas) antes de editar
Anonimizar no es “borrar nombres” y listo, porque muchos detalles indirectos identifican. Necesitas reglas claras y documentadas para que el equipo anonimice igual hoy y dentro de seis meses.
Crea un documento corto llamado, por ejemplo, ANONIMIZATION_RULES.md o una sección en el README con decisiones y ejemplos. Esto también ayuda a quienes reutilicen los datos a entender qué se cambió.
Qué debes tratar como dato identificable en transcripciones
- Identificadores directos: nombres y apellidos, teléfonos, emails, DNI/NIE/pasaporte, direcciones, matrículas.
- Identificadores indirectos: puesto exacto y empresa pequeña, barrio muy concreto, fechas exactas vinculadas a eventos, combinaciones raras ("la única pediatra del pueblo").
- Datos sensibles: salud, orientación sexual, religión, afiliación sindical, ideología, origen étnico, y similares.
- Voz y audio: la voz puede ser identificable incluso sin nombre, por eso el audio requiere cuidado extra.
Cómo sustituir información: patrones que funcionan
- Pseudónimos consistentes: “María” → “P01”, “P02”, o nombres ficticios, manteniendo consistencia por persona.
- Generalización: “en la calle X número 14” → “en una calle del centro”.
- Rangos: “tengo 47” → “tengo 40–49” o “tengo más de 40”, según tu riesgo.
- Etiquetas por categoría: “[HOSPITAL]”, “[UNIVERSIDAD]”, “[CIUDAD_MEDIANA]”.
- Supresión: si un detalle no aporta valor analítico, bórralo: “[DETALLE_ELIMINADO]”.
Reglas mínimas que conviene definir (por escrito)
- Formato de sustituciones: corchetes, mayúsculas, y si incluyes tipo y número (ej. [EMPRESA_01]).
- Consistencia temporal: misma persona siempre con el mismo ID en todos los archivos.
- Qué haces con fechas: exactas, mes/año, o solo año.
- Qué haces con ubicaciones: ciudad, provincia, comunidad autónoma, o región amplia.
- Umbral de rareza: cuándo generalizas (por ejemplo, profesiones únicas o eventos muy localizados).
- Cómo marcas incertidumbre: [ININTELIGIBLE], [DUDOSO], o notas del transcriptor.
3) Flujo de trabajo “repository-ready” (paso a paso)
Este flujo crea un paquete que se entiende, se reutiliza y se audita. Además, reduce el riesgo de olvidar archivos sensibles.
Paso 1: crea una copia de trabajo y bloquea el original
- Guarda los originales (audio y transcripción sin tocar) en un entorno seguro con acceso limitado.
- Trabaja solo sobre copias, con una estructura clara de carpetas (ver ejemplo más abajo).
Paso 2: revisa la transcripción para calidad básica
- Corrige errores que puedan crear identificadores accidentales (nombres mal escritos, cargos, lugares).
- Normaliza etiquetas de hablantes (Entrevistador, P01, P02) antes de anonimizar.
Si ya tienes una transcripción hecha y solo necesitas una última capa de revisión, un servicio de corrección puede ahorrar tiempo en proyectos grandes. Si te encaja, revisa las transcription proofreading services.
Paso 3: anonimiza siguiendo tus reglas (sin improvisar)
- Pasa por el texto con una lista de “cosas a buscar”: nombres, emails, direcciones, centros, eventos, cargos exactos.
- Aplica sustituciones consistentes y registra decisiones especiales (por ejemplo, un evento muy identificable).
- Evita cambios que alteren el sentido analítico (si cambias “mi jefa” por “mi compañero”, distorsionas).
Paso 4: documenta lo que cambiaste (codebook)
- Crea un CODEBOOK que explique tus etiquetas y categorías (sin incluir información que reidentifique).
- Incluye un “mapa” de IDs de participantes (P01, P02) sin nombres reales, y atributos generalizados si hacen falta.
Paso 5: crea metadatos útiles (sin pasarte)
- Incluye variables que ayuden a analizar (fecha en rango, tipo de entrevista, duración aproximada, idioma, tema).
- Evita metadatos que puedan identificar (lugar exacto, rol único, combinación muy rara).
Paso 6: prepara README y estructura de carpetas
Un README bueno reduce preguntas y uso incorrecto. Explica qué hay, qué falta, y cómo citar o reutilizar el material.
Paso 7: empaqueta, valida y decide formatos
- Exporta archivos en formatos simples y estables.
- Haz una revisión final tipo “control de salida” con un checklist (lo tienes más abajo).
4) Estructura recomendada del paquete (con ejemplos)
Esta estructura funciona bien para repositorios, entregas a instituciones y datasets internos. Mantiene separada la documentación, los datos y cualquier material restringido.
Ejemplo de carpetas
- /README.md
- /LICENSE.txt o archivo de condiciones de uso (si tu institución lo exige)
- /docs/
- ANONIMIZATION_RULES.md
- CODEBOOK.md
- DATA_DICTIONARY.md (si tienes variables en CSV/JSON)
- /data/transcripts/
- P01_interview_01.txt
- P02_interview_01.txt
- /data/metadata/
- metadata.csv
- /restricted/ (no se sube al repositorio público)
- audio_original/
- transcripts_no_anonymization/
- keyfile_mapping_ids/
Qué debe incluir un README (lista corta y útil)
- Descripción del contenido: qué son las transcripciones, cuántas, de qué tipo.
- Cómo se hizo la anonimización: resumen y enlace a reglas completas.
- Qué se eliminó y por qué: por ejemplo, audio bruto no permitido.
- Formato de archivos: TXT/CSV/JSON, codificación, convención de nombres.
- Limitaciones conocidas: solapamientos, partes inaudibles, sesgos del muestreo (si procede).
- Contacto o responsable: un correo genérico o institucional, no personal si no hace falta.
5) Formatos de archivo y convenciones que facilitan la reutilización
El formato es parte de la ética: si publicas algo difícil de abrir o entender, fuerzas a la gente a “reinterpretar” y puedes generar errores. Prioriza formatos abiertos, nombres consistentes y texto en limpio.
Formatos recomendados (según uso)
- TXT (UTF-8): simple, duradero y fácil de versionar.
- CSV: ideal para metadatos y diccionarios de variables.
- JSON: útil si guardas estructura (turnos de habla, timestamps, etiquetas).
- DOCX: aceptable para lectura humana, pero no es el mejor para análisis automático.
Sobre timestamps y turnos de habla
- Incluye timestamps si aportan valor (por ejemplo, para investigación conversacional o accesibilidad interna).
- Evita timestamps si pueden facilitar la vinculación con audio externo filtrado o si elevan el riesgo.
- Mantén turnos claros: “ENTREVISTADOR:” y “P01:” con saltos de línea consistentes.
Convención de nombres de archivos (ejemplo)
- [ID]_[tipo]_[número]_[fecha-generalizada].ext
- Ejemplo: P03_interview_02_2024-Q1.txt
6) Checklist final: qué incluir y qué excluir antes de publicar
Usa esta lista como “puerta de salida” antes de subir archivos. Si un punto no se cumple, detén la publicación y corrige.
Incluye (recomendado)
- Transcripciones anonimizadas en un formato claro (TXT/JSON) y con etiquetas de hablantes.
- Codebook con reglas de etiquetas, categorías y sustituciones (sin datos reales).
- Metadatos (CSV/JSON) con variables útiles y generalizadas.
- README con alcance, metodología de anonimización y limitaciones.
- Reglas de anonimización (ANONIMIZATION_RULES.md) con ejemplos.
- Condiciones de uso o licencia, si tu repositorio lo requiere.
Excluye (salvo permiso explícito y evaluación de riesgo)
- Audio bruto si el consentimiento no permite compartirlo o si el repositorio es público.
- Transcripciones sin anonimizar y cualquier borrador con datos reales.
- Archivos “key” que conecten P01 ↔ nombre real (aunque estén “ocultos”).
- Datos de contacto (emails, teléfonos), direcciones, identificadores oficiales.
- Metadatos demasiado finos (lugar exacto, fecha exacta, rol único) que reidentifican por combinación.
Control de calidad de anonimización (5 comprobaciones rápidas)
- Búsqueda global: busca “@”, números largos, y palabras típicas ("calle", "avenida", "DNI").
- Revisión por muestreo: revisa al menos algunos archivos completos, no solo fragmentos.
- Consistencia: P01 siempre es P01 y no cambia a “Participante 1” sin motivo.
- Riesgo por contexto: mira si una historia concreta identifica aunque no haya nombres.
- Separación de carpetas: confirma que /restricted/ no se sube ni se sincroniza al repositorio.
Common questions
¿Anonimización y seudonimización son lo mismo?
No siempre. La seudonimización sustituye identificadores (por ejemplo, P01), pero puede existir un fichero que permite volver a identificar; la anonimización busca que no puedas reidentificar de forma razonable con lo publicado.
¿Puedo publicar el audio si quito los nombres en la transcripción?
No necesariamente, porque la voz puede identificar. Publica audio solo si el consentimiento lo permite y has evaluado el riesgo, o considera no publicarlo y compartir solo transcripciones.
¿Qué hago con nombres de empresas, hospitales o colegios?
Si pueden identificar a una persona o a un grupo pequeño, generaliza o usa etiquetas (por ejemplo, [HOSPITAL_01]). Documenta la regla en tu codebook.
¿Cómo manejo citas textuales para un repositorio público?
Mantén el significado, pero elimina detalles que identifiquen. Si una cita es demasiado única, considera parafrasear, acortar, o excluirla del conjunto público.
¿Debo incluir timestamps?
Inclúyelos si aportan valor real a tu caso de uso. Si no los necesitas, omítelos para reducir vínculos con grabaciones externas o filtraciones.
¿Qué metadatos son “seguros” de publicar?
Los que describen sin identificar: idioma, tipo de sesión, duración aproximada, rango de fechas, tema general, y variables agrupadas. Evita combinaciones raras que apunten a una persona.
¿Cómo decido si algo sigue siendo identificable?
Haz la prueba del “mosaico”: ¿alguien que conozca el contexto podría adivinar quién es por la combinación de detalles? Si la respuesta es sí, generaliza más o elimina el fragmento.
Errores comunes y cómo evitarlos
- Anonimizar “a ojo”: crea reglas y ejemplos antes de empezar, y aplícalos siempre.
- Olvidar metadatos peligrosos: muchas reidentificaciones vienen del CSV, no del texto.
- Subir la carpeta equivocada: separa “public” y “restricted” desde el minuto uno.
- No explicar cambios: sin README y codebook, la gente no entiende tus etiquetas ni limitaciones.
- Conservar mapeos en el repositorio: el fichero que conecta IDs con nombres nunca debe publicarse.
Cuándo usar transcripción automática y cuándo revisión humana
Si tienes muchas horas de audio, una transcripción automática puede ayudarte a arrancar y a bajar costes, pero suele necesitar revisión, sobre todo con acentos, solapamientos o vocabulario técnico. Puedes explorar la opción de automated transcription si tu objetivo es acelerar el primer borrador.
Para publicar en repositorios, prioriza la precisión y la consistencia de etiquetas, porque cualquier error puede colar datos personales. En proyectos sensibles, planifica una pasada final de control antes de difundir.
Si quieres preparar transcripciones para compartir con tranquilidad, GoTranscript puede ayudarte a convertir audio en texto, revisarlo y dejarlo listo para tus flujos de anonimización y documentación. Puedes ver las opciones de professional transcription services y elegir el nivel de soporte que encaje con tu repositorio.