Blog

Guías prácticas

Cómo montar un repositorio para un diary study: etiquetas, metadatos, permisos y reutilización

Matthew Patel

Publicado en Zoom mar. 14 · 14 mar., 2026

Cómo montar un repositorio para un diary study: etiquetas, metadatos, permisos y reutilización

Para montar un repositorio de un diary study que puedas reutilizar, necesitas tres cosas desde el día 1: metadatos consistentes, una taxonomía de etiquetas y permisos por niveles para entradas sensibles. Si lo haces bien, podrás publicar evidencia en informes sin perder el rastro de la fuente, y recuperar clips y transcripciones en minutos.

En esta guía verás qué guardar, cómo nombrarlo, qué campos usar, cómo etiquetar y un SOP (procedimiento) para publicar y recuperar evidencia sin riesgos.

Keyword principal: repositorio de diary study.

Key takeaways

Define una estructura de repositorio y un sistema de IDs antes de subir el primer archivo.
Usa metadatos obligatorios (quién, cuándo, qué tarea, consentimientos, sensibilidad) y otros opcionales (calidad, idioma, dispositivo).
Etiqueta con una taxonomía pequeña y estable: temas, tareas, producto, emoción, fricción y evidencia.
Aplica permisos por niveles y separa “lo sensible” en contenedores y vistas distintas.
Publica evidencia con un flujo: revisar, anonimizar, recortar, registrar, aprobar y versionar.

1) Qué debe contener un repositorio de diary study (y qué no)

Un repositorio de diary study no es solo una carpeta con audios. Es un sistema para que cualquier persona del equipo encuentre evidencia (texto o clip) y entienda el contexto en el que se generó.

Tu repositorio debería almacenar, como mínimo, estos tipos de activos:

Transcripciones (texto limpio y versionado).
Clips de audio/vídeo (fragmentos cortos enlazados a la transcripción).
Entradas originales (diario, notas, formularios, fotos si aplica).
Consentimientos y restricciones de uso (documentos o registros).
Ficha del participante (pseudonimizada) y contexto de sesión.
Registro de cambios (quién editó, cuándo, por qué).

Evita guardar en el repositorio “de evidencia” cosas que solo añaden ruido, como borradores duplicados sin control de versiones o exportaciones sin relación con el estudio.

2) Estructura recomendada: carpetas, IDs y convenciones de nombres

Primero elige dónde vivirá el repositorio: una herramienta de research (tipo “hub”), un gestor documental o un almacenamiento con control de acceso. Da igual la herramienta si cumples: permisos, versionado, búsqueda y auditoría.

Luego define una estructura que no dependa de “quién lo sube”:

/01_Raw: archivos originales (solo lectura tras ingesta).
/02_Working: transcripción en proceso, notas internas.
/03_Published: evidencia aprobada (clips + citas listas).
/04_Consent_and_Restrictions: consentimientos y reglas.
/05_Index: tabla maestra (CSV/Sheet/DB) con metadatos.

Asigna IDs estables y legibles, y úsalos en todos los archivos. Ejemplo de patrón: DS24-P03-D05-E02 (estudio 2024, participante 03, día 05, entrada 02).

Nombres de archivo recomendados (sin espacios, con fecha ISO):

DS24-P03-D05-E02_transcript_es_v1.docx
DS24-P03-D05-E02_clip_00m45-01m10.mp4
DS24-P03_profile_pseudo.json

Si cambias el nombre más tarde, romperás enlaces y citas. Trata los nombres como identificadores, no como “títulos”.

3) Metadatos: campos obligatorios para transcripciones y clips

Los metadatos convierten archivos en evidencia reutilizable. Sin metadatos, dependes de memoria y de búsquedas por texto, que fallan cuando hay sinónimos, idiomas o fragmentos cortos.

3.1 Campos obligatorios (mínimo viable)

Define estos campos como obligatorios en tu tabla maestra o base de datos, y no publiques nada sin ellos:

Asset_ID: el ID único (ej. DS24-P03-D05-E02).
Study_ID: estudio al que pertenece.
Participant_ID: pseudónimo (nunca nombre real).
Date: fecha de creación (ISO 8601: 2026-03-14).
Entry_Type: diario / entrevista / encuesta / captura / otro.
Language: idioma principal.
Source_File: enlace a raw (ubicación exacta).
Transcript_Link: enlace a transcripción (si aplica).
Clip_Link: enlace a clip (si aplica).
Consent_Status: permitido / restringido / no permitido.
Use_Restrictions: texto corto (ej. “solo uso interno”).
Sensitivity_Tier: nivel de sensibilidad (ver sección 5).
Redaction_Status: sin revisar / anonimizado / requiere revisión.
Owner: responsable (persona o equipo).

3.2 Campos recomendados (para mejorar búsqueda y calidad)

Estos campos no siempre son críticos, pero mejoran mucho la reutilización:

Session/Day: día del diary study o número de sesión.
Task/Scenario: tarea o contexto (“alta”, “devolución”, etc.).
Product_Area: área del producto (onboarding, pagos, soporte).
Channel: app, web, teléfono, presencial.
Device/OS: móvil iOS/Android, desktop, etc.
Timecodes: si hay audio/vídeo, rangos relevantes.
Transcript_Quality: borrador / revisado / final.
Keywords_FreeText: 3–8 palabras libres, con control.
Related_Assets: IDs relacionados (mismo tema, mismo bug).

Consejo: separa “campo estructurado” (valores controlados) de “texto libre”. Así mejoras consistencia sin perder matices.

4) Taxonomía de etiquetas: cómo etiquetar sin que se vuelva inmanejable

Una buena taxonomía te permite filtrar rápido sin crear 200 etiquetas parecidas. Mantén pocas categorías, con valores controlados, y revisa cada mes si crecen sin sentido.

4.1 Modelo de etiquetas (6 grupos útiles)

Usa grupos de etiquetas (prefijos) para que se entiendan a simple vista:

tema: privacidad, confianza, precio, accesibilidad, entrega.
tarea: registro, búsqueda, compra, devolución, soporte.
zona: onboarding, checkout, perfil, notificaciones.
emoción: frustración, alivio, confusión, entusiasmo.
fricción: error, latencia, copy_ambiguo, permisos, pago_falla.
evidencia: quote_fuerte, clip_bueno, caso_extremo, patrón.

Si tu herramienta no soporta prefijos, simúlalo con formato “tema_privacidad” o columnas separadas en la tabla maestra.

4.2 Reglas simples para mantener la coherencia

Máximo 8–12 etiquetas por activo, y 3 obligatorias (tema, tarea, zona).
No crees sinónimos: elige “devolución” o “retorno”, no ambas.
Evita etiquetas de proyecto (“Q2”, “iniciativa_X”) salvo que sean estables.
Define un “diccionario” con significado y ejemplos por etiqueta.

Cuando alguien pida una etiqueta nueva, exige una definición y un ejemplo real. Si no puede explicarla, no la crees.

5) Permisos y sensibilidad: niveles, contenedores y prácticas seguras

En un diary study aparecen datos personales y contenido delicado. Necesitas permisos por niveles para evitar exposición accidental y para cumplir restricciones de consentimiento.

5.1 Tiers de permisos (modelo práctico de 4 niveles)

Define un campo Sensitivity_Tier y aplícalo también a carpetas o colecciones:

T0 – Público interno: ya anonimizado, apto para compartir en la empresa.
T1 – Equipo ampliado: research/product, sin datos directos, pero con contexto.
T2 – Restringido: contiene datos indirectos o historias sensibles; acceso por rol.
T3 – Máxima sensibilidad: datos directos, salud, situaciones de riesgo o lo que el consentimiento limite; acceso mínimo y registro.

En la práctica, publica la mayoría de evidencia reutilizable en T0–T1, y conserva el raw en T2–T3 con acceso limitado.

5.2 Qué marcar como “sensible” (checklist)

Nombre, dirección, email, teléfono, voz reconocible, imagen identificable.
Datos de pago, pedidos, cuentas, números de referencia.
Salud física o mental, menores, situaciones legales o laborales.
Detalles que identifiquen indirectamente (empresa pequeña, cargo único, localidad).
Contenido que el participante pidió no reutilizar o limitar.

Si dudas, sube el tier y exige anonimización antes de publicar un clip o cita.

5.3 Marco de privacidad: minimización y finalidad

Como regla general, guarda solo lo necesario para el objetivo del estudio y para la trazabilidad. Para un marco de referencia sobre principios de tratamiento, puedes consultar el resumen del RGPD (GDPR) y sus principios.

Si trabajas en accesibilidad y publicas contenido audiovisual, recuerda que los subtítulos y transcripciones mejoran el acceso, y puedes apoyarte en la guía del W3C sobre WCAG para prácticas generales.

6) SOP: publicar y recuperar evidencia (transcripciones y clips) sin perder trazabilidad

Este SOP te da un flujo claro para que el repositorio no se llene de material “a medias”. Ajusta pasos según tu herramienta, pero no elimines el control de permisos y el registro.

6.1 SOP de publicación (de raw a published)

1) Ingesta: sube el archivo original a /01_Raw con su Asset_ID y bloquea edición.
2) Registro inicial: crea la fila en /05_Index con campos obligatorios y links.
3) Transcripción: genera transcripción en /02_Working y marca “borrador”.
4) Revisión: corrige nombres de producto, jerga y timecodes si aplica.
5) Anonimización: elimina o sustituye PII; documenta qué cambiaste.
6) Selección de evidencia: marca citas y rangos de clip con timecodes.
7) Recorte de clips: crea clips cortos (20–90 s) con contexto suficiente.
8) Etiquetado: aplica etiquetas por grupos (tema, tarea, zona, etc.).
9) Clasificación por tier: asigna Sensitivity_Tier y permisos de acceso.
10) Aprobación: revisión final por responsable de research (y legal si aplica).
11) Publicación: mueve a /03_Published y bloquea edición; crea versión.
12) Registro de publicación: añade “Published_Date”, “Published_By” y “v#”.

Define un criterio de “listo para publicar”: metadatos completos, anonimización hecha, etiquetas mínimas y permisos aplicados.

6.2 SOP de recuperación (cómo encontrar y reutilizar evidencia)

Cuando alguien necesite evidencia para un informe, una presentación o un ticket, usa siempre este orden:

1) Define la pregunta: qué decisión apoyas y qué necesitas demostrar.
2) Filtra por campos: Study_ID, Product_Area, Task/Scenario, fecha.
3) Filtra por etiquetas: tema + fricción + evidencia (ej. quote_fuerte).
4) Revisa permisos: confirma que tu acceso permite ver el tier requerido.
5) Verifica contexto: lee 5–10 líneas antes y después de la cita.
6) Extrae y cita: copia cita con Asset_ID, day/session y timecode.
7) Registra reutilización: añade un campo “Used_In” con link al entregable.

Si no encuentras evidencia en 10 minutos, tu problema suele ser: etiquetas demasiado libres, campos incompletos o nombres sin ID.

6.3 Plantilla de cita (para no perder la fuente)

Incluye siempre una referencia corta y consistente en cada slide o documento:

Formato: “DS24-P03-D05-E02, día 5, 00:45–01:10 (T1, anonimizado)”
Enlace: link al asset publicado (clip o transcripción).

Así cualquier persona puede volver al origen, comprobar contexto y respetar restricciones.

7) Errores comunes y criterios para decidir tu setup

Los repositorios fallan por falta de acuerdos, no por la herramienta. Evita estos errores desde el inicio:

Etiquetas infinitas: empiezas con 20 y terminas con 300 sin gobernanza.
Metadatos “para luego”: si no son obligatorios al publicar, nunca se completan.
Raw mezclado con published: la gente comparte sin querer material sensible.
Sin control de versiones: nadie sabe qué cita es la última o la correcta.
Sin registro de reutilización: repites trabajo y pierdes trazabilidad.

Si tienes que elegir prioridades, decide así:

Si tu riesgo principal es privacidad: prioriza tiers y anonimización antes que etiquetas.
Si tu dolor principal es “no encuentro nada”: prioriza metadatos obligatorios y diccionario de etiquetas.
Si tu objetivo es escalar research: prioriza SOP y aprobación para publicar evidencia reutilizable.

Common questions

¿Cuántos metadatos son demasiados?

Si nadie los rellena, son demasiados. Empieza con 12–15 campos obligatorios y añade opcionales cuando veas necesidades repetidas.

¿Puedo usar etiquetas libres en vez de una taxonomía?

Puedes, pero perderás consistencia y búsqueda. Si permites texto libre, combínalo con 3–5 campos controlados (tema, tarea, zona, sensibilidad).

¿Qué hago con los audios/vídeos originales?

Guárdalos en /01_Raw con permisos altos (T2–T3) y trata esa carpeta como “solo lectura” después de la ingesta.

¿Cómo comparto un clip sin exponer datos personales?

Publica solo clips ya revisados y anonimiza nombres y detalles identificables. Si la voz o la imagen identifican, valora no compartir el clip y usar cita anonimizada.

¿Cómo conecto una cita con el clip exacto?

Guarda timecodes y usa un Asset_ID estable. En la tabla maestra, añade el rango (ej. 00:45–01:10) y un enlace directo al clip.

¿Quién debe aprobar lo que se publica?

Al menos una persona responsable de research y, si hay contenido sensible o restricciones, alguien de privacidad/legal según vuestro proceso interno.

¿Cuándo debo borrar material?

Depende de tu política y consentimiento. Define periodos de retención por tier y documenta el borrado para no “perder” evidencia sin querer.

Si necesitas convertir audio o vídeo en transcripciones claras y reutilizables, o preparar material para compartir con control y consistencia, GoTranscript puede ayudarte con soluciones que encajan en tu flujo de repositorio, desde la transcripción hasta la revisión. Puedes ver las opciones en professional transcription services.

Si además vas a trabajar con clips de vídeo, te puede interesar el servicio de closed captioning para facilitar la revisión y el acceso, y la revisión de transcripciones si ya tienes un primer borrador.

Haz tu pedido ahora