Una scorecard de evaluación de proveedores de transcripción te permite comparar opciones con criterios claros: precisión (sobre todo en nombres y números), atribución de hablantes, tiempos de entrega (SLA), controles de seguridad y respuesta del soporte. Si además haces un piloto con umbrales de aceptación, reduces el riesgo antes de firmar un contrato. Abajo tienes una plantilla lista para usar, un método de prueba y cómo interpretar resultados.
Palabra clave principal: scorecard de evaluación de proveedores de transcripción.
Key takeaways
- Evalúa con una scorecard única y pesos definidos para evitar decisiones “por sensaciones”.
- Separa la precisión general de lo que más duele: nombres, números y atribución de hablantes.
- Pide pruebas de seguridad (controles y procesos), no solo promesas.
- Valida SLA y soporte con un piloto medible y umbrales de aceptación.
- Documenta un “no negociable” y un plan de mejora antes de escalar el volumen.
Qué debes evaluar (y por qué) en un proveedor de transcripción
Un proveedor no solo te entrega texto, también impacta a tu equipo en revisiones, cumplimiento y tiempos. Si el proceso falla, lo pagas en horas de corrección, retrasos de publicación o riesgos con datos.
Para decidir bien, usa criterios que midan el resultado final y el proceso que lo sostiene. Estas cinco áreas cubren lo esencial y te ayudan a comparar proveedores muy distintos.
1) Precisión (con foco en nombres y números)
La precisión “media” no te dice si el proveedor acierta en lo crítico. En muchos proyectos, un fallo en un nombre propio o una cifra vale más que cinco errores menores de puntuación.
Divide la precisión en subcriterios: nombres propios, números/fechas, términos técnicos y coherencia. Así verás rápidamente quién reduce el trabajo de revisión.
2) Atribución de hablantes
En entrevistas, reuniones o podcasts, confundir quién dijo qué genera problemas de calidad y de confianza. Además, complica búsquedas, resúmenes y tareas de seguimiento.
Evalúa si el proveedor identifica hablantes de forma consistente, si marca cambios de turno y si gestiona solapes. Si necesitas etiquetas como “Entrevistador/Invitado”, inclúyelo como requisito.
3) SLA de entrega y consistencia
No basta con un “24–48 horas” genérico. Un SLA útil define plazos por duración, volumen, urgencia y franja horaria, y también qué pasa si el proveedor incumple.
Mide la consistencia: un proveedor puede cumplir una vez y fallar cuando le subes el volumen. Tu scorecard debe capturar puntualidad y variabilidad.
4) Seguridad y privacidad
En transcripción puedes manejar datos personales o información sensible de negocio. Pide claridad sobre cifrado, controles de acceso, retención de datos, subprocesadores y opciones de borrado.
Si trabajas con datos personales en la UE, alinea requisitos con el RGPD, y valida que el proveedor pueda firmar acuerdos y apoyar tus obligaciones (por ejemplo, derechos de acceso o supresión).
5) Soporte y gestión de incidencias
La calidad real se ve cuando hay un audio difícil, un cambio de formato o un error que corregir rápido. Evalúa tiempos de respuesta, canales (email, chat, teléfono) y escalado.
Incluye criterios de “facilidad de trabajar”: claridad de la comunicación, capacidad de entender guías de estilo y rapidez para ajustar un flujo de trabajo.
Plantilla de scorecard: criterios, pesos y escala de puntuación
Esta plantilla funciona para comparar 3–6 proveedores de forma objetiva. Puedes ajustar pesos según tu caso, pero evita cambiar la escala en mitad de la evaluación.
Escala recomendada (1–5)
- 1 = Insuficiente: fallos frecuentes o falta de evidencias.
- 2 = Débil: cumple a veces, requiere mucho seguimiento.
- 3 = Aceptable: cumple lo básico con algún riesgo.
- 4 = Bueno: cumple de forma sólida y repetible.
- 5 = Excelente: supera requisitos y aporta mejoras.
Ponderación sugerida (ajústala a tu realidad)
- Precisión total: 40%
- Atribución de hablantes: 15%
- SLA y consistencia: 20%
- Seguridad y privacidad: 15%
- Soporte y operación: 10%
Scorecard (copia y pega)
Consejo: usa una hoja de cálculo con columnas “Proveedor A/B/C”, “Evidencia” y “Notas”. Puntúa solo si tienes una prueba (resultado del piloto, documento de seguridad, respuesta del soporte).
- A) Precisión (40%)
- A1. Exactitud en nombres propios (personas, empresas, lugares) (peso dentro de A: 15%).
- A2. Exactitud en números (cantidades, fechas, porcentajes, códigos) (15%).
- A3. Terminología del dominio (legal, médico, producto, jerga interna) (5%).
- A4. Puntuación/legibilidad y coherencia (5%).
- B) Atribución de hablantes (15%)
- B1. Identificación de hablantes (consistencia y cambios de turno) (8%).
- B2. Gestión de solapes y audio con interrupciones (4%).
- B3. Formato de etiquetas (p. ej., “Hablante 1/2” o nombres) (3%).
- C) SLA y consistencia (20%)
- C1. Plazo estándar por duración/volumen (8%).
- C2. Opciones urgentes y capacidad de escalar (6%).
- C3. Cumplimiento medido en el piloto (puntualidad) (6%).
- D) Seguridad y privacidad (15%)
- D1. Cifrado en tránsito y en reposo (4%).
- D2. Controles de acceso (MFA/roles), registro de actividad, segregación (4%).
- D3. Retención, borrado, exportación y ubicación de datos (4%).
- D4. Gestión de subprocesadores y acuerdos (p. ej., DPA) (3%).
- E) Soporte y operación (10%)
- E1. Tiempo de primera respuesta (3%).
- E2. Calidad de la resolución (no solo “cerrar ticket”) (4%).
- E3. Flexibilidad (guía de estilo, formatos, integraciones) (3%).
Regla práctica: define “no negociables” además de la nota final, por ejemplo: cifrado, borrado bajo solicitud y un umbral mínimo de precisión en números.
Método de piloto: cómo probar a los proveedores de forma justa
Un piloto bien diseñado evita comparar “manzanas con peras”. Debe usar audios reales, criterios estables y una forma repetible de contar errores.
Paso 1: prepara un paquete de pruebas (60–120 minutos de audio)
- 3–5 piezas en total, de 10–30 minutos cada una.
- Incluye al menos una con varios hablantes y otra con nombres y cifras.
- Varía la dificultad: audio bueno, audio medio y uno “difícil” (ruido, acentos, solapes).
Si manejas datos sensibles, anonimiza cuando puedas o usa un conjunto de prueba aprobado internamente. Mantén el mismo material para todos los proveedores.
Paso 2: define una guía de estilo mínima (1 página)
- Formato de hablantes (p. ej., “H1:” “H2:”).
- Qué hacer con palabras dudosas (marcas tipo [inaudible] o timestamps).
- Números: si quieres “20%” o “veinte por ciento”.
- Ortografía (España) y reglas de mayúsculas en nombres.
Esto evita castigar a un proveedor por elegir un formato distinto al que tú necesitas. Si necesitas subtítulos o closed captions, el piloto debe reflejarlo.
Paso 3: crea un “golden transcript” o una rúbrica de revisión
Lo ideal es tener una transcripción de referencia revisada por un experto interno. Si no puedes, usa dos revisores y resuelve discrepancias antes de puntuar.
Tu revisión debe separar: errores de contenido (nombres/números), errores de atribución y errores menores (puntuación). Así podrás aplicar umbrales útiles.
Paso 4: mide con una tabla de errores simple
- Error crítico: nombre propio incorrecto, número/fecha mal, frase que cambia el sentido, hablante equivocado en una afirmación clave.
- Error mayor: omisiones relevantes, términos técnicos mal, varios “inaudible” evitables.
- Error menor: comas, muletillas, estilo que no afecta al sentido.
Además, registra el tiempo de revisión interna necesario (en minutos). A veces dos proveedores “empatan” en calidad, pero uno te ahorra una hora por archivo.
Paso 5: prueba el soporte en condiciones reales
- Envía 2–3 preguntas estándar (seguridad, formatos, urgencias) el mismo día a todos.
- Mide tiempo de primera respuesta y si contestan con detalle.
- Abre una incidencia simulada: “hay 6 nombres propios mal, ¿cómo lo arregláis?”
No evalúes solo la simpatía, evalúa el proceso: si piden ejemplos, si proponen una corrección y si actualizan la guía de estilo.
Umbrales de aceptación (thresholds) para decidir sin dudas
Los umbrales convierten tu scorecard en una decisión. Ajusta números a tu riesgo, pero define criterios antes del piloto para evitar sesgos.
Umbrales sugeridos (puedes adaptarlos)
- Nombres propios: ≥ 98% correctos en el set del piloto, o ≤ 1 error crítico por cada 30 minutos.
- Números/fechas: ≥ 99% correctos, o 0 errores críticos en cifras en los audios con números.
- Atribución de hablantes: ≥ 95% de turnos correctamente asignados en audios multi-hablante.
- SLA: ≥ 95% de entregas del piloto dentro del plazo acordado.
- Soporte: primera respuesta ≤ 1 día laborable y plan de corrección claro ante errores.
- Seguridad: evidencia documental de cifrado, controles de acceso y política de retención/borrado.
Si un proveedor falla un “no negociable” (por ejemplo, no puede explicar retención o borrado), puedes descartarlo aunque tenga buena precisión. Si falla por poco, pide un segundo piloto acotado con mejoras.
Errores comunes al evaluar proveedores (y cómo evitarlos)
Muchos equipos eligen al proveedor “más barato” o “más rápido” sin medir el coste de corrección. Otros comparan resultados sin un estándar común, y el piloto deja de ser útil.
- No separar tipos de errores: solución: clasifica en crítico/mayor/menor y pon foco en nombres y números.
- Usar audios “demasiado fáciles”: solución: incluye un audio difícil que represente tu realidad.
- No medir la atribución: solución: fuerza un archivo con 3+ hablantes y solapes.
- Ignorar seguridad por falta de tiempo: solución: usa un checklist y pide evidencias (políticas, DPA, controles).
- No validar soporte: solución: cronometra respuestas y evalúa la calidad de la resolución.
- Cambiar criterios durante el piloto: solución: congela pesos y umbrales antes de enviar los audios.
Si necesitas accesibilidad (subtítulos, captions), añade una prueba específica de formato y sincronía. Para requisitos de accesibilidad web, puedes apoyarte en la referencia de WCAG del W3C al definir expectativas.
Cómo decidir: matriz final y próximos pasos
Cuando termines el piloto, calcula la nota ponderada y revisa los “no negociables”. Luego, decide con una matriz simple: calidad vs. riesgo operativo.
Matriz rápida de decisión
- Elegir: supera umbrales, buena nota ponderada, seguridad documentada, soporte consistente.
- Elegir con condiciones: falla poco en un área mejorable (p. ej., estilo), pero propone un plan y lo valida en un mini-piloto.
- Descartar: falla en números/nombres, no cumple SLA repetible, o no aporta evidencias de seguridad.
Qué pedir antes de firmar
- Un SLA por escrito (plazos, alcance, ventanas, escalado).
- Una guía de estilo acordada y un proceso de cambios.
- Documentación de seguridad y acuerdos de tratamiento de datos si aplica.
- Un proceso de retrabajo: cómo se reportan errores y cómo se corrigen.
Si tu flujo combina IA y revisión humana, compara también el coste total: transcripción + revisión + correcciones. En algunos casos, puede interesarte un punto intermedio con revisión posterior, como los servicios de corrección de transcripciones.
Common questions
¿Cuánto audio necesito para un piloto fiable?
Entre 60 y 120 minutos suele bastar si incluyes variedad y al menos un audio difícil. Si tu caso tiene jerga muy específica, añade un archivo corto con esa terminología.
¿Cómo puntúo “precisión” sin un transcript de referencia?
Usa dos revisores, define reglas de decisión y registra discrepancias hasta llegar a una versión consensuada. Sin referencia, la nota pierde consistencia, así que limita el piloto a decisiones grandes (apto/no apto).
¿Qué hago si un proveedor es muy preciso pero lento?
Separa proyectos por tipo: contenido crítico con plazo amplio vs. contenido rápido con revisión posterior. También puedes negociar un SLA por niveles o pedir una prueba de escalado.
¿Qué señales de alarma hay en seguridad?
Respuestas vagas (“cumplimos con todo”), falta de política de retención, incapacidad de explicar quién accede a los datos o ausencia de opciones de borrado. Pide evidencias y ponlo como “no negociable” si tu material es sensible.
¿Merece la pena considerar transcripción automática?
Puede encajar si aceptas más revisión o si el contenido no es crítico. Si la consideras, evalúala con el mismo piloto y la misma rúbrica, y compárala con opciones como la transcripción automática.
¿Cómo mido la atribución de hablantes?
Cuenta turnos de palabra en un fragmento fijo (por ejemplo, 10 minutos) y marca cuántos están bien asignados. Si hay solapes, anota si el proveedor lo marca y si mantiene coherencia.
¿Qué entregables debo exigir?
Define formato (DOCX, TXT, SRT), etiquetas de hablante, timestamps si los necesitas, y reglas de inaudibles. Si vas a reutilizar contenido, añade requisitos de coherencia y normalización de nombres.
Checklist rápido (para usar mañana)
- Define 5 áreas: precisión, hablantes, SLA, seguridad, soporte.
- Elige pesos y “no negociables”.
- Prepara 60–120 minutos de audio variado.
- Escribe una guía de estilo de 1 página.
- Ejecuta piloto con medición de errores y tiempos.
- Aplica umbrales y decide (elegir / condiciones / descartar).
Si quieres simplificar la comparación o combinar opciones, GoTranscript puede ayudarte con transcripción, revisión y formatos según tu flujo. Puedes ver las opciones en sus professional transcription services.
