Blog

Transcripción

How to Pilot a Transcription Vendor: Test Script + Acceptance Criteria

Michael Gallagher

Publicado en Zoom jun. 12 · 14 jun., 2026

How to Pilot a Transcription Vendor: Test Script + Acceptance Criteria

Para probar un proveedor de transcripción, no basta con enviar un audio y revisar si “parece bien”. Necesitas un piloto con audios reales, criterios de aceptación claros y una forma simple de comparar resultados entre varios proveedores. Así podrás decidir con menos riesgo si un servicio cumple en precisión, identificación de hablantes, formato, tiempos y tratamiento de datos.

En esta guía verás cómo montar ese piloto paso a paso, qué medir, qué errores no deberías aceptar y cómo tomar una decisión de go/no-go con una hoja de puntuación práctica.

Key takeaways

Elige grabaciones de prueba que reflejen tus casos reales, no solo audios fáciles.
Define antes del piloto qué errores son críticos, sobre todo en nombres, números y diarización.
Compara a todos los proveedores con el mismo lote, las mismas instrucciones y la misma plantilla de revisión.
Separa los requisitos “imprescindibles” de los “deseables” para tomar una decisión clara.
Documenta el resultado con una hoja de puntuación y una recomendación final de go/no-go.

Qué es un piloto de proveedor de transcripción y por qué conviene hacerlo

Un piloto es una prueba controlada antes de firmar un acuerdo más amplio o mover todo tu volumen a un proveedor. Sirve para validar si el servicio encaja con tu tipo de audio, tu nivel de calidad esperado y tus procesos internos.

Muchas evaluaciones fallan porque se centran solo en la precisión general. En la práctica, también importan la diarización, el tratamiento de nombres y cifras, el formato de entrega, el cumplimiento de instrucciones y la consistencia entre archivos.

Un buen piloto te ayuda a responder preguntas como estas:

¿El proveedor maneja bien voces superpuestas o acentos?
¿Marca correctamente quién habla y cuándo cambia el interlocutor?
¿Es fiable con nombres propios, importes, fechas, códigos y números?
¿Entrega en el formato que tu equipo necesita?
¿El resultado requiere mucha revisión interna?
¿Cumple el plazo prometido de forma consistente?

Si estás comparando transcripción humana y automatizada, conviene separarlas en la evaluación. No esperes el mismo tipo de rendimiento ni el mismo flujo de control de calidad de una solución de transcripción automática que de un servicio revisado por personas.

Cómo diseñar el piloto: audios, alcance y reglas del test

El piloto debe parecerse a tu operación real. Si eliges solo archivos limpios y cortos, la prueba te dará una imagen demasiado optimista.

1. Elige un lote de grabaciones representativo

Prepara entre 5 y 10 grabaciones que cubran distintos niveles de dificultad. Busca variedad, pero mantén un volumen que tu equipo pueda revisar sin bloquearse.

1–2 audios claros, con un solo hablante.
2–3 audios con dos o más hablantes.
1–2 audios con ruido de fondo moderado.
1–2 audios con acentos, tecnicismos o nombres propios frecuentes.
1 audio con cifras sensibles: importes, teléfonos, fechas, referencias o códigos.

Si tu caso real incluye entrevistas, reuniones, llamadas de soporte o contenido médico o legal, el piloto debe reflejarlo. No mezcles casos irrelevantes solo para “probar más cosas”.

2. Usa el mismo paquete para todos los proveedores

Todos deben recibir exactamente los mismos archivos, instrucciones y formato de salida esperado. Si cambias una variable, la comparación deja de ser justa.

Mismo lote de audio.
Mismas instrucciones de estilo.
Mismo glosario de nombres y términos, si lo usas.
Misma fecha y hora límite.
Mismo formato de entrega: DOCX, TXT, SRT o plantilla propia.

3. Define el alcance antes de enviar nada

Antes del piloto, deja por escrito qué vas a evaluar y cómo vas a decidir. Esto evita debates después, cuando ya tengas resultados mezclados.

Precisión del texto.
Errores críticos en nombres y números.
Diarización o identificación de hablantes.
Cumplimiento del formato solicitado.
Plazo de entrega.
Facilidad de uso y comunicación.

Criterios de aceptación: qué medir y qué umbrales fijar

Los criterios de aceptación son el centro del piloto. Sin ellos, todo acaba en opiniones.

Lo más útil es combinar requisitos eliminatorios con una puntuación general. Así puedes descartar fallos graves aunque la media total sea aceptable.

Requisitos eliminatorios

No admitir errores en nombres propios incluidos en el glosario, salvo casos justificados por audio ininteligible.
No admitir errores en números críticos: importes, fechas, teléfonos, referencias, dosis o identificadores.
No admitir diarización confusa en fragmentos clave si tu flujo depende de saber quién habló.
No admitir incumplimiento del formato de entrega cuando ese formato sea necesario para tu proceso.

Umbrales recomendados para el piloto

Estos umbrales no son universales, pero te sirven como punto de partida. Ajústalos según el riesgo de tu caso y el tipo de servicio que compres.

Nombres propios: 0 errores en nombres incluidos en un glosario de referencia; máximo 1 error menor por archivo en nombres no listados.
Números críticos: 0 errores.
Diarización: al menos 90% de cambios de hablante correctamente marcados en archivos multihablante.
Formato: 100% de cumplimiento en etiquetas, marcas de tiempo y estructura exigida.
Plazo: entrega dentro del tiempo acordado en todos los archivos del piloto.
Legibilidad final: el texto debe requerir solo correcciones menores, no reescritura amplia.

Si trabajas con contenido accesible o audiovisual, quizá también necesites revisar reglas de subtitulado o sincronía. En esos casos, puede venirte bien comparar el piloto con los requisitos internos que ya usas para servicios de subtitulado y captioning.

Qué contar como error

Define esto antes de revisar. Si no, cada persona del equipo contará errores de forma distinta.

Error crítico: cambia el sentido o afecta a un dato clave.
Error mayor: dificulta el uso del texto o rompe una instrucción importante.
Error menor: no cambia el sentido, pero reduce calidad o consistencia.

Crítico: “15.000” transcrito como “50.000”.
Mayor: se asigna una frase al hablante equivocado en una reunión.
Menor: puntuación mejorable o una muletilla omitida cuando no era obligatoria.

Test script y checklist para ejecutar el piloto

Usa un proceso simple y repetible. Cuanto más claro sea, más fácil será defender la decisión final.

Script de ejecución del piloto

Selecciona el lote de prueba y anonimiza datos si hace falta.
Prepara una guía de estilo de una página.
Crea un glosario con nombres, marcas, siglas y términos frecuentes.
Define fecha de envío, plazo de entrega y formato final.
Envía el mismo paquete a cada proveedor al mismo tiempo.
Recoge los archivos entregados sin editarlos.
Asigna la revisión a una o dos personas con la misma rúbrica.
Puntúa cada archivo y documenta errores por categoría.
Compara resultados en una hoja única.
Toma la decisión con criterios predefinidos.

Checklist antes de enviar

¿Los audios representan tus casos reales?
¿Incluyen casos fáciles y difíciles?
¿Todos los proveedores reciben el mismo material?
¿La guía de estilo es clara y breve?
¿Has marcado qué números y nombres son críticos?
¿La plantilla de revisión está lista antes de que lleguen los resultados?
¿Has decidido quién revisa y cómo resolver discrepancias?

Checklist de revisión

Comprobar nombres propios contra el glosario.
Comprobar todos los números críticos.
Revisar cambios de hablante en varios puntos del archivo.
Verificar marcas de tiempo, si aplican.
Confirmar que el formato de salida coincide con lo pedido.
Anotar si el texto se puede usar casi tal cual o requiere edición notable.
Registrar incidencias de comunicación o entrega.

Hoja de puntuación para comparar proveedores

La mejor hoja de puntuación es la que tu equipo puede usar de forma consistente. No hace falta que sea compleja.

Modelo simple de scoring sheet

Proveedor: ________
Archivo: ________
Fecha de entrega: ________
Dentro de plazo: Sí / No
Formato correcto: Sí / No
Errores de nombres: 0 / 1 / 2 / más
Errores de números críticos: 0 / 1 / 2 / más
Diarización: Correcta / Aceptable / Deficiente
Legibilidad final: Alta / Media / Baja
Errores críticos: número total
Errores mayores: número total
Errores menores: número total
Comentario del revisor: ________

Ponderación sugerida

Si quieres un resultado numérico, puedes usar una escala de 100 puntos.

Precisión general del texto: 30 puntos.
Nombres y terminología: 20 puntos.
Números críticos: 20 puntos.
Diarización: 15 puntos.
Formato y cumplimiento de instrucciones: 10 puntos.
Plazo y experiencia operativa: 5 puntos.

Para aprobar, puedes exigir dos cosas a la vez:

80 puntos o más en la puntuación total.
0 fallos eliminatorios.

Si esperas revisar borradores automáticos antes de publicar o archivar, incluye también el esfuerzo de corrección en tu comparación. A veces el coste real no está solo en el precio por minuto, sino en las horas internas de limpieza. Si te interesa esa parte, conviene revisar también opciones de revisión y proofreading de transcripciones.

Cómo tomar la decisión final: go, no-go o segundo piloto

La decisión no debería basarse solo en “qué proveedor gusta más”. Debe salir de los resultados y del riesgo que tu equipo puede aceptar.

Cuándo dar go

Cumple todos los requisitos eliminatorios.
Supera la puntuación mínima acordada.
Mantiene resultados consistentes en varios tipos de audio.
No genera una carga alta de revisión interna.
Entrega en plazo y sigue instrucciones sin fricción.

Cuándo dar no-go

Falla en números críticos o nombres clave.
La diarización resulta poco fiable para tu uso.
El formato de entrega no encaja con tu flujo.
La calidad cambia mucho entre archivos.
Tu equipo necesita rehacer demasiadas partes.

Cuándo pedir un segundo piloto

Los resultados son mixtos y el fallo se concentra en un tipo de audio concreto.
El proveedor pide glosario, más contexto o instrucciones más precisas.
Quieres probar un flujo distinto, como humano frente a automático o con revisión añadida.
Necesitas validar un formato específico que no se probó bien en la primera ronda.

Si haces un segundo piloto, cambia solo una o dos variables. Si cambias todo a la vez, no sabrás qué mejoró realmente.

Errores comunes al pilotar un proveedor de transcripción

Elegir solo audios fáciles.
No definir qué cuenta como error crítico.
Comparar proveedores con instrucciones distintas.
Medir solo precisión general y olvidar nombres, cifras y hablantes.
No calcular el tiempo de revisión que necesita tu equipo.
Tomar una decisión por precio sin mirar el coste operativo total.
No documentar por qué se aprobó o descartó a un proveedor.

También conviene revisar si tu organización necesita requisitos de privacidad, conservación o accesibilidad. Si vas a manejar datos personales, consulta tus políticas internas y el marco aplicable, como el Reglamento General de Protección de Datos.

Common questions

¿Cuántos audios necesito para un piloto útil?

Lo normal es usar entre 5 y 10 grabaciones representativas. Deben cubrir los casos más habituales y al menos algunos casos difíciles.

¿Debo usar un glosario en el piloto?

Sí, si en tu trabajo real usas nombres propios, siglas o términos internos. Así evalúas si el proveedor puede seguir instrucciones reales.

¿Cómo reviso la diarización sin perder mucho tiempo?

Elige varios tramos por archivo y comprueba cambios de hablante en puntos clave. No hace falta auditar cada segundo si tu objetivo es una decisión de compra.

¿Qué hago si dos proveedores quedan muy parecidos?

Compara el esfuerzo de edición interna, la consistencia entre archivos y la facilidad operativa. Si sigue habiendo empate, haz un segundo piloto con el tipo de audio más difícil para ti.

¿El precio debe entrar en la decisión del piloto?

Sí, pero no de forma aislada. Mira el coste total, incluido el tiempo que tu equipo dedica a revisar y corregir.

¿Conviene mezclar transcripción automática y humana en la misma prueba?

Puedes compararlas, pero con expectativas claras y criterios separados si el uso final es distinto. La velocidad, el coste y la edición posterior suelen cambiar bastante.

¿Qué pasa si un proveedor falla solo en un archivo?

Depende del tipo de fallo y de la importancia de ese archivo. Si el error es crítico o revela una debilidad en un caso común para ti, puede ser motivo suficiente para un no-go.

Si necesitas convertir este proceso en un flujo estable, GoTranscript ofrece soluciones adecuadas, desde pruebas iniciales hasta professional transcription services para distintos tipos de audio y necesidades de revisión.

Haz tu pedido ahora