Blog

Transcripciones

QA Scorecard para transcripciones de llamadas (nombres, números, intención y contexto)

Christopher Nguyen

Publicado en Zoom mar. 2 · 3 mar., 2026

QA Scorecard para transcripciones de llamadas (nombres, números, intención y contexto)

Un QA scorecard para transcripciones de llamadas es una plantilla de revisión que te dice, con una puntuación clara, si un texto refleja bien lo que se dijo en una conversación. Si controlas bien cuatro puntos (nombres, números, intención y contexto), reduces errores que luego rompen informes, tickets, CRM o decisiones. En este artículo tienes un scorecard listo para usar, cómo puntuarlo y cuándo conviene volver a escuchar el audio.

Keyword principal: QA scorecard para transcripciones de llamadas.

Key takeaways

Evalúa siempre cinco áreas: atribución de hablantes, números críticos, intención, completitud y jerga.
Puntúa cada área con criterios observables y define un umbral de “aprobado” según tu uso (legal, soporte, análisis, formación).
Vuelve al audio cuando haya dudas en nombres propios, cifras, negaciones, fechas, o cuando el sentido cambie con una palabra.
Detecta patrones: si fallan siempre los números o los cambios de hablante, el problema suele estar en el audio o en el proceso, no en un caso aislado.

Qué debe medir un QA scorecard en transcripciones de llamadas

Una transcripción “bonita” no siempre sirve, porque lo que importa es si el texto es fiable para el objetivo del equipo. Un scorecard útil mide precisión donde duele: identidad de quién habla, datos críticos, significado y piezas que faltan.

Te propongo cinco dimensiones, porque cubren la mayoría de fallos caros en llamadas (ventas, soporte, investigación, entrevistas y QA interno). Puedes usar las cinco siempre o desactivar una si no aplica.

Las 5 dimensiones recomendadas

Atribución de hablantes: quién dijo qué y cuándo.
Números críticos: cifras, fechas, importes, teléfonos, direcciones, códigos, porcentajes.
Exactitud de intención: lo que la persona quería decir (incluye negaciones y matices).
Completitud y contexto: si falta contenido relevante o si hay huecos que cambian el sentido.
Manejo de jerga y nombres propios: términos del sector, marcas, productos, apellidos, acrónimos.

Antes de puntuar: define el “uso” de esa transcripción

La misma transcripción puede ser suficiente para un resumen interno y mala para auditoría o cumplimiento. Decide el uso con una etiqueta simple (por ejemplo: “CRM”, “QA de agente”, “legal”, “training”, “análisis de intención”).

Uso analítico (tendencias): tolera pequeños fallos si no cambian categorías o temas.
Uso operativo (tickets/CRM): exige nombres, números y acciones correctos.
Uso sensible (legal/compliance): exige precisión alta y trazabilidad (marcas de tiempo, dudas marcadas).

Plantilla de scorecard (con pesos y escala) para QA de transcripciones

Abajo tienes una plantilla práctica con escala 0–4 y pesos sugeridos para llamadas típicas de soporte o ventas. Si tu prioridad son informes financieros o logística, sube el peso de números.

Escala de puntuación 0–4 (igual para todas las dimensiones)

4 = Excelente: sin errores relevantes; no hace falta volver al audio.
3 = Bueno: algún detalle menor; no cambia decisiones ni acciones.
2 = Aceptable con riesgos: hay errores o dudas; requiere revisión parcial o reescucha en puntos concretos.
1 = Deficiente: varios fallos; el texto no es fiable para el uso previsto.
0 = Inservible: atribución o sentido roto; hay que rehacer o retranscribir.

Scorecard (ejemplo con pesos)

1) Atribución de hablantes (25%)
- ¿Identifica bien a las personas (Agente/Cliente o nombres) durante toda la llamada?
- ¿Respeta los cambios de turno y no mezcla frases de dos personas?
- ¿Marca solapes, interrupciones o habla simultánea de forma consistente?
2) Números críticos (25%)
- ¿Están correctos importes, fechas, horas, porcentajes y cantidades?
- ¿Están correctos teléfonos, emails, códigos, matrículas, referencias o direcciones?
- ¿Distingue “quince” de “cincuenta”, “dos” de “doce”, “dieciséis” de “diez y seis” cuando hay ruido?
3) Exactitud de intención (25%)
- ¿Mantiene negaciones y condiciones (“no”, “nunca”, “si”, “a menos que”) sin cambiarlas?
- ¿Respeta quién pide qué y quién acepta qué?
- ¿No “suaviza” ni “endurece” el tono si eso cambia el significado (queja vs duda)?
4) Completitud y contexto (15%)
- ¿Falta contenido relevante (pasos acordados, motivo real, restricciones, excepciones)?
- ¿Hay huecos grandes sin marcar o frases cortadas que cambian el sentido?
- ¿Incluye lo necesario para entender referencias (“eso”, “lo de antes”, “ese número”)?
5) Jerga, nombres propios y formato (10%)
- ¿Escribe bien productos, marcas, modelos, acrónimos y términos técnicos clave?
- ¿Mantiene un formato consistente (puntuación básica, listas, etiquetas de hablante)?
- ¿No “corrige” palabras que son jerga real del sector?

Cómo calcular la nota final

Multiplica cada puntuación (0–4) por su peso y suma el total para obtener un resultado sobre 4. Luego lo puedes convertir a porcentaje (nota/4 × 100) si tu equipo lo prefiere.

Ejemplo: Hablantes 3, Números 4, Intención 3, Contexto 2, Jerga 3.
Cálculo: (3×0,25) + (4×0,25) + (3×0,25) + (2×0,15) + (3×0,10) = 3,05/4 (≈ 76%).

Umbrales recomendados (ajústalos al riesgo)

Aprobado para análisis: ≥ 2,8/4 (≈ 70%), si intención y tema están bien.
Aprobado para CRM/tickets: ≥ 3,2/4 (≈ 80%) y números ≥ 3.
Aprobado para uso sensible: ≥ 3,6/4 (≈ 90%) y sin ningún 2 o menos en hablantes, números o intención.

Guía de puntuación: ejemplos de errores por dimensión

La puntuación mejora cuando el revisor sabe qué cuenta como “error grave” y qué es solo estilo. Usa esta guía para decidir rápido sin debates eternos.

1) Atribución de hablantes (25%)

Error leve (3): una etiqueta de hablante mal en una frase corta sin impacto.
Error medio (2): varios cambios de turno mal, pero se entiende quién propone la acción.
Error grave (0–1): confunde agente y cliente en acuerdos, quejas, autorizaciones o datos personales.

2) Números críticos (25%)

Error leve (3): un número no crítico (p. ej., “dos semanas” vs “una semana”) en un contexto que no se usa para ejecutar nada.
Error medio (2): cifra crítica dudosa marcada como texto seguro, o formato inconsistente de fechas.
Error grave (0–1): importe, fecha, código o teléfono incorrecto, o un “no” ausente que invierte la cifra (“no son 50, son 15”).

3) Exactitud de intención (25%)

Error leve (3): pequeñas muletillas o reformulaciones que no cambian el sentido.
Error medio (2): cambia matiz de compromiso (“podría” vs “haré”), o pierde condiciones (“si llega hoy…”).
Error grave (0–1): invierte una decisión (“acepta” vs “rechaza”), una negación o el motivo principal de la llamada.

4) Completitud y contexto (15%)

Error leve (3): faltan frases sociales (“vale, gracias”) sin impacto.
Error medio (2): faltan pasos acordados, o hay huecos sin marcar alrededor de un dato clave.
Error grave (0–1): falta el tramo donde se acuerda la acción, o el texto tiene cortes que rompen la historia.

5) Jerga, nombres propios y formato (10%)

Error leve (3): una falta ortográfica en un término no crítico.
Error medio (2): jerga mal escrita que crea ambigüedad entre dos productos o procesos.
Error grave (0–1): nombres propios mal y repetidos, o acrónimos clave cambiados (p. ej., confunde dos sistemas distintos).

Cuándo volver a escuchar el audio (reglas claras de re-chequeo)

Una buena QA no reescucha todo, porque eso hace el proceso lento y caro. Reescucha solo cuando el riesgo de error supera el coste de confirmarlo.

Reescucha obligatoria: señales de “alto riesgo”

Nombres y apellidos: cuando se usan para identificar a la persona o crear un ticket.
Cifras y códigos: importes, referencias, números de pedido, IBAN parcial, matrículas, direcciones, emails.
Negaciones y condiciones: “no”, “nunca”, “todavía no”, “a menos que”, “siempre que”.
Acuerdos: cuándo se entrega, qué se devuelve, qué se cancela, qué se autoriza.
Contradicciones: el texto dice una cosa y dos frases después la contraria.

Reescucha recomendada: señales de “riesgo medio”

Frases con [inaudible], [crosstalk] o huecos justo antes de una acción.
Cambios de tema bruscos que pueden ser un salto por pérdida de audio.
Jerga del sector que, si se escribe mal, cambia el proceso (p. ej., nombres de planes o tarifas).

Regla práctica: reescucha por ventanas de 10–20 segundos

Si detectas un posible error, vuelve al audio solo en la ventana donde ocurre (unos segundos antes y después). Si tras dos intentos no lo puedes confirmar, marca la duda de forma explícita y baja la puntuación en la dimensión adecuada.

Cómo implantar el scorecard en tu equipo (pasos, roles y control de sesgos)

El scorecard funciona cuando todos puntúan de forma parecida. Para lograrlo necesitas un proceso simple, ejemplos y un ciclo de revisión.

Paso a paso (en 7 pasos)

1) Define el objetivo: ¿CRM, QA de agentes, análisis, cumplimiento, formación?
2) Elige el formato de transcripción: literal, limpia (sin muletillas), con marcas de tiempo, etc.
3) Alinea pesos y umbrales: ajusta los porcentajes y qué significa “aprobado”.
4) Crea una hoja de revisión: una fila por dimensión + campo de comentarios y ejemplos.
5) Haz una calibración: 3–5 llamadas revisadas por 2 personas y comparad diferencias.
6) Revisión continua: revisa una muestra semanal o por lote (por ejemplo, 5–10%).
7) Cierra el bucle: comparte los fallos típicos con quien transcribe o con quien configura el sistema.

Cómo evitar discusiones de estilo

Solo puntúa lo que afecte a identidad, datos, sentido o acciones.
Separa “formato” (10%) de “intención” (25%) para no castigar por comas.
Usa ejemplos de “error grave” por escrito para que el equipo decida igual.

Qué registrar en los comentarios (para mejorar, no solo para suspender)

Minuto aproximado del fallo (o marca de tiempo si existe).
Tipo de fallo: hablante, número, intención, contexto o jerga.
Impacto: “cambia acción”, “cambia categoría”, “solo estilo”.
Acción: reescuchar, corregir, pedir aclaración, retranscribir.

Errores comunes al evaluar transcripciones (y cómo evitarlos)

Muchos equipos creen que hacen QA, pero solo hacen una lectura rápida. Estos son los fallos típicos que hacen que el scorecard no detecte lo importante.

Mirar solo ortografía: revisa primero intención, números y hablantes, y deja el estilo para el final.
No definir qué es “crítico”: lista los números críticos por caso de uso (ventas, logística, soporte).
No reescuchar cuando toca: si la frase cambia una decisión, vuelve al audio aunque “suene” bien.
Reescuchar todo siempre: te quedas sin capacidad; usa ventanas cortas y señales de riesgo.
No calibrar revisores: sin calibración, la nota depende de quién revisa, no del texto.

Common questions

¿Cuántas llamadas debo revisar para que el scorecard sea útil?

Empieza con una muestra pequeña pero constante, por ejemplo un porcentaje fijo por lote o por semana. Aumenta la muestra si detectas fallos repetidos en números, hablantes o intención.

¿Qué hago si no puedo entender un fragmento ni reescuchando?

Marca la duda de forma explícita (por ejemplo, con [inaudible] y una nota) y baja la puntuación en completitud o intención, según corresponda. Si el fragmento es crítico (número, acuerdo, autorización), considera retranscribir o escalar.

¿Es mejor una transcripción literal o “limpia” para QA?

Depende del uso. Para análisis de intención o formación, una literal ayuda; para CRM, una limpia suele bastar si mantiene negaciones, condiciones y números.

¿Cómo puntúo la jerga si mi equipo usa muchos acrónimos?

Crea un glosario mínimo con los 20–50 términos que más aparecen y define la escritura preferida. Puntúa bajo cuando el error crea confusión entre dos cosas distintas.

¿Qué umbral uso si la transcripción la genera un sistema automático?

Usa el mismo scorecard, pero exige reescucha de números e intención con más frecuencia si el audio tiene ruido o solapes. Si el objetivo es publicar o usar datos críticos, planifica una revisión humana.

¿Puedo usar este scorecard para evaluar subtítulos o captions?

Sí, pero añade criterios de segmentación y sincronización, porque ahí importa el tiempo en pantalla. Si tu salida final son subtítulos o closed captions, te interesa revisar también velocidad de lectura y cortes.

¿Cómo relaciono la nota con acciones concretas (corregir, rehacer, aceptar)?

Define tres estados: “aceptar”, “corregir” y “rehacer”. Por ejemplo: ≥3,2 aceptar; 2,8–3,19 corregir; <2,8 rehacer, ajustando por el riesgo del uso.

Opciones para producir transcripciones más fáciles de auditar

Si tu QA detecta fallos repetidos, suele ser mejor ajustar el flujo que revisar más. Algunas medidas simples mejoran la calidad y también la velocidad de revisión.

Usa marcas de tiempo en llamadas largas o con varios participantes, porque aceleran el re-chequeo.
Estándar de etiquetas de hablante (Agente/Cliente o nombres) desde el inicio del proyecto.
Glosario y lista de nombres (productos, equipos, ciudades) para reducir errores en jerga.
Separación de pasos: pide que los “next steps” queden en líneas claras.

Si combinas transcripción automática con revisión, puede ayudarte un flujo mixto: primero rapidez y luego control en puntos críticos. Puedes ver opciones en transcripción automática y, si ya tienes un borrador, en revisión de transcripciones.

Cierre

Un buen QA scorecard no busca la perfección, sino fiabilidad para el uso real de la transcripción. Si mides hablantes, números, intención, completitud y jerga con reglas claras, sabrás cuándo aceptar, cuándo corregir y cuándo volver al audio.

Si necesitas convertir llamadas en texto con un flujo claro (y con opciones de revisión cuando haga falta), GoTranscript puede ayudarte con professional transcription services.

Haz tu pedido ahora