Descubre Happy Scribe: Innovación en transcripción automática
Explora cómo Happy Scribe transforma audio en texto, sus ventajas únicas y cómo surgió del Erasmus de Marc Asens y André Bastié. ¡Aprovecha una prueba gratis!
File
Entrevista a Marc Assens de Happy Scribe, software de transcripción automática
Added on 01/27/2025
Speakers
add Add new speaker

Speaker 1: Hola, soy Jordi Torrijos y hoy vamos a hablar sobre Happy Scribe, una herramienta que convierte el audio en texto automáticamente. En unos segundos presentaré a Marc Asens, que desarrolló esta aplicación junto con André Bastié. Antes de comenzar, recuerda que si quieres descubrir más herramientas de marketing y productividad todas las semanas, puedes suscribirte gratis a la newsletter en exploradoresdemartech.com. Empezamos. Bien, como decía al principio, hoy tengo conmigo a Marc que nos va a hablar de HappyScribe. Hola, Marc. De verdad, muchas gracias por estar aquí hoy.

Speaker 2: Vale, Jordi. Igualmente.

Speaker 1: Bien, he estado revisando la información que hay sobre HappyScribe y me ha llamado la atención que creasteis esta aplicación cuando eras estudiante de Erasmus. ¿Es así?

Speaker 2: Sí, sí, eso sí. Me parece que fue uno de los Erasmus más productivos que conozco. Se hace el Erasmus en Dublín y entonces dio la casualidad que en la misma casa en la que estaba había otro chico que era André y entonces la idea de hecho salió hablando entre nosotros y lo fuimos construyendo y se nació en la casa donde estamos viviendo los dos.

Speaker 1: Jolín, esto me recuerda a esas historias de hicimos una aplicación en un garaje, ¿no?

Speaker 2: Sí, eso sí.

Speaker 1: ¿A qué edad desarrollasteis HappyScribe?

Speaker 2: Pues yo debería tener unos 22. Bueno, justo cuando estaba acabando la carrera, que es de 4 años, no sé si 22 o 21. Sí, pero justo estaba haciendo el trabajo de fin de grado ahí, que lo hacía en visión por computador y Machine Learning y esas tecnologías. Y André estaba acabando su máster también en empresa y tecnología.

Speaker 1: En esa época, que no fue hace tanto, ya había software que convertía audio a texto. Además, son productos bastante habituales que se pueden encontrar en internet. ¿Qué es lo que visteis para lanzaros? ¿En qué dijisteis? Bueno, nosotros esto lo podemos hacer mucho mejor.

Speaker 2: Sí, en ese momento, hacía unos pocos meses, que la tecnología acababa de ponerse a un punto que era útil. Pero productos de transcripción automática, para clientes y esto, no existían. Lo que nos dimos cuenta es que André un día vino a casa y tenía que transcribir como 12 entrevistas de una hora cada hora. Eso es como una semana full time transcribiendo. Yo obviamente no lo quería hacer. Y nos dimos cuenta que no había ningún producto donde él pudiera subir los archivos, hacer la transcripción automática rápido y luego descargárselos. O sea, sí que Google tenía APIs de transcripción. Si no hacía mucho, se había lanzado. Y había alguna que otra API por ahí también corriendo. Pero no había un producto para usuarios de API. Y eso es lo que nos chocó bastante. Y lo primero que hicimos, de hecho, fue, o sea, nos dimos cuenta que había una oportunidad aquí y lo que nosotros consumimos era el producto de transcripción.

Speaker 1: Vamos con AppSumo ya. Hay mucha gente que quiere hablar del tema AppSumo. Tuvisteis en AppSumo un lanzamiento bastante llamativo. Porque en principio lanzasteis una oferta a partir de, creo que eran 20 horas consumibles una vez, pero los usuarios os pidieron una cuota mensual de horas de por vida recurrentes. Me llamó la atención que en este caso fuisteis bastante ágiles porque aceptasteis un poco el clamor popular y pasasteis rápidamente a ese modelo de horas recurrentes. No sé ni siquiera si estabais preparados técnicamente para ese cambio, pero ¿cómo lo vivisteis? Cuéntame.

Speaker 2: Sí. Lo que pasa es que nuestros costes se crecen muy linealmente con la cantidad de horas que se transcriben. Por eso un lifetime deal donde damos transcripción ilimitada de por vida a nivel de costes es un poco delicado para nosotros y tiene un poco de riesgo. Por eso inicialmente preferíamos no hacer un cupo de horas de por vida. Pero una vez lo lanzamos en AppSumo, al final lo que queríamos es que funcionase y que la gente se hubiese contenta y que la gente lo usara. Y nos dimos cuenta de que eso era un problema real. Relacimos los números y nos dimos cuenta de que podíamos reestructurar el deal para hacerlo mucho más atractivo. Hicimos unos cambios en ese momento en la aplicación, lo mandamos a producción y cambiamos el deal en directo.

Speaker 1: En horas, ¿no?

Speaker 2: Sí, en dos horas.

Speaker 1: ¿Cuáles dirías que son esas características de HappyScribe que os distinguen de la competencia y de otros conversores gratuitos de audio a texto que se pueden encontrar por internet?

Speaker 2: Sí. HappyScribe es mucho un… O sea, por ejemplo, puedes hacer subtitulación de… No es solo la transcripción, no es solo un producto que tú le echas un audio y te da el texto, sino que lo que haces es que se integra en tu workflow para permitirte hacer muchas cosas con ese texto. Entonces, por ejemplo, una de ellas es la subtitulación. Tenemos un algoritmo que coge el texto y el audio y crea unos subtítulos que se ven muy naturales y muy correctos. Y luego, además, tenemos un editor de subtítulos, también un editor de transcripción, pero un editor de subtítulos donde puedes corregirlos y puedes quemar los subtítulos en… Bueno, los puedes quemar ahí en el vídeo y descartar el vídeo con los subtítulos incrustados. Y además operamos… No solo operamos en inglés, pero intentamos… Bueno, operamos en 110 idiomas diferentes.

Speaker 1: ¿Tú te especializaste en inteligencia artificial cuando estabas estudiando? No sé si es así.

Speaker 2: Sí. Yo hice mi grado y entonces el trabajo de fin de grado era inteligencia artificial y luego empecé un máster en inteligencia artificial también. Y hice un año de investigación colaborando con un grupo de Barcelona y uno de Dublín. Cuando iba por la mitad del máster, entonces me salí del máster para pasarme a HappyScribe FullTime.

Speaker 1: Pero todos esos conocimientos que adquirirías durante el máster, la familiarización y demás, no sé si HappyScribe utiliza Machine Learning para algunos idiomas o se ha beneficiado un poco de ese tipo de conocimientos que adquirirías en su momento.

Speaker 2: Sí, sí, sí. Ha sido súper útil porque podemos entender cuál es el estado del arte, qué está pasando y cómo se está moviendo el campo de speech-to-text. Y sobre todo para estrategia o para implementar algunas cosas técnicas es muy útil entender qué está pasando y cómo funciona.

Speaker 1: HappyScribe, como decías, está disponible en más de 110 idiomas, pero empezasteis con bastantes menos. ¿Qué trabajo supone lanzar un nuevo idioma? ¿Es algo que tenéis semi-automatizado? ¿Utilizáis tecnologías de terceros? Explícame cómo funciona esto.

Speaker 2: Sí, pues los algoritmos de Machine Learning, con funciones que tú diseñas como una estructura de neuronas, que se les llaman, y entonces le echas un dataset en un idioma y lo entrenas. Y la gran característica es que si tú el dataset lo cambias, en vez de poner un dataset de inglés, pones un dataset de español, la estructura del algoritmo puede ser la misma. Entonces, lanzar nuevos idiomas no se trata de desarrollar nuevos algoritmos, sino que se trata de recoger los datos, de crear un dataset para ese idioma.

Speaker 1: ¿Hay idiomas que son más difíciles, que llevan bastante más trabajo que otros?

Speaker 2: Bueno, un poco, pero no mucho más, porque al final el algoritmo es agnóstico al tipo de idioma. El algoritmo lo que ve es el audio entrando y él saca como caracteres. Entonces, que el audio sea japonés o sea español, no le importa tanto.

Speaker 1: Oye, y el tema de los acentos, porque esto es algo que no había visto nunca. He leído un comentario, además, de un usuario de Texas en AppSumo que estaba flipando con que se entendiera su acento. Explícame cómo va lo de los acentos y una cosa que me preocupa mucho es si tenéis Murcia cubierto.

Speaker 2: Sí, pues el tema de los acentos es que cuando más complicado es el acento, más difícil es para el algoritmo entender. Esto está clarísimo. Entonces, una cosa que se hacía hasta hace unos años es que tenías diferentes modelos para diferentes acentos. Entonces, tú en el idioma podías seleccionar en plan inglés de Texas o inglés de India, por ejemplo, porque los acentos cambian mucho. Y lo que se está haciendo ahora es que el mismo modelo se entrena con datos de muchos acentos diferentes y de hecho lo que se está viendo es que así funciona mejor. Entonces, básicamente en los datasets de entrenamiento aparecen todos estos acentos y el modelo entonces los puede ver, los puede empezar a entender. Y Murcia está bastante cubierta.

Speaker 1: Me alegro porque tengo amigos en Murcia que seguro que este comentario les ha hecho mucha gracia.

Speaker 2: Sí, sí. Si el acento es muy fuerte, entonces no estoy muy seguro.

Speaker 1: Sí, no sé si la máquina va a superar a los humanos que a veces tenemos dificultades. Hay otras funcionalidades nuevas que me han llamado también la atención, que es esto del vocabulario que habéis lanzado hace poco.

Speaker 2: Sí, una de las cosas de transición que es muy delicada es que a veces se está hablando de un tema técnico y entonces hay palabras que no aparecen frecuentemente y que el algoritmo quizás no ha visto hasta ese momento. Entonces, si hay por ejemplo una conversación entre médicos y se está hablando de una operación, lo que nosotros tenemos es la funcionalidad del vocabulario donde tú puedes insertar las palabras técnicas que van a aparecer en el texto y el algoritmo utiliza esa información y si ve alguna cosa que suena como de las palabras técnicas que tú has puesto, entonces la pone. Y así te permite, básicamente lo que te permite es transcribir cosas técnicas o nombres propios como por ejemplo tu propio nombre o el nombre de tu empresa o el nombre de tu mailing list o todo esto y que la transición ya te salga bien a la primera y no tengas que corregir tú esto.

Speaker 1: Es decir, si yo pongo el nombre de una marca o algo antes de hacerlo el tema de conversión, se supone que habrá más fidelidad en la transcripción y que entenderá que lo que yo he dicho corresponde a esa palabra que introducí en el vocabulario.

Speaker 2: Exacto. Si es una marca que es ampliamente conocida, probablemente ya está en el vocabulario del algoritmo. Pero si es una marca que sí que es más pequeño o que ha salido desde hace poco, entonces tú la puedes insertar directamente y ya está.

Speaker 1: Bueno, hemos hablado de acentos, de vocabulario. Estaba pensando en hacer una prueba de esfuerzo utilizando HappyScribe. Ahora te la explico, a ver qué te parece. Voy a subtitular un chiste de chiquito de la calzada con HappyScribe. Es una tontería de las mías, pero creo que puede ser divertido. ¿Qué crees que va a pasar?

Speaker 2: A ver, esto dependerá del vocabulario que se usa y del acento con el que lo grabes.

Speaker 1: Bueno, ya conozco el chiquito. Es que, además, yo creo que habría que introducir el chiquitistaní dentro de los idiomas. Porque si no, lo veo complicado.

Speaker 2: No creo que haya mucho chiquitistaní en el dataset de entrenamiento, pero siempre se puede probar esto.

Speaker 1: Haré la prueba. Ya te diré qué tal sale. Haré un vídeo más cortito solo con esa prueba. Perfecto. Bien, para los que nos gusta automatizar y mover datos entre aplicaciones, he visto que tenéis Appy Pública y que además lo ofrecéis en el build de Appsumo. ¿Qué casos de uso son los más habituales? ¿Cómo se está sacando partido a la Appy ahora mismo?

Speaker 2: Pues, si tienes, por ejemplo, un workflow que es siempre el mismo, lo que te permite esto es automatizarlo. Ahora, por ejemplo, tenemos empresas que tienen centenares de archivos de audio. Entonces los quieren transcribir todos y descargar y poner en una carpeta o integrar en un producto suyo. Entonces la Appy les permite simplemente escribir un pequeño programa y automatizar todo esto. Y ahora mismo tenemos la Appy y dentro de poco tendremos, está en nuestro roadmap, tendremos integración con Zapier. Y entonces habrá más posibilidades de automatizarlo usando herramientas de no-code.

Speaker 1: Genial. Después hablaremos además del roadmap para que nos cuentes más cositas. ¿A quién crees que puede ayudar más Zapier Scribe? Yo estoy pensando en los editores de vídeo, videomarketers, podcasters, SEOs, incluso personas que trabajan en accesibilidad. Cuéntame un poco quiénes se pueden aprovechar más de esto.

Speaker 2: Sí, pues de hecho tenemos muchos tipos de clientes diferentes porque transcripción es un problema muy generado realmente. Y entonces están los que tú has dicho, hay muchos periodistas también que hacen entrevistas, hay investigadores que hacen entrevistas. Para temas de SEO es evidente, ¿no? Si haces podcasts o si grabas vídeos que subes en tu blog o algo así, tener el texto permite a Google indexar mucho mejor lo que hay, ¿no? Porque si solo hay el vídeo o el audio es un poco como transparente para Google, no sabe que hay ahí dentro. Y luego hay estudiantes también, hay muchos estudiantes. Y en lo que tú comentabas en tema de video editing también hay mucha gente que está haciendo subtítulos para películas o para vídeos. Y por ejemplo hay gente que hace documentales que graban quizá como 100 horas de entrevistas y luego para poder crear un documental tienen que ser capaces de buscar detalles dentro de las entrevistas y poder cortar esos trozos. Entonces una transcripción automática les permite tener lo que se llama el rush, que es como todo el texto en bruto y poder buscar muy bien y trabajar mucho más eficientemente.

Speaker 1: Muy bien. Y lo que comentábamos antes, ¿cuáles son las próximas funcionalidades que llegarán a HappyScribe? ¿Qué es lo que más están pidiendo los usuarios ahora mismo?

Speaker 2: Sí, pues una de las cosas que va a llegar dentro de nada, de hecho tenemos aquí los ingenieros que lo están acabando de pulir, es la función de traducción. O sea, que si tú quieres hacer subtítulos en 10 idiomas diferentes puedes subir un archivo y en 10 minutos que tengas los subtítulos automáticamente de todo. Y entonces aquí ya estaremos combinando transcripción, subtitulación y traducción todo a la vez. Sí, y esto es una de las cosas que viene así rápido y luego vienen algunas cosas más. Por ejemplo ahora para empresas estamos lanzando una funcionalidad para organizaciones donde puedan meter un equipo de personas y los pagos estén centralizados y todo el tema de accesos para las personas.

Speaker 1: Una pregunta que siempre hago en las entrevistas porque a nosotros, los exploradores de Marte, nos gusta es ¿cuáles son tus herramientas Martec favoritas? Esas que te encantan que no están relacionadas con tu nicho.

Speaker 2: Sí, porque son herramientas de marketing o productividad. Vale, una que uso muchísimo es Alfred para Mac. Es como el Spotlight, la búsqueda rápida pero se puede acostumbrar mucho más. Se llama Alfred. Y eso para encontrar archivos y un montón de cosas que hago en mi ordenador me hace trabajar mucho más rápido. Ahora hace poco estoy utilizando también una herramienta para organizar las ventanas porque me he comprado en mi ordenador una pantalla más grande que se llama MatNet. Y luego cosas así que, por ejemplo, para el correo electrónico hay un post, si buscáis productividad para Gmail, hay un post donde explica cómo ponerte Gmail pero con un sistema de Getting Things Done. O sea, que tú lo que veas son como 3 inbox o 4 inbox en Gmail con lo que es el inbox y luego ves para contestar más tarde, tareas para hacer, etc. Pero esto me ha ayudado mucho a tener mucho control sobre el correo.

Speaker 1: Sí, como convertir el correo en un gestor de tareas, ¿no?

Speaker 2: Exacto, exacto. Sí, sí, sí. Y cuando estás mandando muchos correos y hay diferentes silos donde tienes que estar pendiente, simplemente funciona súper bien. O sea, no tengo que estar pensando en el correo o en las tareas, en absoluto. Ah, bueno, y por supuesto, la herramienta de Notion que ya conocéis. Nos encanta. A mí me he enamorado de esta herramienta.

Speaker 1: Me encanta a muchos Notion y ya lo utilizamos también para casi todo. También te puede servir Notion, por ejemplo, para gestionar tareas, proyectos. Tienes que servir para casi todo. Puedes crear prácticamente una página web, un repositorio.

Speaker 2: Sí, para el Getting Things Done mío personal lo tengo en Notion y estoy encantado.

Speaker 1: Por último, Mark, si alguien quiere saber algo más sobre HappyScribe, haceros alguna petición, sugerencia, ¿cómo se puede poner en contacto con vosotros?

Speaker 2: Escribir un correo a hi.happyscribe.com y nos estamos en contacto. O si no, si van a la página web de happyscribe.com y ahí mismo, en la esquina inferior derecha, hay un logotipo para abrir un chat y se ponen en contacto con Shane, que es la persona de Customers Access, y les atenderá en un momento.

Speaker 1: Estupendo, Mark. Pues, muchas gracias por la entrevista. Espero que os vaya muy bien la campaña en absumo que acaba de empezar y que sepas que voy a utilizar HappyScribe para sacar los subtítulos de esta entrevista.

Speaker 2: Perfecto. Espero que vaya bien. Muchas gracias.

Speaker 1: Y a ti, si te ha interesado HappyScribe, tienes una prueba de, creo que son 10 minutos gratis para probarlo sin necesidad de tarjeta de crédito. Te recomiendo que sea una cuenta de correo secundaria o de test porque el Like Tandil solo es para nuevas cuentas. Si ya quieres el Like Tandil, compra un cupón o más de Absumo porque las horas son acumulables y tendrás esta herramienta de por vida. Te dejo los 2 enlaces en la descripción del vídeo. Gracias por ver la entrevista y si quieres descubrir más herramientas de marketing digital y productividad, recuerda que puedes suscribirte gratis a la newsletter en exploradoresdemartech.com. Hasta la próxima. Subtítulos por la comunidad de Amara.org

ai AI Insights
Summary

Generate a brief summary highlighting the main points of the transcript.

Generate
Title

Generate a concise and relevant title for the transcript based on the main themes and content discussed.

Generate
Keywords

Identify and highlight the key words or phrases most relevant to the content of the transcript.

Generate
Enter your query
Sentiments

Analyze the emotional tone of the transcript to determine whether the sentiment is positive, negative, or neutral.

Generate
Quizzes

Create interactive quizzes based on the content of the transcript to test comprehension or engage users.

Generate
{{ secondsToHumanTime(time) }}
Back
Forward
{{ Math.round(speed * 100) / 100 }}x
{{ secondsToHumanTime(duration) }}
close
New speaker
Add speaker
close
Edit speaker
Save changes
close
Share Transcript