Tecnología OCR y HTR: Historia, desafíos y aplicaciones
Explora el desarrollo de OCR y HTR, sus aplicaciones en las Humanidades, y métodos de digitalización histórica con herramientas como Transcribus.
File
TRANSCRIPCIÓN automática de textos antiguos del archivo al machine readable
Added on 01/27/2025
Speakers
add Add new speaker

Speaker 1: Hacer una introducción que no se suele hacer en muchos casos sobre de dónde viene esta vaina de los OCRs, de dónde viene el HDR, cómo funciona, para poder hacer en cierta medida funcional lo que hoy hacemos. Digamos que una de las plataformas que está más o mejor constituida hoy en términos digamos, de interacción con los usuarios para la transcripción automática de textos, y que además dispone de un centro de cálculo para ejecutar las operaciones, es la herramienta que se conoce como Transcribus, aunque digamos hay muchas otras herramientas que están disponibles en el mercado, incluso algunas pues que son gratuitas, de código abierto, entonces me gustaría preguntarles si quieren, digamos, concentrarse más en los elementos prácticos o en los elementos teóricos, más en el funcionamiento de la aplicación o en la, digamos, en el funcionamiento y experimentación con la aplicación o en la forma en la que funciona la aplicación, no sé, Esteban.

Speaker 2: Drez, realmente el propósito del taller es que nos cuentes tu experiencia como tal. A mí me gustaría mucho conocer un poco sobre el desarrollo histórico, de dónde proviene toda esta iniciativa y cómo se relaciona con el mundo de las humanidades, y sería también agradable practicar. entonces yo creo que un punto medio sería como algo muy digamos agradable desde mi perspectiva, no sé el resto de asistentes qué opinión tengan, si les parece adecuado, vale Andrés yo creo que el punto medio entonces... vamos a partir

Speaker 1: sobre un punto medio entonces vamos a tratar de acelerar un poquito vamos a tratar de acelerar un poquito para poder digamos, avanzar con esta cuestión. Entonces yo hago parte del proyecto de disidencias religiosas y recepción de la reforma en la España del Nacimiento y trabajo pues como con la Universidad Paul Valéry en el Laboratorio de Estudios Culturales. ¿Qué vamos a trabajar entonces? Voy a abordar como todos los puntos que están aquí, vamos a introducirnos un poquito en esto, qué son las tecnologías de OCR y HTR, de dónde vienen, luego vamos a tener una pequeña percepción sobre la digitalización y el preprocesamiento de las imágenes, principalmente dentro de lo que concierne a las tecnologías de OCR, y luego vamos a presentar los programas de OCR y HTR, muy utilizados o muy generalizados dentro de la comunidad de las ciencias humanas y sociales, y luego vamos a trabajar un poco sobre transcribos propiamente como herramienta. Entonces en un principio lo que había era la idea de digitalizar los archivos, había montón de archivos y digamos en los últimos 40 años toda la memoria colectiva de la humanidad se empieza a enfrentar como a grandes cambios y entre esos grandes cambios pues está la cuestión de la llegada de las computadoras que en un principio eran los mainframe que se dedicaban a hacer como operaciones matemáticas pero era una computadora por facultad y pues toda esa llegada puso en cuestión la forma en la que se estaba haciendo ciencia, no sólo desde las ciencias exactas y las ciencias naturales, sino desde desde las ciencias humanas y sociales. Entonces, más o menos en la década de 1980, la conversión de materiales de fuentes impresos comenzó a generalizarse pues la conversión de impresos antiguos y de impresos que existían de litografías o de tipografías se habían empezado a fotografiar en pequeñas iniciativas, luego pues diez años más tarde todos todos los archivos se empiezan a adquirir en Estados Unidos principalmente, y en algunos lugares aquí en Europa, maquinaria y equipos para, digamos, aunar esfuerzos por digitalizar los archivos y digitalizar las fuentes que se tenían, y pues eso va a jugar con diferentes fuerzas, digamos, no sólo dentro de lo político, sino también dentro de las academias, dentro de la tecnología, dentro de los fondos institucionales y pues en los años 90 es donde se empiezan pues como a configurar proyectos de digitalización a gran escala, de hacer una biblioteca mundial, de hacer un sistema de transmisión de datos académicos interuniversitarios, que luego se chocó pues como con los bolsillos de las grandes editoriales, pero bueno, a los 90 se le conoce entonces por la iniciativa de sus proyectos como la década de la digitalización y luego a partir del año 2000 entonces se da un apogeo, un aumento de los programas de digitalización que se convirtió pues como en el común por todas partes, entonces empiezan a llegar tecnologías para imágenes avanzadas, empieza a pensarse a la idea de protocolos para para estandarizar no sólo las imágenes sino también los resultados, empieza a existir ya colecciones a gran escala con iniciativas que tienen financiaciones, digamos, centralizadas principalmente aquí en Europa y en Estados Unidos. La mayoría de los proyectos que tendieron pues a hacer en gran escala con grandes volúmenes de información, tenían la esperanza de que las tecnologías de reconocimiento óptico de caracteres pudieran darles un texto legible. Aquí es importante entender cuál es el objetivo. El objetivo de una digitalización es no sólo pasar del archivo y del documento, porque entonces la imagen, o sea la fotografía, y eso es una diferencia que es muy importante de hacer y que en muchas ocasiones no hacemos, archivo contiene documentos que están en un soporte de papel u otros y luego ese archivo cuando se empieza el proceso de digitalización se convierte en otros documentos, lo que termina siendo un soporte, el objetivo que tenemos dentro de las ciencias humanas y sociales para lo que contiene texto, o sea todos esos documentos que contienen texto, es poder recuperar el texto de los documentos, lo que quiere decir pasar de imágenes JPEG, PNG, RAW, NEF, bueno imágenes de mayor o menor calidad y profundidad a a documentos legibles legibles para la máquina, entonces el término OCR en principio se refiere a todos los instrumentos y prácticas que permiten transformar un objeto digitalizado, o sea un documento digitalizado, una imagen, en un texto codificado, o sea lo que significa forma elegible para una máquina o para, dicho de otra manera, una secuencia de bits de texto, medible, que sea cuantificable por los ordenadores y pues que se corresponda con la extracción del contenido de la imagen, y sus diferentes extensiones. El reconocimiento óptico de caracteres es un subcampo del reconocimiento automático, y ahorita, bueno, hoy en día se relaciona un poco con la inteligencia artificial y con otras áreas como es el reconocimiento del habla, el reconocimiento de las radiofrecuencias, bandas magnéticas y códigos de barras, las primeras etapas de este campo pueden remontarse digamos a las tecnologías relacionadas con la telegrafía, perdón, se pueden relacionar con la telegrafía y con la idea de constituir maquinaria que permitiera a las personas invidentes acercarse a documentos impresos, eso desde el siglo ya antepasado, pero a partir de 1930 y más que todo en los años 40 creo, es que se empieza a dar herramientas que permiten, a través de códigos y de formatos específicos, establecer la lectura automática. Pero, digamos, estaba limitado a unas formas específicas, a unos caracteres específicos y a una estructura documental muy específica. ¿Por qué explico porque los programas, digamos, como el AVI, FindReader o el Tesseract, u otras tecnologías de OCR, retoman, digamos, este reconocimiento de estructura y esta categorización, este aprendizaje por caracteres, para hacer la lectura de documentos, lo que significa que en muchas ocasiones es sumamente extenuante, digamos, es muy extenuante entrenar modelos, porque no es en realidad un entrenamiento de un modelo, sino de lo que se está hablando, es la constitución de un repertorio de caracteres que nos permiten, digamos, acercarnos a formas más o menos precisas de un texto, y pues eso se vuelve mucho más problemático cuando utilizamos manuscritos que fueron impresos antes de 1930, entonces aquí la de que a los 50 se desarrollan técnicas de lectura automática y la necesidad de controlar enormes cantidades de datos textuales comienzan desarrollarse los primeros sistemas de OCR en 1960, la primera generación de programas de reconocimiento óptico de caracteres y prototipos que reconocen unos 10 lignotipos diferentes, los que hacían eran tipos a base de caucho, se hace el primer sistema gráfico estandarizado para uso comercial de OCR en 1970, es la segunda generación de los programas de reconocimiento óptico de caracteres, en los 80 se empiezan a distribuir ya y a vender paquetes de software que permiten reducir los costos para la digitalización y el Match Inbredible, y en la actualidad, a partir del año 2000, pero hasta la actualidad, se empiezan a desarrollar un montón de programas europeos de digitalización, y es aquí donde los, digamos, las tecnologías de OCR experimentan el desarrollo máximo, el objetivo principal era el control del Big Data derivado de la digitalización y transformarlo en algo computable, Entonces, vamos a hablar de el proceso de digitalización, normalmente las bibliotecas y los centros de documentación utilizan escáneres de alta precisión, pero digamos que el proceso de digitalización en muchas ocasiones lo podemos realizar nosotros también, a partir de los equipos que dispongamos, sobre todo cuando no tenemos, digamos, proyectos que tengan las financiaciones necesarias para hacer la captura de imágenes, digamos, por un profesional. ¿Cuáles son los problemas propios de las transcripciones automáticas de impresos históricos? Y bueno, que son un problema que va a venir también con los manuscritos, pero me parece que los impresos históricos nos permiten, digamos, explorar mucho mejor estas cuestiones, están las letras ligadas, están las notaciones tironeanas, pues, o los caracteres que han migrado, digamos, de los manuscritos a los tipos de impresión, las abreviaturas y la tinta que sobrepasa, digamos, las páginas. Esas son los, son algunos de los problemas principales. Otros son las páginas deformadas, tanto, digamos, en las curvas, esta no está tan tan curva, pero no tener una línea completamente recta, es problemático para un sistema de OCR, la cantidad de píxeles que contiene una letra, en la altura de una letra, también es un parámetro que es complejo para los sistemas de OCR, las manchas son un problema para los sistemas de OCR, Entonces, lo que exigen, digamos, estos programas son un preprocesamiento o unas operaciones preparatorias que permitan, digamos, llegar a un resultado de página aceptable para el programa, para que el programa pueda inventariar los tipos o los caracteres en cuestión. ¿Qué es lo qué pasa dado que esto es una tarea humana, o sea, la división de la página, la orientación de la página, el recentrar las líneas para que se vean planas, el tema de binarizar las imágenes para que las imágenes sean bitonales, eliminar ruido, arreglar el contraste de imagen, quitar o poner efectos de luz para que se vean un poco más los caracteres, como eso es una tarea humana, eso conlleva que generamos muchísima más variabilidad de caracteres en el momento en el que nos encontramos con los documentos ya en la interfaz o en el programa en el que vamos a transcribir. Entonces, ¿cuáles son los problemas, digamos, que observamos desde las ciencias humanas relacionados con la fiabilidad del OCR? Bueno, por un lado está el problema del escaneado, por otro lado hay problemas de transcripciones erróneas. La idea, digamos, de tener una transcripción limpia no es solamente para poder hacer, digamos, a partir de las máquinas, porque las máquinas son mucho más tolerantes a ciertos porcentajes de errores que nosotros para hacer análisis, sino para que también los investigadores efectivamente se puedan acercar a los documentos, entonces es necesario obtener transcripciones bastante limpias. Como ya les había dicho, este tipo de sistemas de OCR funcionan súper bien en documentos que son de 1930 para acá, pero nos queda el problema de los textos históricos, nos queda el problema de los manuscritos y nos queda el problema de los textos multilingüe que todavía es un campo en crecimiento y digamos sólo las recientes mejoras en algunos programas han empezado a dar como resultados realmente positivos en este sentido. Entonces, cuando se empieza a cuestionar la transcripción automática de los manuscritos, la prevención de patrones de escritura humana para las computadoras, se empieza a reflexionar también en cuáles pueden ser las posibilidades de adaptar esta metodología o esta tecnología de trabajo a convertirla en una solución para que los estudios de los textos históricos y multilingües tengan buenos resultados y esto pues como basado en esas tecnologías de htr cuáles aquí cuál es el objetivo de tener una buena bueno el objetivo de las de las ocerizaciones, como se llaman, o del reconocimiento del texto, hacer creación de ediciones digitales o académicas, extraer metadatos, lemas, anotaciones, tokenizaciones, las características digamos relacionales que se puedan configurar dentro del texto como configurando el texto o entendiendo el texto como una base de datos y ampliar proyectos de minería de datos, estudios cuantitativos, consulta algorítmica, procesamiento del lenguaje natural, estilometría, textometría, análisis sentimental, análisis del discurso, análisis de autores, para estos trabajos, digamos, que llevan una precisión bastante importante, es necesario tener una buena aplicación, bueno, un buen resultado de reconocimiento de texto. Los OCR más famosos son Tesseract y AVI FineReader. Tesseract que es en Open Access, AVI que es propietario, Tesseract es de Google, los tres son multiplataforma, los tres, perdón, los dos son multiplataforma y los dos se basan en el reconocimiento individual de caracteres, entrenándose bueno o aprendiendo por cada carácter. Las salidas, los documentos de salida son texto, doc, pdf, xml y html para ambos. Como les decía, Tesseract hace parte de la plataforma de Google, reconoce unos 100 idiomas, pero basado en diccionarios, que son los diccionarios de Google, que son bastante interesantes, que los resultados, bueno, dejan mucho que desear todavía en documentos históricos. Dado los tipos de caracteres y los tipos de digitalizaciones que utiliza Google para sus Google Books o para sus aplicaciones, a veces el programa puede, digamos, generar problemas porque ellos hacen entrenamientos con páginas a color, pero luego muestran páginas a blanco y negro, entonces como que no es muy transparente, entonces pues esto es es un poco complicado. Avifine Reader, que es una aplicación rusa, concebida específicamente para el reconocimiento de PDFs, aquí ustedes pueden ver en el en el cuadro, cómo se van, digamos, almacenando los diferentes glifos o las diferentes grafías que componen las letras, no asegura buenos resultados, casi todos los ensayos que hemos hecho incluso con buenos, digamos, entrenamientos, teniendo como base de datos de entrenamiento unos, a ver, serían 24 líneas por 12 libros más o menos, no tuvimos resultados satisfactorios, es por eso que el proyecto con el que trabajo ha decidido pues como, como partir sobre la base de transcribos, en temas de textos históricos entonces hay una plataforma que se llama OCR para todos, es en Open Access, funciona para Linux solo con máquinas virtuales y tiene las plataformas para Windows y Mac, hace reconocimiento de textos impresos antiguos, multilingües manuscritos, no se muestra aquí. Bueno, es, es, es, es aprendizaje con redes neuronales, tiene como formatos de salida el TXT y el XML, transcribes, digamos que es como una de las, es la plataforma más conocida y como la mejor en términos de interfaz, y digamos que han corregido muchísimos errores en los últimos tres años, sobre todo sobre la cuestión de la segmentación de los documentos, aunque sigue habiendo múltiples problemas para el reconocimiento de segmentaciones, digamos que no son tradicionalmente las segmentaciones o de un documento plano con la región de texto principal o de las notas al margen, se basa sobre tecnología de aprendizaje profundo, igual que Scriptorium, Scriptorium es una iniciativa francesa basada en Kraken, y bueno, hemos estado haciendo algunas pruebas con Scriptorium, pero hay algunos problemas en la computación de las, de las líneas de texto, entonces no lo he integrado hasta que, hasta que no vean pues como que haya avances en ese tema, entonces vamos a saltar esto rápido para irnos a la aplicación de Transcribe y mostrarles un poco sobre cómo ¿Cuáles son las utilidades de la aplicación? Esteban nos facilitó, digamos, una colección que vamos a utilizar en este espacio de formación. Yo lo que les voy a proponer es que a las personas que están dentro de la sala, que espero que hayan recibido la información que esteban envió esta semana de haber creado una cuenta de transcribos para los que tengan entonces si esto es así lo que voy a hacer es que les voy a compartir un google docs pues o una tabla de docs para que para que puedan apuntar sus correos y que yo los pueda digamos apuntar rápidamente aquí en la colección les acabo de enviar una tabla para poderlos apuntar a la colección, mientras explico cómo funcionan los diferentes paneles de transcribos, entonces está el panel de servidor donde podemos explorar los documentos que tenemos y administrarlos, hacer una administración de los usuarios que están dentro de la colección, controlar, digamos, los momentos de trabajo que han tenido, digamos, los diferentes usuarios dentro de la, dentro de la colección, eso para cuando no tiene empleados, digamos que le están trabajando un documento, aquí mismo, pues esto es en la parte del servidor, pero está de pronto aquí, si podemos ver algunas cosas, bueno, el overview, digamos, nos sirve para controlar visualmente, pues como desde una vista muy muy superior, las diferentes páginas, mirar las estructuras de las páginas, la forma en en las que las páginas fueron fotografiadas. Y nos permite también, digamos, seguir un flujo de trabajo. Porque desde cuando empecemos a trabajar en una página, cuando empecemos a generar regiones de texto, cuando empecemos a generar líneas en base para el texto, vamos a empezar a tener, digamos, un trabajo que está en progreso. como no hay un entrenamiento previo, como en todos los trabajos

Speaker 2: Drez, listo, ya quedó listo, linkeado

Speaker 1: listo, es necesario un entrenamiento previo Transcribus prevé que para el entrenamiento de textos antiguos se necesitan unas 10 páginas pero para los manuscritos se necesitan unas 30 páginas, más o menos Y eso es importante tenerlo en cuenta para las diferentes grafías o los diferentes impresores que hagan parte de la colección del corpus que ustedes estén trabajando. Porque por ejemplo yo trabajo sobre las disidencias religiosas en España, son literatura clandestina, literatura que se imprimió, digamos, evitando utilizar los tipos propios de las imprentas que se publicó con datos falsos al interior, que se publicó con un montón de, o sea digamos tratando de evitar la identificación de los libros, entonces se vuelve un poco complicado captar todos los tipos y todas las formas, aunque el aprendizaje de transcribos es un aprendizaje que se llama Word in Context, o sea reconoce las palabras en contexto, es por eso que en muchas ocasiones uno va a tener sorpresas como que, ups, reconoce una palabra o se inventa una palabra que aparece en un error previo. Está la parte de las capas que nos permite, digamos, observar aquí las páginas, las regiones de texto y todas las líneas para tener una vista superior, digamos, de toda la transcripción que se está haciendo las coordenadas de los diferentes, de las diferentes regiones de texto. Está la parte de los metadatos, está la ventana de metadatos, que son los metadatos del documento, metadatos para la página, metadatos de estructura, donde se pueden determinar párrafos, donde se pueden determinar encabezados, pie de páginas, numeraciones, aunque yo personalmente he encontrado problemas en la exportación de estas características porque yo personalmente trabajo con Text and Coding Initiative y bueno transcribos ya de por sí no es muy no es muy respetuoso de las guidelines de la Text and Coding Initiative y para poder recuperar estos metadatos es necesario o es absolutamente necesario pasar por la exportación de textos en formato transcribos, entonces yo dejé de utilizarlos porque en últimas me generaban muchísimas más complicaciones que beneficios, luego está la ventana de herramientas, digamos lo que yo llamaría la ventana más importante de todas, porque pues el servidor nos permite navegar en los documentos, voy a actualizar aquí para ver si me sale, no me sale todavía y la ventana de herramientas nos permite el análisis de capas, que son el análisis para el reconocimiento de regiones de texto y de líneas de texto, o sea reconocer la zona del texto, recortar entre toda la imagen la zona donde está el texto y reconocer dónde están ubicadas las líneas de ese texto en esto digamos que el programa puede puede parecer muy avanzado yo les voy a mostrar como un pedacito de experiencia que tengo para acá pero en realidad yo encuentro que hay situaciones que pueden ser problemáticas ahí en el reconocimiento del texto, cuando pues, o en el reconocimiento de las partes, cuando tenemos demasiado ruido alrededor por ejemplo para estas páginas me había reconocido muchas pequeñas regiones que no que no estaban dentro del documento y me reconoce todavía líneas que no que no me interesa, pero bueno, esto hace parte del entrenamiento de un modelo que queremos hacer para los procesos de la Inquisición, para los procesos de causa, las razones de causa y los procesos criminales dentro de la Inquisición, entonces puede parecer muy muy poderoso pero todavía tiene muchísimos problemas de segmentación que que me parece no se están esmerando en resolver, cosa que sí se está esmerando en resolver herramientas como Scriptorium que te preguntan, digamos previamente, a la segmentación de los documentos, qué tipos de segmentos hay, cómo se llaman, cómo los quieres categorizar, o sea, hay una comprensión más avanzada del archivo medieval y hay una relación más avanzada con el usuario de los manuscritos, entonces pese a que hayan problemas de segmentación de la línea puede ser una una cuestión a revisar, todavía no es una herramienta que esté abierta al público en general, se accede bajo solicitud, pero pero pronto, cuando se terminen de instalar los servidores, pues la idea es poder tener acceso al herramienta. Entonces aquí se hace la segmentación para el texto, para la región de texto y las líneas y aquí está la herramienta de reconocimiento de texto. Aquí podemos explorar los modelos públicos, porque los modelos se relacionan directamente a las colecciones y a los usuarios que los crean, entonces aquí lo que vamos a ver es todos los modelos que están públicos y los podemos seleccionar por tipos de tecnología, lengua y por colección. Por ejemplo, en las colecciones donde yo tengo trabajos, puedo ver mis modelos. Por ejemplo, cuando yo les pongo los de mi colección, aquí están los modelos que he entrenado y tengo modelos que van hasta 350 mil palabras bueno estos porcentajes son muy interesantes pero no hay que fiarse tanto de ellos aunque son verdaderamente impresionantes pues digamos en términos de curvas de aprendizaje y de los resultados pero siempre hay como un pequeño margen de error en los en los porcentajes está el panel superior, vuelvo acá, está el panel superior que nos que nos propone herramientas como los procesos en en curso, digamos los procesos de que nosotros le pedimos a la aplicación, sean segmentaciones, se dan reconocimientos de texto, se dan exportaciones, se dan la creación de documentos, están las herramientas de importación y de exportación, está la herramienta de recarga, está una herramienta de búsqueda que es bastante potente y que permite pues digamos, utilizar un sistema Solair que es como, pues digamos, permite una cierta flexibilidad en las búsquedas, la herramienta de guardado, las herramientas de navegación, ir a la última página, la página siguiente, la página anterior o la primera página y aquí en esta parte importantísimo está la herramienta de selección, el modo de selección y los modos de visualización de transcribos. Esto es importantísimo porque muchas veces nos perdemos respecto a las recomendaciones que nos hacen otras personas porque nos muestran vídeos o nos muestran imágenes y no reconocemos las formas que están ahí dentro de los... dentro de los... dentro de los textos. Aquí por ejemplo podemos mostrar el orden de lectura de las regiones de texto, entonces la región de texto me aparece con orden 1 porque hay una sola y está el orden de lectura de las líneas, esto es importantísimo para cuando los manuscritos están constituidos de forma diferente a la forma tradicional está en esta parte de aquí los perfiles digamos de visualización de transcribos el perfil por defecto, es este que les estoy presentando, pero está el perfil de segmentación, digamos cuando estamos entrenando la segmentación, que nos permite ver sólo la imagen, para segmentar la imagen, está la transcripción que nos deja un espacio mucho mayor en la parte inferior, para poder ver las líneas, ya ven que en las líneas se van relacionando directamente con las líneas que están marcadas dentro del texto. Y bueno, no sé si hay preguntas hasta el momento con respecto al uso de la interfaz.

Speaker 2: Andrés, revisa que yo creo que ya te compartí las imágenes de Carrasquilla

Speaker 1: voy a salir

Speaker 2: ahora sí, que bien Ah, excelente. Ah, esta calidad está muchísimo mejor. Sí, esa la tomé con una cámara semiprofesional, las fotos son de 4 a 8 megas. Ya. Vale, listo. Listo, perfecto. Ah, excelente. Entonces yo

Speaker 1: lo que les voy a proponer es, ah excelente, hay 1, 2, 3, 4, 5 personas, hasta qué páginas has trabajado en este texto,

Speaker 2: no con estas páginas no he trabajado, sólo he trabajado con las iniciales, esas son de

Speaker 1: la página 45 en adelante porque si aquí me aparece que esto está en progreso y me aparece reconocimiento de líneas no sé qué le has pasado. No, nada, yo solo le había

Speaker 2: corrido nada.

Speaker 1: Pues tiene cosas corridas encima. Pero bueno, ese no es el problema. listo entonces lo que voy a proponer es lo siguiente página 2 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, para que hagamos como un experimento cada uno, sólo veo cinco nombres aquí, entonces pues sólo les pongo página de esos cinco nombres, vamos a, yo voy a hacer un ejemplo con la página 1, aquí en la página 1 pues ya esto está segmentado, entonces les voy a mostrar cómo funcionan las herramientas de segmentación, voy a utilizar el perfil de segmentación para que ustedes tengan una mejor visualización de la página, Entonces, en esta barra vertical, cuando yo estoy en una página, me aparecen, si no tengo absolutamente ningún trabajo dentro de la página, así es como llegaría a un documento, voy a tener que poner una región de texto, entonces esa región de texto la voy a poner haciendo un clic y luego haciendo otro clic en la parte inferior voy a terminar la región de texto y luego están las líneas y las líneas digamos los renglones yo lo que hago es que utilizo los renglones para establecer el renglón donde se donde se desarrolla el texto entonces por ejemplo ahí como el renglón es curvo voy a utilizar pues varios puntos para señalar estos renglones los renglones se ponen haciendo empiezan con un clic y van poniendo los clic en los lugares siguientes y cuando llegan al final de la línea como ven que el renglón no se termina le dan enter para que cree automáticamente la línea, ahorita les voy a proponer que ustedes en las páginas que les puse eliminen lo que, digamos lo que ya está hecho en la primera página, Revenca en la página 2, Julián Castro en la página 5, María Alejandra Ramírez en la página 8, darle Cristina a la 11 y Edwin Carvajal a la 14 y vamos a empezar a hacer una segmentación para que veamos la... pues para que nos familiaricemos con el uso de las herramientas de segmentación, y si surgen preguntas de este proceso pues que las podamos resolver inmediatamente, entonces los invito a que vayan empezando, yo estoy haciendo esta segmentación, yo no sé si alguien tiene preguntas, no dudé en decírmelo, y pues inmediatamente yo responderé a la pregunta.

Speaker 3: Andrés, yo tengo una pregunta, pero no tiene que ver con TradeScribe, sino con Teysera y las otras herramientas que nos mostraban, que nos mostrabas al inicio, Porque una duda que siempre me ha generado a mí es cómo hacen la evaluación de los porcentajes de error de la transcripción, entonces no sé si haya una automatización o sea muy manual esa evaluación de esos porcentajes de

Speaker 1: error. Listo, la evaluación de porcentajes de error se hace de dos maneras principales, la primera digamos que es como la más generalizada y la que muestra números más bonitos como los números que aparecían aquí, lo que hace es que cuando le entregas al programa un texto digitalizado y transcrito, él va a coger ese mismo texto y lo va, digamos, él va a entrenarse y luego va a transcribir ese mismo texto y va a calcular cuál es el porcentaje de diferencia entre lo que él hizo y lo que tú le mostraste. ese es el primer método de evaluación, pero qué es lo que pasa, primero hay una cuestión de que la computadora ya conoce esa página en particular que se está digamos transcribiendo, entonces para muchos informáticos, para muchos matemáticos eso es trampa digamos, digamos es una evaluación tramposa y arreglada lo que se ha hecho en muchos proyectos es que se le entregan a los a los programas textos que los programas no conocen que nunca han visto y a partir de un modelo se hacen las transcripciones y luego se evalúa en comparación con una transcripción corregida el porcentaje de caracteres, o sea la diferencia de caracteres, entonces carácter es todo símbolo o espacio y se calcula cuántos errores hubo en todo el trabajo entonces se calculan los porcentajes en la segmentación, se calculan los porcentajes en los caracteres y así se calcula digamos la precisión de de un modelo. No sé si fui suficientemente claro o si hay como otra duda derivada.

Speaker 3: Danilo. No, es claro pues la explicación, solo que, por ejemplo, bueno ya habría que ver como específicamente, por ejemplo, en Tasera cómo pasarle el texto correcto que dices y ya que lo entrené, pues se entrena a partir de ese modelo, pero supongo que ya es una específica especificidad de la herramienta. Exactamente, digamos cada herramienta va a

Speaker 1: tener sus formas específicas, incluso, o sea, transcribus y descriptoria están basados en el mismo tipo de tecnología, pero son algoritmos absolutamente diferentes. De la misma manera, AVI y Tesseract están, digamos, basados en en el mismo tipo de tecnología, pero con con algoritmos que están escritos de forma diferente. Entonces, eso hace que los ordenadores lleguen a formas diversas de resultados. También. No sé si hay más preguntas mientras van segmentando, si lo que está...

Speaker 2: Res, mira, mira el chat que como que hay que no han podido, hay alguien que no ha podido acceder al material.

Speaker 1: Ah, espérate. No le aparece. Espera un momentico. Voy a dejar de compartir pantalla un instante para poder hacer bien esto.

Speaker 2: Reca, lo puedes hacer en la versión live del Transcribus, hay una versión online de no tienen que descargar.

Speaker 1: pero la idea es que utilicen el expert client, aprovechando pues que en la formación tenemos la posibilidad de hacerlo. Voy a volver a agregar a las personas.

Speaker 2: Andrés, mientras revisa yo, por ejemplo, haciendo la transcripción, cuando uno le da las líneas, ¿cómo puede indicar entonces los elementos interlineados? ¿O tocaría crear otro segmento allí?

Speaker 1: No, pones simplemente, no sé si ves, si estabas viendo ahorita cuando dices la segmentación. Sí, sí. tu correo me lo rechaza Transcribus, me dice que no tienes una cuenta de Transcribus creada con ese con ese con ese correo y igual con Edwin Carvajal, entonces ahí los voy a poner en rojito para que para que sepan que hay un problema con las cuentas de correo de ustedes que no tienen una cuenta transcripts asociada Julián, Rebeca y Darly, ahí pueden acceder ahí deberían poder acceder a la colección, si no les aparece lo que deben hacer es desconectarse y volverse a conectar en la aplicación. Espérame, ya les voy a volver a compartir la pantalla aquí. Listo. Aquí en esta parte simplemente se desconectan y se vuelven a conectar. Ahí mismo les va a aparecer en la colección Esteban Incapié. les va a aparecer la colección y las diferentes y las diferentes partes

Speaker 4: Julian

Speaker 3: Andrés, una pregunta. Con manuscritos, ¿vos qué recomendás? Mejor que la imagen sea así a color o que sea bitonal.

Speaker 1: Bueno, esa es una muy buena pregunta. Ahorita los algoritmos no hacen ninguna diferencia real entre ambas. Aquí en las imágenes a color hay muchísima más información, lo que significa que el algoritmo puede pegarse de más cosas. Eso en términos lógicos y muy externos, pues, aunque en una reunión que tuvimos en Cuatieres el año pasado con la gente de Transcrius nos dijeron que no había diferencia real en el modelo, pues, o que no habían encontrado diferencias significativas entre las las imágenes bintonales, las imágenes a blanco y negro, pues son escala de grises por así decirlo, y las imágenes a color, por el tipo de tecnología que se utiliza. La idea es que ustedes también utilicen en este espacio la herramienta para que se apropien de las diferentes herramientas que están al interior de Transkey Use y hacer las preguntas que tengan respecto al funcionamiento pues de, o sea, del Expert Client, que es esta aplicación, o sea, pues como del modelo en sí que se hace de transcripción.

Speaker 2: Sí, a propósito del modelo Andrés, entonces, ¿cómo se va alimentando? ¿Él se va nutriendo con la información de los usuarios en este aspecto

Speaker 1: específico, eso cómo se crea? Listo, para crear un modelo se necesitan, digamos, hacer una reflexión en dos sentidos. El primer sentido es tener, o sea, como cuando haces un corpus de análisis, por ejemplo, lingüístico, necesitas tener una representatividad, una representatividad lingüística o mental, en ese mismo sentido cuando haces un entrenamiento de un modelo necesitas una representatividad del documento en términos de las formas en las que está escrito el documento, en términos de los tipos de cosas que se va a encontrar el programa dentro de los documentos. Entonces, ¿qué significa eso? que tiene que haber, digamos, si tenemos páginas que están escritas solamente hasta la mitad, tiene que haber al menos una página que esté escrita hasta la mitad, si tenemos páginas con tachones, tiene que haber al menos una página con tachones y empezar a identificar todos esos detalles que pueden ser recurrentes y tomar una serie de muestras para entrenar el modelo a partir de esas muestras, el entrenamiento del modelo es un entrenamiento que hay que lanzar pues aquí no tenemos con qué hacerlo realmente porque pues no no tenemos una transcripción pero puedo ir aquí a esta parte a otra a otra colección voy a guardar acá y les voy a mostrar cuál es la herramienta de entrenamiento de modelos aquí en la parte de reconocimiento de texto en la pestaña de herramientas, aparece un botón de entrenamiento, cuando le damos click al botón de entrenamiento, el botón nos va a arrojar todos los documentos que tenemos transcritos dentro de nuestra colección y nos van a aparecer en color solamente las páginas que están, que están transcritas y contienen texto, y nos va a decir cuántas líneas de texto contienen y aquí se nos va a mostrar digamos en una miniatura que contiene la imagen, yo lo que hago normalmente es escoger como una serie de data sets digamos que se expresan digamos en como en esta forma por ejemplo, entonces yo tengo el identificador del documento, pongo en verde o en rojo dependiendo si ya corregí las páginas y empiezo a sacar muestras de las diferentes grafías y a escoger pues como cuáles son las páginas que he seleccionado para establecer el modelo y hacer pues como como el entrenamiento a medida pues como de las necesidades entonces aquí aparece en negro solamente las páginas que están transcritas con las líneas y eso por cada documento. Lo que hacemos aquí es que vamos a seleccionar entre los documentos todas las páginas que consideremos que son necesarias y podemos hacer o la selección manual de las páginas que vamos a utilizar para la validación o podemos decirle al programa que haga un set de validación de forma automática tomando 2%, 5% o 10% del set total de entrenamiento. Entonces aquí ya nos toca escoger cuál es la tecnología que vamos a utilizar, nos toca escoger un idioma, entonces a partir de los idiomas aquí vamos a venir y vamos a a seleccionar un idioma, vamos a ponerle el nombre del modelo, vamos a hacer una descripción del modelo en esta parte de la ventana, aquí se van a empezar a juntar todas las páginas que vamos poniendo en el modelo de entrenamiento, entonces se va a generar un set de entrenamiento a partir de todas esas páginas que le vamos inyectando cuando seleccionamos por ejemplo un set de del 10% él se va a ir creando automáticamente a medida que le vamos poniendo las las páginas dice por ejemplo que hay hay páginas que no estaban transcritas dentro de la dentro del documento entonces que no las va a utilizar entonces por eso le selecciona que va de la 1 a la 11 y de la 13 a la 100, pero entonces a partir de aquí se lanza un entrenamiento con las muestras que ustedes le den al programa cuando se lanza, ustedes van a ver acá, voy a salir y aquí en la tacita de café va a aparecer que se lanzó ese entrenamiento, va a aparecer con un un identificador, no sé si tengo por aquí, por allá lejos debe estar, no, no me aparecen, pero aquí les va a aparecer pues, la, el proceso en que va, y les va a aparecer cuando está terminado igual del mismo modo les va a llegar una notificación al correo electrónico para decirles que el modelo está listo y que ya se entrenó y que ya pueden venir y ver y luego pues en la colección vienen y buscan los modelos que tienen en la colección y ya pueden acceder como a todas las informaciones y a todas las evaluaciones que hizo el programa.

Speaker 2: No sé si es claro, Esteban. Sí, Andrés. Danilo levantó la mano. No puedo ver las

Speaker 3: manos levantadas. Dale Danilo. Gracias Juan. Una pregunta antes. Yo por ejemplo ya tengo, utilizo un modelo de los que está, pues que está disponible de otros investigadores, ¿cierto? Y corregí algunos errores de los que generaba ese modelo. ¿Puedo utilizar esas correcciones para entrenar mi modelo. Exactamente, ese es el objetivo, esa es la tarea.

Speaker 1: Porque en últimas, tu modelo, o sea lo más correcto, es que le pongas en la descripción que el modelo es basado en tal modelo que hizo tal investigador. Yo por ejemplo, como todos los proyectos que habían hecho transcripciones de la época en la que estoy trabajando, habían o resuelto el tema de los espacios, o resuelto el tema de las heces largas o resuelto el tema de las abreviaturas y o de las acentuaciones nasales, entonces nosotros optamos por crear un modelo desde cero, pero el objetivo pues si se puede cumplir a partir de una transcripción que hicieron otras personas o de un modelo que crearon otras personas, pues lo lógico sería, digamos, poner en la descripción que se basaron en esa parte, al menos para el primer modelo, y ya después pues ustedes pueden compartirlo o no con la gente. pues es una cuestión de ver, pues como de ética ahí, pero sí, claro, puedes utilizar tus páginas transcritas, son tus páginas transcritas al fin y al cabo, porque el último ya sea utilizaste tus créditos para transcribirlas automáticamente con un modelo, o hiciste una transcripción a partir de la segmentación y la transcripción manual, o de todas maneras estás utilizando tu trabajo para crear ese modelo. Entonces, sí, claro, puedes crearlo.

Speaker 3: Perfecto. Bueno, y se me ocurrió otra pregunta, de acuerdo a lo que decías. Por ejemplo, para textos impresos, vos recomendarías utilizar el, la opción que tiene de, ya es que no recuerdo, porque está el modelo para manuscritos y está el modelo para, exacto

Speaker 1: el modelo de segmentación de bloques y htr para impresos, si

Speaker 3: ese es el que recomendarías pues para impresos

Speaker 1: ¿Cuál es la cuestión? Este módulo no se puede entrenar, este método no se entrena. Ves que no aparece ningún botón de entrenamiento. Mira, cuando estamos aquí te aparece la opción de entrenar, cuando estás aquí en la simplificación, en el transcribus OCR, digamos que toma un poquito de uno y del otro, si se puede, yo no, hay una cosa que nunca he podido entender y es que hay algunos modelos que cuando uno los entrena si

Speaker 4: se ponen como como se ponen como un modelo

Speaker 1: para impresos y eso hace que en lugar de costarte un crédito la página, en realidad te cuesta 0.17 créditos la página, eso reduce, digamos, eso multiplica por 5 la capacidad de transcription que tienes de textos antiguos, pero no he podido, o sea, cuando entreno el modelo hay unos que me permiten hacer esto, sobre todo por ejemplo acá en este trabajo, yo sé que hay un modelo, entonces es un modelo de pilaya, entrenado para los libros de cocina del siglo XVII, Y la cuestión es que no aparece absolutamente nada que diga que es de textos impresos, pero por lo tanto reconoce el modelo como de un texto impreso. No sé si es una utilidad nueva están apenas digamos instalando pero pero es una posibilidad ahí ya ustedes mirarán por ejemplo mira este es un modelo que parte desde cero o sea de transcripciones hechas a mano a partir de 1673 palabras esta fue la curva de aprendizaje y vean cómo va cambiando la curva de aprendizaje a medida que uno le va metiendo material a los modelos para mí siempre me parece muy interesante cuando uno lanza el primer modelo que siempre hacen estas curvitas a bueno cuando lanzan un modelo otra cosa que se me olvidó cuando entrenan un modelo ustedes pueden basar su modelo en otro modelo directamente modelo de base aquí les aparece y ustedes pueden seleccionar un modelo que les quiera hacer que le sirva de base sea un modelo que ustedes ya hayan hecho y que simplemente le van a juntar más material o sea un modelo, eso sí, pongan la descripción, sean éticos y responsables, éticos y responsables, pues como dándole mención a la gente que ha estado trabajando ahí en esas transcripciones. Por ejemplo, cuando voy a hacer la selección de los dataset de entrenamiento, yo lo que hago es utilizar el modo overview y a partir de este modo empezar a ver cuáles son las diferencias en las partes del libro. Ver como por encima una página de título, ver las tablas, por ejemplo, los índices, porque son libres de Cogina, entonces aparecen unos índices que no siempre se corresponden pues como con la forma en la que aparecen las cosas en el libro, aparecen listas de cosas. ¿Ves? Entonces, la idea es seleccionar diferentes, digamos, formatos que aparecen dentro del documento para así entrenar el modelo. Seleccionando, digamos, las muestras que sean mejores. No No sé si María Alejandra y Edwin ya sacaron, ya hicieron las cuentas de transcriptos con esos correos, o van a poner otros correos, o qué. Ah, ya. Entonces, bueno, no sé si hay más preguntas respecto al entrenamiento de los modelos. Bueno, cuando ustedes van a hacer una transcripción con esos modelos, simplemente, bueno, a utilizar esta colección que es como lo más cercano que tengo y que tiene un modelo ya constituido. Entonces, simplemente aquí en la parte de reconocimiento del texto, después de que ya hicieron, y esto se los digo a modo de consejo, después de que ustedes ya hicieron el reconocimiento de la segmentación. Entonces, por ejemplo, voy a decir que en esta página me reconozca la segmentación para saber qué es lo que hay, digamos, al interior, para que él determine la región de texto y determine cada una de las líneas. Como ahí la lancé, me sale aquí que está rodando esa segmentación, que es la página 119, ya terminó y ya me aparece aquí la segmentación. Voy a cambiar mi perfil, mi perfil a un perfil de transcripción y cuando le voy a ejecutar la el reconocimiento del texto, reviso primero que, por ejemplo, aquí no me aparece el número de página, pero voy a a poner las líneas, entonces, aquí en esa segmentación no me aparece, ni el número de página está puesto, bueno, la asignatura está y la reclama está, y están en líneas diferentes. Entonces, después de haber creado simplemente la línea que me falta, ya la creé, se creó también pues como, como la zona de la línea, ahí sí ya habiendo corregido esto, habiendo puesto las márgenes, habiéndole marcado ya todas las, toda la estructura del texto, lanzar el modelo, bueno, me pide que guarde pues la modificación que hice y aquí en el reconocimiento del texto hay que escoger el modelo entonces hay que venir si usted tiene un modelo en su colección bueno aquí están todos los modelos públicos pero si tienen un modelo en su colección van a escoger el modelo que tienen y luego de haberlo escogido pues verifican que simplifique los polígonos que ya están y que añada las estimaciones de coordenadas, por ejemplo, para esta línea va a ser estimar las coordenadas de los números. Y ya simplemente se lanza el modelo diciéndole ok, yo no creo que tenga créditos. Bueno, sí, sí tengo que lanzarlo y me dice que el trabajo ha empezado. no como es una sola página no se demora mucho, es un centro de cálculo muy potente, entonces no creo que se demore, por ejemplo la segmentación se demoró 11 segundos y vamos a ver cuánto demora la transcripción del texto, ya los puso, y ya me aparece aquí la transcripción, de la cor 73, son de tema, de tema, y ya es casi el suave, bueno, nosotros utilizamos para las veces largas este símbolo, porque en el 17 y en el 16 no se utilizaban los dólares, y porque es un símbolo que está muy cercano, digamos, en el teclado para escribir o para transcribir las heces largas, después eso se puede simplemente reemplazar con una expresión y ya, digamos resolverlo, pero digamos en términos éticos interdisciplinares, nosotros guardamos las heces largas porque hemos tenido colegas filólogos que estudian el estado de la lengua en un momento específico, pues si les podemos brindar material que que esté correctamente transcrito, pues está bien, ya no nos quita tanto, pues digamos no nos apunta tanto trabajo y nos permite también, si en algún momento queremos hacer ediciones críticas, poder restaurar pues como la forma original en la que estaba manifiesto el texto, pero vean este modelo funciona sumamente bien. Los acentos los consigue bien, como uno, lo reclamo está bien, las mayúsculas están bien. Muchas veces lo que pone problema son, bueno, este texto está sumamente limpio también, pero muchas veces lo que pone problema es las mayúsculas o los números, porque en muchas ocasiones no hay suficiente porcentaje de números y de mayúsculas dentro de los textos para el reconocimiento, entonces en el entrenamiento del modelo digamos él puede tener más dificultades con los números y con las mayúsculas porque no hay tantas, no sé si tengan otras preguntas si vamos a hacer o si seguimos avanzando en la en el ejercicio pues como de la de la transcripción con las tres personas que están, que están ahí en el...

Speaker 3: Andrés, una cosa que me quedó ahí de lo que dijiste, con este uso de este símbolo del dólar para esa S de dólar, era solamente, bueno...

Speaker 1: es para la S larga, si me aparecen dos S largas, pongo dos símbolos de dólar,

Speaker 3: ustedes a tener en cuenta. Pero entonces ustedes ya dejan el texto así, lo exportan así y ya después reemplazan con el, en el sistema de análisis. No necesariamente, porque yo

Speaker 1: paso por Text and Coding Initiative antes de entrar en la etapa de análisis, por ejemplo, este es uno de los libros, digamos esta es una de las primeras exportaciones del proyecto. Entonces, yo lo que hago es hacer expresiones regulares que me permitan, digamos, reconocer partes del documento y hacer transformaciones puntuales y poder, digamos, tener un texto lógicamente etiquetado y constituido, pues, en la forma en la que aparece

Speaker 3: pues, en la obra. Ya, ya, ya, entiendo. Bueno, super, gracias.

Speaker 1: Pero mira que, por ejemplo, aquí yo todavía tengo los símbolos de dólar. Yo lo que hago es que cuando voy a hacer un procesamiento posterior, simplemente hago una copia que va a tener en lugar de dólar S y ya.

Speaker 3: Entiendo, perfecto.

Speaker 1: Ah bueno, de ahí se me sale, digamos, otra cuestión que es importante tener en cuenta y es que, dada la metodología del entrenamiento del modelo, y esto va en el sentido de lo que preguntabas Danilo, cuando tienes caracteres que no existen en la forma actual de la lengua, supongamos que esta Y es otra letra, es una letra extraña o es un símbolo extraño, vamos a decirle, esto es todo yo, que estamos transcribiendo, y llegamos a esta letra aquí, digamos que es una letra extraña, pero que se repite algunas veces dentro del documento, yo lo que puedo hacer es simplemente etiquetar esa letra desde ya, aquí de esta manera, para reconocerla lo que hago en esos casos es esto, y dado que la metodología digamos que utiliza transcribos, como es de word in context, como es de palabras en contexto, me va a reconocer esa letra como esta expresión completa que estoy mostrando acá. Ah, qué bien. Eso es una, digamos, una de las de las de las posibilidades que tiene, que tiene Transcribus y que se insertó por allá en el 2019, cuando cuando surgió la necesidad dentro de la, dentro del reconocimiento de diccionarios antiguos. Teníamos muchos caracteres que venían de otras partes, entonces no podíamos, digamos, digitalizarlos con el UTF-8, pues, que es el formato que utilizamos en TIAIA. Otras preguntas.

Speaker 5: No hay más preguntas, voy a venir aquí y voy a seguir.

Speaker 1: Si, pero es lo que estaba explicando ahorita, el tema de los metadatos recolectados por transcribus requieren una exportación en el formato madre, digamos en el formato raíz de transcribos, entonces yo no lo aconsejaría, yo aconsejaría más bien que lo tratara sin TI después. Exactamente. Exactamente.

Speaker 5: Ah, no te preocupes.

Speaker 1: O sea, y si las personas que habían puesto el correo, ¿aparecían o no aparecían? aparecían o, pues, si han estado trabajando, no quiero hacer como, bueno, vamos a mirar aquí, no, no me aparecen. Las personas a las que agregué a la colección no me aparecen aquí, Y aquí, pues, como en la sesión de trabajo. Pues, no sé. A mí me parecía interesante también como proponerles las respuestas, digamos, lanzando, haciendo esta segmentación manual y posteriormente haciendo una segmentación automática para que vieran la diferencia. Hacer la segmentación manual es un ejercicio que siempre ayuda, pues digamos que lo fuerza a uno a comprender la lógica de la herramienta y a adaptarse, porque no es, pues es muy intuitivo, pero es necesario como familiarizarse con la forma en la que se manifiestan las cosas. Muchas veces cuando uno está pensando hace movimientos que no entiende. Y por eso, pues, digamos que propuse que lo hiciéramos de forma más práctica. Pero si no, pues voy a terminar aquí y les voy a mostrar. Y les voy a mostrar cuál es el segundo método de segmentación, que es el mismo que utilizamos ahorita para el texto impreso, entonces voy a guardar y pasar de página. Aquí está la página, ah bueno, esta es la página que hizo Rebeca, no sé, es que no escucho a Rebeca, no escucho a Rebeca.

Speaker 6: Y hola, no, es que en el lugar donde estoy la conexión está como medio instable, entonces no pude descargar el programa.

Speaker 1: Listo. Pero bueno, voy a simplemente eliminar esto y les voy a mostrar aquí con la herramienta. En el análisis de capas, vamos a lanzar el reconocimiento de regiones de textos en esta página que revisen siempre cuando vayan a lanzar un modelo, tanto de reconocimiento de segmentación como de transcripción. Revisen cuál es el lugar donde están emplazados, como dónde están puestos ustedes. Si están en la página presente o si están marcando una serie de páginas. Recuerden que cuando marcan una serie de páginas, eso les muestra todo el documento. Si ustedes ya hicieron una segmentación manual de una página y le piden al sistema que lo vuelva a segmentar, se lo va a segmentar a su manera, simplemente borrando todo lo que ustedes hicieron. Si vuelven a pagar una transcripción sobre una página que ya hayan transcrito, ellos van a borrar la transcripción que ustedes hicieron para poner la transcripción automática de la máquina. Entonces, digamos que es importante que tengan eso en cuenta. Danilo, te escucho.

Speaker 3: Ahí me surgió una duda, porque no me ha quedado claro, quizás no lo he Entendido bien. Cuando hacemos segmentación, ¿también estamos entrenando el modelo para que segmente como queramos o solo el modelo solo se entrena para transcribir?

Speaker 1: El modelo solo se entrena para la transcripción. Yo sé que esa información tiene que quedar en algún lado, pero no existen opciones que le permitan al usuario entrenar un modelo de segmentación. Pero esa información se lleva en algún lado porque yo he tenido muchos problemas de segmentación con documentos que después, digamos, dejo de tener a medida que se van haciendo por cuestiones de las márgenes. Yo no sé si es que lo van integrando ellos desde desde su desde su desde su plataforma. Digamos allá los austriacos, si ellos lo lo lo lo van integrando o es el sistema que lo que lo empieza a reconocer. No, no estoy, no estoy seguro, pero, pues yo digo que eso queda en algún lado, pero, pero no sé exactamente dónde, porque ellos tampoco han abierto el código, no han hecho como los muchachos de Scriptorium que no solo han abierto los códigos, sino que también hay este sitio que les voy a mostrar aquí. HTR United, no sé si conocen este sitio, este sitio tiene, digamos, modelos de HTR que son públicos y ustedes pueden, digamos, acceder, digamos, hay explicaciones y aquí en la lista de modelos puestos en Zenodo aparecen, pues, como una serie de modelos que son accesibles a los que se puede, pues digamos, recurrir con herramientas alternativas como, como scriptorio.

Speaker 3: No, yo no conocía este sitio. Genial. HTR United.

Speaker 1: aquí pueden ver el catálogo, aquí en todos los modelos, saben cómo, este Testamentos de los Poliwages, son testamentos de combatientes bretones durante la Segunda, durante la Primera Guerra Mundial, es interesante porque hay muchas, muchas piezas de archivo que no están, digamos, dentro del control, ni de los archivos de la marina francesa, ni dentro de los archivos públicos, entonces porque son archivos que le pertenecen directamente a las familias de estos combatientes. Y bueno, hay muchos, muchos, muchos trabajos por ahí que se están haciendo y digamos que los que van siendo terminados se van publicando acá. CremaLab con el proyecto Crema ha publicado una serie de modelos desde el siglo XI al siglo XIX, creo, o al siglo XX, al siglo XX, esto es interesante, bueno, miren, manuscritos de los 800 a 1199, este es un proceso, es un proyecto que ha tenido una chica, que es un referente muy interesante en el tema de los HTRs y de la configuración de una comunidad de utilizadores del HTR para la transcripción de textos antiguos, no sólo medievales, sino también impreso antiguo, que se llama Ariane Pache. Ahí les pongo el nombre. La nena publica mucho, mucho, mucho, mucho en inglés, entonces, no sé, los que saben inglés pueden acceder.

Speaker 3: Andrés, ¿y cómo ves el estado de estos modelos en español?

Speaker 4: A ver,

Speaker 1: para el español, para el español propiamente existen 7, creo que 7 modelos que están públicos, espérame, vamos a ver los modelos aquí, Spanish, aquí aparecen 5, pero yo había encontrado 7 modelos propiamente,

Speaker 5: voy a buscar por acá

Speaker 1: A ver, los 7 modelos a los que se puede acceder públicamente en castellano, son los siguientes. vean que yo he apuntado por aquí, en esto, en este documento, aquí están los textos, está Spanish Golden Age, impresos de teatro con modernización del deletreado, modelo monolengua en español, y hay uno que es sobre impresos, también del teatro, sin la modernización, o sea, cuando ellos hablan de modernización, cuando este man habla de modernización, que es el que los hizo, se llama Alvaro Cuéllar, hace la modernización en serio, o sea, pone los acentos, todas las diacríticas y todos los acentos como el estado actual de la lengua española. luego también tiene un modelo de manuscritos del teatro con una modernización de la ortografía, digamos que es interesante, está basado sobre un modelo de transcripción de manuscritos italianos, está este modelo que es el modelo para reconocimiento de los manuscritos ya paleográficos de la escritura de Carlos V, del emperador Carlos I, Carlos V, como lo conozcan. entonces este es un modelo interesante para ver, hay dos modelos basados sobre español antiguo, que hizo Stefano Vesaco, que es un italiano dedicado, ahorita está en Sevilla, y está trabajando con documentos antiguos españoles, y va a empezar pronto a trabajar con un archivo del Vaticano, pero entonces él tiene, tiene estas dos, estas dos versiones de español para impresos antiguos, con uno que pone solamente los acentos que se encuentran en el archivo fuente, y otro que es sin acentos en absoluto, entonces, estos son como los modelos a los que se puede acceder públicamente, los modelos de transcripción, los que se puedan acceder públicamente.

Speaker 3: Genial. ¿Conocías ese de Álvaro Cuellar? ¿No conocías los otros dos?

Speaker 1: Pues aquí, mira, aquí está el de Estefano. Los dos de Estefano aparecen públicos acá. Mira, Spanish Gothic y Spanish Redonda.

Speaker 3: Yo creo que la tarea ahí es generar uno para manuscritos más modernos, supongo yo, textos más modernos, en el caso de Juan, ahí tiene la tarea.

Speaker 1: El del caso de Juan, sí, ahí está la tarea, pero pues incluso es para este tipo de manuscritos que se creo transcribos. Entonces, no es una cuestión con la que va a tener demasiadas dificultades. La cuestión será, digamos en un principio, hacer unas 30 páginas. Por ejemplo, esta segmentación automática que hizo el programa, esta segmentación no la hice yo, la hizo el programa, uno en muchas ocasiones lo que puede hacer para saber, cuando uno no se acuerda si hizo las segmentaciones uno o si las hizo el programa, uno lo que hace es poner y mostrar aquí las líneas de base o sea los renglones y cuando aparecen muchos punticos dentro de la línea es porque eso lo hizo el ordenador, uno generalmente no le pone 50 puntos a una línea entonces aquí uno se da cuenta si fue la segmentación que uno mismo hizo o la segmentación que hizo el programa Es importante que aprendan a navegar en los diferentes perfiles de utilización de la aplicación. Y que aprendan a quitar, pues, como digamos, lo que no les conviene visualmente. Yo, por ejemplo, en lo que es personal, yo no utilizo ni las palabras ni las líneas. Yo utilizo solo las líneas bases, o sea, los renglones y las regiones de texto. No sé que otras preguntas hayan, digamos entre todos, por ahí. Gente que ya haya trabajado con la herramienta o que esté perfilando o trabajar con la herramienta. Efectivamente, yo pienso que lo primero, lo primero que tienen que hacer, lo primero que tienes que hacer, por ejemplo, vos que ya tienes este este corpus, es entrenar las primeras 30 páginas, digamos, transcribir las primeras 30 páginas, ya sabes que la segmentación funciona muy bien, entonces puedes hacer la segmentación automática, puedes ir haciendo la transcripción. Está el problema de los, va a haber renglones que estén mal segmentados, entonces es importante. Otra de las herramientas que es interesante saber utilizar, estas tijeritas de acá, estas tijeritas de aquí sirven para recortar cualquier parte de lo que está, de lo que está en esta parte, cualquier elemento de la segmentación. Las tijeras sirven para cortar cualquier elemento de la segmentación. Entonces, digamos que si yo, en lugar de que esto fuese una sola zona de texto, fuese en 2 y que me reconoció 2 columnas como una sola, entonces yo puedo venir y seleccionar esta columna, pues, digamos, esa región y con las tijeritas verticales recortar la selección que yo tenga. Si yo vengo y recorto esto acá, esto me genera 2 regiones de texto y cada una de las regiones de texto con todas sus respectivas líneas. En el caso de que el texto tuviese otro formato. ¿Qué pasa? Si en lugar de que fuera una región de texto es una línea, yo puedo también venir y recortar esa línea. Y efectivamente me quedan dos líneas acá. Yo para pasar de una herramienta a otra utilizo la tecla escape, escape siempre me trae al modo selección. Muchas veces uno se encarniza y empieza a hacer un montón de cortes y ya uno no sabe cómo orientarse, es importante. Entonces, esta nos permite hacer splits, o sea, digamos, hacer la forma o polígonos que queramos y la la horizontal nos permite hacer cortes horizontales, así de sencillo. Entonces, si este va retomando, tienes que hacer las transcripciones de las primeras 30 páginas, lanzar un modelo de entrenamiento y a partir de ahí simplemente empezar a corregir, digamos, avanzar otras 30 páginas que vas a transcribir automáticamente a partir de tu modelo, simplemente corregir los errores y luego volver a lanzar un modelo con la 60.

Speaker 5: Y así vas avanzando.

Speaker 1: Y ya después, por ejemplo, ya cuando tengas texto legible para la máquina, ya pues incluso nosotros ahorita hay un compañero que está trabajando sobre, tenemos cinco o seis documentos que son anónimos, no sabemos quiénes son realmente los autores, entonces la idea es utilizar pues como un modelo de análisis del lenguaje para reconocer los autores, no sé si saben cómo funciona eso, pero es una herramienta que existe, que funciona y que se basa en las palabras vacías del texto. No sé si ese concepto es claro, pero es un modelo que, a diferencia del análisis sentimental, que se basa en las palabras llenas, se basa en las palabras vacías para reconocer la forma en la que un autor escribe. ¿Cómo se hace para poder hacer un análisis del lenguaje sobre un texto? Pues mira, lo que pasa es que, digamos que cuando se hace un análisis del lenguaje sobre, pues cuando se, para poder hacer un análisis del lenguaje sobre un texto, lo que se hace es que se tokeniza ese texto. Y la tokenización del texto no es otra cosa que la identificación de todas las formas que están ahí. Entonces, por ejemplo, un verbo conjugado son dos tokens normalmente, porque está el token del verbo en infinitivo y está el token del sujeto y el tiempo verbal. Déjame entender. Entonces, a partir de esa descomposición del texto en sus partes mínimas, es que el ordenador pueda hacer análisis. Entonces, para el análisis de sentimientos, lo que se hace es que se eliminan las negaciones, se eliminan los artículos, se eliminan muchas preposiciones, se eliminan muchas cosas que son palabras vacías, que no tienen sentido propiamente dentro del texto. Y ya se somete ese contenido textual a un análisis por parte de un algoritmo X. para el tema de la estilometría y del reconocimiento de autores lo que se hace es lo inverso, porque un autor que escribe de forma anónima no va a utilizar las mismas palabras que recurrentemente utiliza, sino que va a tratar de imitar un estilo diferente en muchas ocasiones, entonces lo que se hace es usar la forma en la que utiliza los artículos y todas las palabras que no son palabras llenas de sentido. Y la forma en la que las ubica dentro de las frases para poder identificar los patrones de escritura de la persona. Eso es bastante interesante. Si aquellas personas están El asunto, la cuestión, la cuestión siempre va a ser que se necesitan bases, digamos claras para poder comparar con los escritos, digamos de muestra que se vayan a analizar. Eso es importantísimo. O sea, tener bases claras de lo que ha escrito el autor, de lo que seguro que escribió el autor, para poder identificar lo que no es seguro si escribió o no. Pero incluso por ahí hay textos, hay textos que aparecieron hace poquito de Molière, que ni idea eran anónimos y anónimos, y cuando se les hizo un análisis, el, basado en casi todos los escritores de la época, o sea habían como 19 autores, dio 99% Molière, es. En términos de comparación, los porcentajes eran 8, 9, 12, 15 y 99. Bueno, ahí sí como que interesante. entonces no sé, no sé si hay como otros elementos que alguien quiera juntar o que que alguien quiera consultar. Están las líneas. Aquí es importante escoger si dentro de tus transcripciones, por ejemplo, querés guardar todas estas raturas. Hay los estudios de Flower o los estudios de Zola. Son estudios que conservan todas esas raturas. en una cosa que se llama la transcripción ultradiplomática y que está marcada también por la por la Text and Coding Initiative, creo que la responsable ahorita de esa parte de transcripciones ultradiplomáticas es Elena Pierazzo, Elena Pierazzo que estuvo en la red Carta de Manuscritos Españoles también, es una italiana que trabaja aquí en el Centro de Estudios del Renacimiento. pero bueno hay referentes interesantes ahí, entonces la segmentación, la transcripción, simplemente venir y hacer la transcripción línea por línea, revisar por ejemplo miren este error que hay acá, importantísimo, miren esto, voy a mostrar el orden de lectura de las líneas para que vean cuál es el problema aquí, no sé si lo identificas Esteban no, este es el orden de las líneas, entonces mira, aparece la línea 1, la línea 2, la línea 3, hasta ahí todo está bien, era en la 4 donde estaba Lo que hay que hacer aquí es simplemente corregir, 4, 5, sí, 5 por ejemplo aquí ya

Speaker 3: me cambió. Andrés puede repetir, ¿qué estás haciendo ahí que no alcance a percibir?

Speaker 1: estoy a bueno aquí en los en los en la visualización pues de las diferentes partes lo que hice fue mostrar las el orden de lectura de las líneas porque me di cuenta que había un problema entonces 1 2 3 4 5 va a decirle que estas las 6 o le puedo decir para que se equivoque menos que estas la 4 diciéndole haz esto para el resto pero aquí hay un problemisha porque siento que me está reconociendo la porque miren donde me puso la línea 5 esto es muy problemático con transcribos y era lo que les exponía al principio el problema del orden de las líneas, 1, 2, 3, 4, 5, 6,

Speaker 5: 4, 5, 6, 7,

Speaker 1: por ejemplo mira aquí mira este es otro problema muy recurrente con los documentos por ejemplo esta línea te la partí en dos yo lo que hago es que eliminó una y estiro la otra acoge uno de los punticos y las tiro 8, 9 10 aquí también tiene el mismo problema lo que hago es eliminar

Speaker 5: prolongar

Speaker 1: 12, 13, 14, 15, 16, 17, entonces de aquí ya la empezó a reconocer, 18, 19, 20, 21, 22, 23, y aquí hay otro problema, 24, 25, 28, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, ahí ya está bien el orden, entonces es importantísimo digamos controlar esos elementos dentro del texto, que es algo con lo que se van a encontrar después cuando uno está haciendo la transcripción y empieza a buscar las líneas y resulta que le pasa de aquí de la tercera a la parte final de la

Speaker 4: página. Digamos que es... Sí.

Speaker 1: Y después de haber hecho los reconocimientos, ustedes pueden ver también el orden de lectura de las palabras. Es importante tener en cuenta esas herramientas. ustedes pueden ver también el orden de lectura de las palabras, es importante tener en cuenta esas herramientas, Ahí está. Entonces, aquí en metadatos, lo que me preguntaban es, Esteban, esto se puede poner acá. Están los metadatos textuales y los metadatos estructurales. Esto es lo lo que son párrafos, lo que son marginarias, notas al pie de página, las reclamas, esto las reconoce como footnote continuity, pero pues ya hice pruebas y el problema es el tema de la explotación. Y si uno no puede recuperar el texto, pues, es, en realidad no es tan interesante pues si uno no puede recuperar todas las informaciones que está, que está cuestión, la otra cuestión es que cuando uno hace exportaciones aquí en transcribus, que esto es importante tenerlo en cuenta, cuando uno hace las exportaciones a partir de este botoncito acá arriba, uno puede escoger el formato, es cuando está en TI uno puede escoger si las líneas uno las va a poner simplemente con una etiqueta de line break, que es una etiqueta que se cierra sola o si quiere que toda la línea salga metida entre dos etiquetas LINE. Pero hay que tener en cuenta que las etiquetas LINE se utilizan sólo para la poesía en TI. Entonces, uno puede, digamos, establecer si quiere que el programa le etiquete las zonas de texto, todas las regiones de texto. El problema es que no es muy clara la forma en la que TranscribeUSA hace el corte de los polígonos. Normalmente, para la Text and Codeine Initiative, la herramienta que se utiliza para editar los polígonos de las imágenes, las segmentaciones está en el, en el, es el,

Speaker 5: es el Jsoner,

Speaker 1: hace parte del aparato crítico pues, esta es la herramienta digamos que se, que se que se priorizan en su utilización para la segmentación de imágenes en TI. Esperen, busco una imagen. Vamos a buscar una imagen aquí, aquí está. Entonces, esta es como la herramienta, digamos, vamos a priorizar para la segmentación de imágenes en TI. Después de que uno hace, pues, como todo el trabajo de transcripciones del diccionario universal. Lo que pasa es que, bueno, voy a quitar los puntos. Esta herramienta se utiliza poniendo unos puntos para crear los polígonos, uno lo que hace es dibujar el polígono o el rectángulo que dibujó, poniendo el punto en la esquina superior izquierda e inferior derecha, y ya luego uno puede ver la zona en la etiqueta GI, que uno puede recuperar directamente para ponerlo en el documento GI. Entonces, a evitar también pues el problema es que los polígonos que hace transcribus no son los más adecuados entonces digamos que es otro de los problemas que tiene esta plataforma en términos pues como de lo que sería edición crítica digital y bueno no sé no sé si hay más preguntas y hay más cosas ya todo el mundo se está yendo Sí, ya llegó el momento, pues, como de cerrar. Entonces, bueno, ahí les dejo como esta herramienta. Yo pienso que habrá otros momentos para hablar como de otros temas respecto al tratamiento de los textos, pues, que sean como etapas posteriores. No sé, no sé, o tratar de, a participar, yo trataré si los horarios son adaptables a mis horarios pues de acá, pero pues bueno, a disposición, ahí los que están, los que pasaron pueden tener, tienen el correo electrónico, sino a través de este número me pueden contactar y ya, es todo.

Speaker 6: de la comunidad de Humanidades

Speaker 1: No, con muchísimo gusto Rebeca con mucho gusto y pues la idea pues como como en este espacio yo pienso que la idea sería que en próximos encuentros podamos trabajar con con los propios proyectos de ustedes porque en la comunidad de Humanidades Digitales uno de los de las cosas que yo identifico como muchas de las formaciones se hacen con un montón de datasets que ya están limpios, preparados, súper organizados, súper bien estructurados. Entonces, todo se ve muy bonito, todo funciona sumamente bien, pero después es un problema gigantesco cuando uno quiere hacer la misma tarea con sus propios datos. Entonces, pienso que en esos términos es mucho más interesante, digamos, poder trabajar a partir de los documentos y de los proyectos que ustedes mismos tengan dentro del observatorio. Ya yo quedo ahí abierto y hago un correo electrónico de distancia. Y muchísimas gracias por la invitación.

ai AI Insights
Summary

Generate a brief summary highlighting the main points of the transcript.

Generate
Title

Generate a concise and relevant title for the transcript based on the main themes and content discussed.

Generate
Keywords

Identify and highlight the key words or phrases most relevant to the content of the transcript.

Generate
Enter your query
Sentiments

Analyze the emotional tone of the transcript to determine whether the sentiment is positive, negative, or neutral.

Generate
Quizzes

Create interactive quizzes based on the content of the transcript to test comprehension or engage users.

Generate
{{ secondsToHumanTime(time) }}
Back
Forward
{{ Math.round(speed * 100) / 100 }}x
{{ secondsToHumanTime(duration) }}
close
New speaker
Add speaker
close
Edit speaker
Save changes
close
Share Transcript