C-ArtE (Corpus del Arte Español)

¿Cómo se ha realizado?

Digitalización

El trabajo de digitalización y conversión en texto de las obras fuentes procedentes del Archivo Azcárate. Se han seleccionado los textos del Archivo Azcárate que iban a pasar al corpus. No se han seleccionado los diccionarios ni las obras con poquísimas referencias, ni las obras de literatura. Entre los XX textos seleccionados como definitivos el orden de procesamiento se ha hecho dando prioridad a los textos que han sido citados con más frecuencia en el Archivo Azcárate. Hasta el día de hoy las obras que están en formato digital se han dividido en dos categorías: libros y artículos.

Actualmente el proceso de trabajo se ha divido en tres fases: fase de conversión de la obra en PDF a Word (Para la conversión de los PDF a Word se han utilizado los programas ABBY FineReader, Google Docs y Adobe Acrobat), fase de revisión en la edición de Word y la fase de unificación de los criterios compartidos por el equipo. Estos son: eliminación de los pies de página y encabezamiento y de la numeración; eliminación de todas las imágenes y tablas; posicionamiento de las notas al final del texto; textos en formato arial 11 y las notas arial 10; corrección ortotipográfica.

Creación de metadatos

Se ha pensado y decidido crear un archivo en Excel que contuviera los metadatos del corpus. Se ha denominado Datos-Fuentes-AA-Filtros. Este archivo contiene la información completa correspondiente a cada fuente. Gracias a estos datos se puede generar en el futuro un nombre icónico para denominar el archivo de cada texto que contenga los apellidos del autor sin espacios, barra baja, el título abreviado como está en el Archivo, barra baja, y la fecha de publicación.

Está estructurado con informaciones que serán útiles como metadatos del corpus y otras útiles para crear una bibliografía del corpus o para poder saber más sobre el proceso del trabajo. Esta es la denominación y el contenido de cada una de las columnas de la hoja de Excel:

Autor; Título libro/Título revista o miscelánea; Autor artículo; Artículo en revista o miscelánea; Vol./Tom. Núm. Libro/Revista; De pág.; A pág.; Fecha publicación; Siglo edición; Editorial; Lugar de publicación; Tipo de texto asignado; Materia de la ficha bibliográfica; Materia.

Los datos incluidos en Tipo de texto asignado han sido atribuidos por el grupo de investigación (biografías, boletines, textos divulgativos, revistas, documentos, documentos de archivos, manuales, misceláneas, textos técnicos, textos de arquitectura, textos de escultura, tratados y ensayos). Para ofrecer una referencia objetiva respecto a la materia tratada en cada una de las obras se ha incluido una columna Materia de la ficha bibliográfica con la asignación que se encuentra en la ficha bibliográfica de cada obra. Se ha simplificado sucesivamente en el metadato Materia dejando tan solo las categorías más generales.