La Diputación de Barcelona, entre sus múltiples funciones, gestiona el Boletín Oficial de la Provincia de Barcelona (BOPB), que es un instrumento de información pública que utilizan el conjunto de las administraciones públicas que operan en el ámbito geográfico provincial para dar a conocer su gestión, hacerla más transparente y permitir la participación de los ciudadanos. Esto supone ofrecer la publicación y publicidad de estos contenidos, incluido el acceso a los datos históricos que en el caso del BOPB se remontan hasta 1833. Aunque los datos de los anuncios en los últimos años están totalmente estructurados, los boletines anteriores a los años 2000, si bien están digitalizados (documentos en pdf o tiff), no se ofrecen de manera estructurada (etiquetas, fechas, anunciantes, etc.) y por tanto no es posible realizar búsquedas, y el usuario se ve obligado a consultar documentos por fecha.

La Diputación de Barcelona se propone dar un paso significativo hacia la modernización y accesibilidad de documentos históricos, y para alcanzarlo ha puesto en marcha un proyecto que busca realizar este trabajo de manera automatizada y mediante el uso de la Inteligencia Artificial, en detrimento de soluciones de catalogación manuales. Es necesario tener en cuenta que hay que actuar sobre más de 50.000 boletines, publicados desde 1833 a 1997, con millones de anuncios a catalogar. La resolución mediante técnicas automatizadas tiene como objetivo acelerar el proceso y reducir los trabajos y el coste necesario.

Mediante la adjudicación a PROMETEO de este contrato, se realizará el tratamiento y preparación documental de los anuncios del BOPB entre 1833 y 1997, para obtener los metadatos esenciales de cada anuncio, facilitando así su indexación y el acceso a través de buscadores. Se emplearán diversas tecnologías relacionadas, como:

  • El tratamiento avanzado de imágenes.
  • El reconocimiento avanzado caracteres (OCR).
  • Técnicas de lenguaje nartual (LNP), para la reconstrucción de textos, considerando además la evolución en el lenguaje entre esos años.
  • El uso de la Inteligencia Artificial para obtener el reconocimiento de elementos y códigos; y la elaboración de resumenes y clasificaciones.
  • La generación de ficheros .txt y .json con los datos de salida: texto de cada anuncio, y sus metadatos.
  • El tratamiento masivo de ficheros, y el procesamiento de los mismos a través de la generación de herramientas específicas.

Este proyecto no solo mejora la accesibilidad a documentos históricos de gran valor cultural y administrativo, sino que también abre nuevas oportunidades para la investigación de documentos históricos. Este proyecto es un gran avance de la Diputación de Barcelona y subraya su compromiso con la preservación y democratización del acceso a su patrimonio documental, en respuesta a la creciente demanda de acceso digital a documentos históricos. 

Si necesitas una solución similar para modernizar el acceso a documentos históricos o cualquier otro servicio relacionado con Inteligencia Artificial, ¡contáctanos! Estamos aquí para ayudarte a transformar tus datos en información accesible y útil.