[Soci SLIP] digitalizzazione

Loredana Lo Conte llcfree a gmail.com
Dom 20 Feb 2011 08:53:37 CET


Stavo per aggiungere OT quando ho letto che il progetto e' open source.

Parlo del progetto di digitalizzazione dell'archivio di La Stampa, la
cui descrizione semitecnica e' disponibile qui:
 
http://www3.lastampa.it/archivio-storico/schede/cifre-e-dati-del-progetto/

Si trattava di passare da microfilm ad immagini e poi da immagini a
testo. Il progetto e' mostruoso e le difficolta' pure. E' curata la
parte tecnica e formale, ma non i contenuti. Provate a cercare una
pagina a caso, quella del vostro compleanno, per esempio. Nella mia ci
sono talmente tanti errori dovuti al riconoscimento dei caratteri da
risultare incomprensibile. La ricerca potete farla qui:

http://www3.lastampa.it/archivio-storico/

E pensare che basterebbe separare testo e immagini e poi ricomporli
in un formato a piacere (magari usando LaTex :) per semplificare il
tutto enormemente, sia in termini di spazio, sia, soprattutto, in
termini di qualita' e leggibilita', che poi e' (dovrebbe essere)
l'obiettivo di chi scrive. E' impossibile correggere gli errori di
un OCR a mano su 150 anni di giornale, a meno di dar le pagine
digitalizzate in pasto alle persone, con un wiki o qualcosa del
genere.  

Quegli errori nel testo originale non c'erano, bastava usare e
conservare il file di testo.

Non si poteva fare 150 anni fa, ma si puo' fare oggi. Cosi' come si
possono usare formati standard per i testi, leggibili per sempre, e ora
anche strumenti standard per la riproduzione dei video (le immagini, un
problema solo fino a pochi anni fa, non lo sono piu' ora, a dimostrare
che il progresso c'e' stato, eccome).

Chissa' se imparano dall'esperienza? Secondo me, bisogna dare
un'occhiata ai problemi complessi per capire le ragioni di chi difende
formati standard e software libero e come si stia parlando di qualcosa
che va ben al di la' del semplice pubblico dominio, gratuito, open
source.

Per il discorso banche dati/xml, nel progetto l'xml e' usato solo per
i parametri, tutti i dati sono in oracle (ahime'). Non potrebbe essere
diversamente, si parla di terabytes interrogabili e un moltiplicatore
come l'xml non se lo puo' permettere nessuno. Pero' un database libero
si', direi. Qualcuno ha idea se ci siano limiti in mysql e company da
rendere oracle indispnesabile per questo tipo di progetti?

Loredana 






Maggiori informazioni sulla lista Soci