[Soci SLIP] contare i digrammi

Andrea Primiani a_primiani a alice.it
Sab 14 Lug 2012 18:18:46 CEST


per un software di scrittura facilitata, ho bisogno di avere delle liste
di frequenza delle lettere e dei digrammi (coppie di lettere) che il
programma usa per predire la prossima lettera in base all'ultima inserita.

Ho trovato un paio di programmini (uno in C e uno in Perl) che leggono
un testo in input e sputano le statistiche. Funzionano, ma quando gli do
in pasto il 'Corpus PAISA' <http://www.corpusitaliano.it/> cioe' una
raccolta di 1,5 GB di testi presi da giornali libri... si bloccano:
immagino si tratti di problemi legati alle dimensioni delle variabili.

Un altro problema e' che avrei bisogno anche di conteggiare la frequenza
dello spazio considerandolo come una lettera.

Qualcuno ha tempo/voglia di dare un'occhiata e suggerire rimedi? Sono un
dilettante di C e un ignorante di Perl.

Grazie AP
-------------- parte successiva --------------
Un allegato non testuale è stato rimosso....
Nome:        freq_count.c
Tipo:        text/x-csrc
Dimensione:  1254 bytes
Descrizione: non disponibile
Url:         http://mailman.pinerolo.linux.it/pipermail/soci/attachments/20120714/01f0e061/freq_count.bin
-------------- parte successiva --------------
Un allegato non testuale è stato rimosso....
Nome:        MakeCharList.pl
Tipo:        text/x-perl
Dimensione:  1121 bytes
Descrizione: non disponibile
Url:         http://mailman.pinerolo.linux.it/pipermail/soci/attachments/20120714/01f0e061/MakeCharList.bin


Maggiori informazioni sulla lista Soci