[Soci SLIP] unicode

Lucio Crusca lucio a sulweb.org
Lun 9 Lug 2012 16:06:50 CEST


In data lunedì 9 luglio 2012 09:48:32, llcfree ha scritto:
> (Ri)pensando alla questione della standardizzazione dei caratteri

Immagino ti stia stufando di scrivere le accentate usando l'apostrofo... :)

> (senza
> la quale non e' pensabile una standardizzazione dei formati, ovviamente,
> visto che ogni formato e' un insieme di caratteri)

I caratteri sono entità astratte e definire un formato standard è 
tranquillamente possibile (e lo si fa continuamente) in modo indipendente 
dalla *rappresentazione* *concreta* (ovvero in sequenze di bytes) dei 
caratteri stessi all'interno di un file. Basta includere nella specifica del 
formato (nella RFC intendo) quale encoding di caratteri deve essere usato in 
tutto il formato, oppure prevedere che il formato usi un set di caratteri 
universalmente riconosciuto (ASCII) solo nell'intestazione, e prevedere, 
nell'intestazione, un campo per specificare in quale altro encoding è stato 
creato il resto del documento (tipo quel che capita in HTML, o XML, o email, 
etc...).

Concordo comunque che il problema della rappresentazione dei caratteri 
richieda attenzione, ma non per il discorso dei formati.

BTW, hai ancora ricevuto email con caratteri strani come succedeva a volte 
qualche mese fa?

> mi e' venuto in mente
> che i programmatori sono soliti usare %c (c come carattere) e questo non
> puo' piu' funzionare con unicode (in cui la rappresentazione dei
> caratteri richiede uno o PIU' bytes). Come si fa? Si usa %s (s come
> string)?

Sì, che io sappia. Anche questo però pone dei problemi, in quanto, usando 
UTF-8:
 
  strlen("è") == 2

perché strlen ritorna il numero di caratteri (intesi erroneamente come bytes) 
di cui è composta la stringa. 

> Certo bisogna porsi il problema per il nuovo codice che verra'.

Credo che i programmatori C se lo siano già posto e lo abbiano già risolto da 
un pezzo, solo che noi non conosciamo la soluzione, ma è solo una mia 
impressione. Tiro ad indovinare: secondo me esiste una libreria che permette 
di gestire le problematiche relative all'encoding dei caratteri.

> A livello due, poi, c'e' il problema dei fonts standards per
> rappresentare i caratteri unicode.

Non capisco in che senso questo sarebbe un problema. Mi risulta che esistano 
già i fonts con i glifi necessari un po' per tutte le lingue del mondo, mi 
sbaglio?




Maggiori informazioni sulla lista Soci