caratteri strani, era Re: Re: R: [Soci SLIP] [OT] Acqua bene comune: Salviamo i Tumpi

loredana llcfree a gmail.com
Mar 18 Set 2012 14:00:33 CEST


On 9/17/12, Gianluca Boero <gianlucaboero a alice.it> wrote:
> Il 17/09/2012 21:01, loredana ha scritto:
>
>> Ecco qui un purche' strano, era normale nel messaggio di Roberto, me
>> lo ritrovo non normale nel messaggio di Alessandro (solito accento
>> circonflesso rovesciato sulla c, ma come diavolo si chiama
>> quell'accento?). Io prendo nota tutte le volte che capita, prima o poi
>> si capisce :)
>>
>> Loredana
>>
> Il simbolo è presente nella tabella dei caratteri sotto ogni font.
> Ad esempio su Ubuntu lingua Latina, font Bitstream Charter (il primo
> della lista) nei dettagli della lettera Č (ho fatto copia incolla non è
> un carattere strano) c'è il nome U+010C LATIN CAPITAL LETTER C WITH CARON
>
> Rapida ricerca in rete ed ho trovato
>
> http://en.wikipedia.org/wiki/Caron
>
> Su questa pagina di Wikipedia trovi alcune parole accentate in questo
> modo, si utilizza nei paesi slavi.
> Le vedi nella voce accentuazione.
>
> http://it.wikipedia.org/wiki/Differenze_tra_serbo,_croato_e_bosniaco

Ottimo, ci si avvicina. Ora, si da' il caso che la e con accento grave
di "purche`" come inviata da Roberto B (il penitente, come va con la
musica folk? :) che a me arriva bene da Roberto e come c con caron da
Alessandro P. abbiano la stessa codifica ascii estesa, E8: la e` in
latin-1 e la c con caron in latin-2:

http://www.kreativekorp.com/charset/encoding.php?file=iso-8859-2.kte&char=E8
    * Full Character Name: LATIN SMALL LETTER C WITH CARON
    * Character Type: Ll - Lowercase Letter
    * Combining Class: 0 - Spacing and Enclosing Marks
    * Bidi Class: L - Left-to-Right
    * Decomposition: 0063 030C
    * Bidi Mirrored: No
    * Uppercase Version: LATIN CAPITAL LETTER C WITH CARON
    * Titlecase Version: LATIN CAPITAL LETTER C WITH CARON
    * Unicode Block: Latin Extended-A (0100-017F)
    * Unicode Code Point, Decimal: 269
    * Unicode Code Point, Hexadecimal: U+010D
    * HTML Character Entity, Decimal: &#269;
    * HTML Character Entity, Hexadecimal: &#x10D;
    * Keystroke, Windows: Alt+0269
    * Keystroke, Macintosh, U.S. Extended: Option-V, C
    * Keystroke, Macintosh, Unicode Hex Input: Option-010D
    * ISO 8859-2 Encoding: E8
    * UTF-8 Encoding: C4 8D
    * UTF-16BE Encoding: 01 0D
    * UTF-16LE Encoding: 0D 01
    * UTF-16LE Encoding: 0D 01
    * UTF-32BE Encoding: 00 00 01 0D
    * UTF-32LE Encoding: 0D 01 00 00

http://www.kreativekorp.com/charset/encoding.php?file=iso-8859-1.kte&char=E8
    * Full Character Name: LATIN SMALL LETTER E WITH GRAVE
    * Character Type: Ll - Lowercase Letter
    * Combining Class: 0 - Spacing and Enclosing Marks
    * Bidi Class: L - Left-to-Right
    * Decomposition: 0065 0300
    * Bidi Mirrored: No
    * Uppercase Version: LATIN CAPITAL LETTER E WITH GRAVE
    * Titlecase Version: LATIN CAPITAL LETTER E WITH GRAVE
    * Unicode Block: Latin-1 Supplement (0080-00FF)
    * Unicode Code Point, Decimal: 232
    * Unicode Code Point, Hexadecimal: U+00E8
    * HTML Character Entity, Decimal: &#232;
    * HTML Character Entity, Hexadecimal: &#xE8;
    * Keystroke, Windows: Alt+0232
    * Keystroke, Macintosh, U.S.: Option-`, E
    * Keystroke, Macintosh, U.S. Extended: Option-`, E
    * Keystroke, Macintosh, Unicode Hex Input: Option-00E8
    * ISO 8859-1 Encoding: E8
    * UTF-8 Encoding: C3 A8
    * UTF-16BE Encoding: 00 E8
    * UTF-16LE Encoding: E8 00
    * UTF-32BE Encoding: 00 00 00 E8
    * UTF-32LE Encoding: E8 00 00 00

Percio': quando mi arriva da Roberto B. il browser (alla fine) e tutto
cio' che ci sta in mezzo probabilmente indovina correttamente che quel
codice E8 corrisponde a iso-8859-1 (latin-1), cioe' al carattere
accentato italiano, mentre quando lo stesso messaggio viene girato da
Alessandro P (ma era successo con altri, in precendenza), in qualche
modo qualcuno lungo il cammino "sbaglia" a indovinare e pensa in
croato, traducendomi lo stesso codice E8 con un bel c con caron di
marca iso-8859-2.

Ora che sappiamo cos'e', non ci resta che capire perche'. Notare che
il mio setup e' inglese, non italiano, percio' questo spiega anche
perche' agli altri non succeda. In un messaggio che viaggia da
italiano a italiano, chiunque indovini lungo il percorso ha buon gioco
ad azzeccarci (latin-1 invece che latin-2, visto che si tratta molto
piu' probabilmente di italiani e non di croati, macedoni etc).

Ora si puo' fare una domanda piu' precisa: Alessandro P., il tuo setup
(il locale) quando mi hai girato il messaggio di Roberto) qual era?

Ovviamente, non c'e' nulla di strano nei caratteri. Uso "caratteri
strani" nel soggetto solo per riuscire a ritrovare in un battibaleno
tutti i messaggi relativi. A memoria: la cosa succede raramente,
finora solo Alex P., Davice C., Lucio e Alessandro P.

Prima o poi si scopre il perche'. Poi qualcuno ci puo' fare un talk al
GNU/linux day :)

Lo so, lo so, se qualcuno vi dicesse che tutti i vostri problemi di
compatibilita' di formati etc dipendono PRIMA di tutto dal non aver in
modo esplicito il set di caratteri usati nei vari files di testo (mail
e altro) che van in giro voi non ci credereste...

Immaginarsi solo cosa succede con immagini e video, se tanto casino si
puo' fare con il semplice testo.

Loredana




Maggiori informazioni sulla lista Soci