zjisteni kodovani souboru

Dan Lukes dan at obluda.cz
Tue Mar 24 07:47:15 CET 2009


Jaroslav Votruba napsal/wrote, On 03/24/09 06:01:
> myslím si , ze nemate pravdu. 

Opravdu pravdu ma ...

> Pokud vytvorim prazdny soubor v UTF8 a otevru jej pak ve Widlich v PSpadu, tak mi hned ukaze, jake kodovani ten 
> soubor ma.

Nejmene jeden z nas nerozumi tomu, co je to kodovani. Sice uz to tu 
jednou padlo, ale jeste jednou.

Soubor je nejaka hromadka byte.

Kodovani, to je to, co rika, ze "kdyz ten byte ma hodnotu 65, tak budeme 
mit za to, ze v tom miste je pismenko a"

Ruzna kodovani jsou ruzna prave v tomhle - zatimco kodovani
ISO-8859-2 rika "kdyz je byte 154, tak pismenko je 's' s hackem"
tak
CP1250 rika o teze hodnote, ze je to 'z' s hackem.


Jeste jednou - kodovani rika, jake pismenko odpovida te-ktere hodnote byte.

Pokud je soubor PRAZDNY pak neobsahuje zadny byte. Otazka jakemu 
pismenku takovy zadny byte odpovida nema rozumny smysl. Prazdny soubor 
nema a nemuze mit zadne kodovani.

Provedeny test s prazdnym souborem nerika nic smysluplneho.

Musis to otestovat znovu - s neprazdnym souborem. Z praktickych duvodu 
se vykasli na UTF-8. Sezen si NEPRAZDNY soubor v kodovani ISO-8859-2, 
KOI8R, CP1250 a CP852 a zkousej to na nich.

ENCA se snazi kodovani uhodnout - a muze se ji to i podarit, pokud jsou 
podminky priznive. Ale porad je to hadani, ktere nemusi vyjit.

Staci si predstavit vetu:

Na stole lezela kuže.

Nikdo - ani enca, a dokonce ani ty nedokazes z teto jedne izolovane vety 
poznat v jakem je kodovani. Bud' je to v ISO-8859-2 a rec je o pokozce). 
Nebo je kodovani CP1250 a rec je o rucni strelne zbrani. Nikdo, ani 
enca, ani ty, bez EXTERNI vedomosti o kodovani nedokazes rict, o cem je 
v teto vete doopravdy rec. A to vubec nemluvim o tom, ze by to mohlo byt 
treab v ISO-8859-5 a pak ta veta proste nema semanticky smysl - ale furt 
je to platny text v tomto kodovani.

Bohuzel se mi nepodarilo narychlo vymyslet dve slova, ktera by slo 
pouzit ve stejne vete a lisily by se jen pritomnosti s/z, takze mi to 
nesedi jeste o krouzek nad 'u', ale i tak je doufam videt o cem je rec.

Klidne pouzij tu encu - ona to ve vetsine pripadu uhodne spravne. To ale 
nic nemeni na tom, ze to v nekterych pripadech muze urcit NAPROSTO blbe 
aniz by ti to rekla - protoze neni sance, jak poznat, ze to neurcila 
spravne. Z uvedeneho prikladu vyse snad jasne plyne, ze spravne kodovani 
nemusis byt schopen poznat ani ty sam.

					Dan







More information about the Users-l mailing list