zjisteni kodovani souboru
Dan Lukes
dan at obluda.cz
Tue Mar 24 07:47:15 CET 2009
Jaroslav Votruba napsal/wrote, On 03/24/09 06:01:
> myslím si , ze nemate pravdu.
Opravdu pravdu ma ...
> Pokud vytvorim prazdny soubor v UTF8 a otevru jej pak ve Widlich v PSpadu, tak mi hned ukaze, jake kodovani ten
> soubor ma.
Nejmene jeden z nas nerozumi tomu, co je to kodovani. Sice uz to tu
jednou padlo, ale jeste jednou.
Soubor je nejaka hromadka byte.
Kodovani, to je to, co rika, ze "kdyz ten byte ma hodnotu 65, tak budeme
mit za to, ze v tom miste je pismenko a"
Ruzna kodovani jsou ruzna prave v tomhle - zatimco kodovani
ISO-8859-2 rika "kdyz je byte 154, tak pismenko je 's' s hackem"
tak
CP1250 rika o teze hodnote, ze je to 'z' s hackem.
Jeste jednou - kodovani rika, jake pismenko odpovida te-ktere hodnote byte.
Pokud je soubor PRAZDNY pak neobsahuje zadny byte. Otazka jakemu
pismenku takovy zadny byte odpovida nema rozumny smysl. Prazdny soubor
nema a nemuze mit zadne kodovani.
Provedeny test s prazdnym souborem nerika nic smysluplneho.
Musis to otestovat znovu - s neprazdnym souborem. Z praktickych duvodu
se vykasli na UTF-8. Sezen si NEPRAZDNY soubor v kodovani ISO-8859-2,
KOI8R, CP1250 a CP852 a zkousej to na nich.
ENCA se snazi kodovani uhodnout - a muze se ji to i podarit, pokud jsou
podminky priznive. Ale porad je to hadani, ktere nemusi vyjit.
Staci si predstavit vetu:
Na stole lezela kuže.
Nikdo - ani enca, a dokonce ani ty nedokazes z teto jedne izolovane vety
poznat v jakem je kodovani. Bud' je to v ISO-8859-2 a rec je o pokozce).
Nebo je kodovani CP1250 a rec je o rucni strelne zbrani. Nikdo, ani
enca, ani ty, bez EXTERNI vedomosti o kodovani nedokazes rict, o cem je
v teto vete doopravdy rec. A to vubec nemluvim o tom, ze by to mohlo byt
treab v ISO-8859-5 a pak ta veta proste nema semanticky smysl - ale furt
je to platny text v tomto kodovani.
Bohuzel se mi nepodarilo narychlo vymyslet dve slova, ktera by slo
pouzit ve stejne vete a lisily by se jen pritomnosti s/z, takze mi to
nesedi jeste o krouzek nad 'u', ale i tak je doufam videt o cem je rec.
Klidne pouzij tu encu - ona to ve vetsine pripadu uhodne spravne. To ale
nic nemeni na tom, ze to v nekterych pripadech muze urcit NAPROSTO blbe
aniz by ti to rekla - protoze neni sance, jak poznat, ze to neurcila
spravne. Z uvedeneho prikladu vyse snad jasne plyne, ze spravne kodovani
nemusis byt schopen poznat ani ty sam.
Dan
More information about the Users-l
mailing list