Rychly binarni diff
Jozef Babjak
jozef.babjak at gmail.com
Wed Feb 17 20:46:48 CET 2010
> no, me to co rikas prijde v nasi situaci takovy nesmysl, ze ani
> nevim, jak rozumne odpovedet. Pravdepodobnost, ze dva _rozdilny_ soubory
^-- Ale no tak, ja som si to nevymyslel. Linuxove jadro obsahuje
mechanizmus deduplikacie stranok, ktory fungue presne tak, ako som
opisal: porovnava stranky - ak najde dve stranky s rovnakym kontrolnym
suctom - nie som si isty, ci je to md5 alebo md4 - tak sa stanu
_kandidatom_ na deduplikaciu. Pred samotnym zlucenim sa ale porovnaju
bajt po bajte, pretoze rovnake byt nemusia.
> MD5 ma 128 bitu, tj. tolik ruznych
> moznosti vystupu:
^-- A 10GB udajov ma kolko roznych moznosti vstupu? Ja teda neviem,
skoly nemam, ale Dirichletov holubnikovy princip plati stale, i ked je
md5 algoritmus sebevzdorovitejsi. Takze uz len akademicky,
ravdepodobnost sem, pravdepodobnost tam, heuristika je heuristika a
algoritmus je algoritmus. Akokolvek, ak opytujucemu sa staci odpoved
"s pravdepodobnostou hraniciacou s istotou", je postup s kontrolnymi
suctami pouzitelny.
Btw, nepouziva bsd balickovaci system na kontrolu integrity archivov
zdrojakov od urciteho casu nielen MD5, ale kombinaciu MD5+SHA
kontrolnych suctov? Nac pak to, ked "spolahlivo" staci MD5?
J.
More information about the Users-l
mailing list