Rychly binarni diff

Jozef Babjak jozef.babjak at gmail.com
Wed Feb 17 20:46:48 CET 2010


>        no, me to co rikas prijde v nasi situaci takovy nesmysl, ze ani
> nevim, jak rozumne odpovedet. Pravdepodobnost, ze dva _rozdilny_ soubory

  ^-- Ale no tak, ja som si to nevymyslel. Linuxove jadro obsahuje
mechanizmus deduplikacie stranok, ktory fungue presne tak, ako som
opisal: porovnava stranky - ak najde dve stranky s rovnakym kontrolnym
suctom - nie som si isty, ci je to md5 alebo md4 - tak sa stanu
_kandidatom_ na deduplikaciu. Pred samotnym zlucenim sa ale porovnaju
bajt po bajte, pretoze rovnake byt nemusia.

> MD5 ma 128 bitu, tj. tolik ruznych
> moznosti vystupu:

  ^-- A 10GB udajov ma kolko roznych moznosti vstupu? Ja teda neviem,
skoly nemam, ale Dirichletov holubnikovy princip plati stale, i ked je
md5 algoritmus sebevzdorovitejsi. Takze uz len akademicky,
ravdepodobnost sem, pravdepodobnost tam, heuristika je heuristika a
algoritmus je algoritmus. Akokolvek, ak opytujucemu sa staci odpoved
"s pravdepodobnostou hraniciacou s istotou", je postup s kontrolnymi
suctami pouzitelny.

Btw, nepouziva bsd balickovaci system na kontrolu integrity archivov
zdrojakov od urciteho casu nielen MD5, ale kombinaciu MD5+SHA
kontrolnych suctov? Nac pak to, ked "spolahlivo" staci MD5?

J.


More information about the Users-l mailing list