SSD pro bsd
Cejka Rudolf
cejkar at fit.vutbr.cz
Thu Jun 2 14:04:02 CEST 2016
Dan Lukes wrote (2016/06/01):
> Jo, vim o nekom, kdo prisel o RAID5 prestoze pole melo 'spare' disk.
> Chcipnul prvni disk, RAID5 presel do degradovaneho modu, aktivoval spare
> a zacal dopocitavat. A o necelou pulminutu pozdeji zdechnul druhy disk a
> bylo vymalovano ...
Ahoj, nebudu to teď psát osobně, ale obecně - dlouhodobě bojuju se dvěma
předsudkama, které se nedaří z lidí vytlouct, tak třeba trocha osvěty
pomůže ;o)
1) První, když chci mít RAID, musím se o něj starat. Tj. ne "přestože pole
mělo spare disk" (= jednou tam zapíchnu disk navíc a dál se nestarám),
ale "přestože pole dělalo pravidelný patrol read a consistency check"
(= dělají se pravidelné plné kontroly čitelnosti všech sektorů všech
disků a kontroly konzistence kontrolních součtů a výstupy kontroluju).
Nebo u všech disků aspoň pravidelný smart long test, když už nic jiného.
A týká se to jak HW RAIDů, tak i SW RAIDů (a je pravda, že u SW se na
tuto nutnost zapomíná ještě častěji), nebo i jednotlivých disků. A aspoň
jednou za měsíc, ale my používáme zásadně jednou týdně. Pak je minimální
pravděpodobnost, že rebuild selže. Kdo ale má v RAIDu disky, u kterých
se některé sektory nezkoušely číst nebo zapisovat několik let, tak se
vůbec nemůže divit, že se mu rebuild nepovede. Je nutné si totiž mimo jiné
uvědomit, že u datového přístupu je pravděpodobnost chyby čtení mnohem
nižší, protože se čtou jen data zapsaná "teprve nedávno", kdežto
u rebuildu se čtou všechny sektory všech disků, tj. musí se přečíst i ty
sektory, které třeba ještě nikdy nebyly uživatelem přepsané, pouze
inicializované výrobcem. (Ano, existuje i rebuild bez kontroly ECC
s ochotou přeskočit pár nečitelných sektorů, jenže to už nikdo neví,
která data jsou správná a která ne, a to je pak zralé na překopírování
na jiný RAID s nadějí, že chyby byly jen u nepoužívaných sektorů.)
A pokud se u RAIDu pravidelné kontroly čitelnosti a konzistence nedělaly,
je ztráta dat spíš jen otázkou času, než čehokoli jiného.
Jestli spare disk umožní okamžitý rebuild, nebo se chvíli počká na výměnu
disků ručně, to už u RAIDu, který by měl umět fungovat několik let,
nehraje tak velkou roli - spíš to asi bude otravovat admina, který se
navíc nemusí při vytahování trefit.
2) A druhý, RAID v žádném případě nemůže nahradit dislokované zálohování.
Stačí pomyslet buď na klasiku požár, potopa, zloděj či dnes už i
ransomware, nebo mnohem zábavnější problémy typu "odešel 10 let starý
řadič". Schválně, budete shánět novější typ a budete doufat, že se disky
v tom novém chytí (nejlépe po akvizici jedné firmy druhou), nebo začnete
shánět, jestli někdo nemá stejný řadič vyřazený a schovaný v šuplíku a
nebude ochoten vám ho dát? :o)
--
Rudolf Cejka <cejkar at fit.vutbr.cz> http://www.fit.vutbr.cz/~cejkar
Brno University of Technology, Faculty of Information Technology
Bozetechova 2, 612 66 Brno, Czech Republic
More information about the Users-l
mailing list