SW Raidy a havarie disku
Dan Lukes
dan at obluda.cz
Wed Feb 20 22:30:03 CET 2008
Radim Kolar napsal/wrote, On 02/20/08 18:20:
> Muze mi nekdo vysvetlit proc kdyz odejde disk v sw raidu tak to
> vetsinou kousne masinu? Dela mi to jak gmirror tak md v linuxu. Spatna
> obsluha chyb v kernelu nebo je to tim ze ten radic/disk neni hotplug?
>
> v 6.2 gvinumu to navic trapne kernel pri rebuildu kdyz je svazek mounted
To se bez blizsich informaci neda moc jednoznacne rict. Jednak to muze
byt chyba v samotnem kodu sw raidu - napriklad muze nebyt dostatecne
testovan navratovy kod nejake funkce s predpokladem, ze ona se vzdy
povede - a ona se nepovede. Pokyud nasledny kod povazuje nejake vracene
hodnoty za platne a pouzije je, zatimco funkce skoncila chybou a rozumne
hodnoty ve skutecnosti nevratila, muze to snadno skoncit panicem nebo
nekterou z procesorovych exceptions. A to jeste v tom lepsim pripade.
"Kousnuti", ktere by ale nemelo mit nekonecne trvani, ma pravdepodobne
pricinu hardwarovou. Nahle zmizevsi disk samozrejme nekomunikuje a
pokusy o komunikaci s nim konci timeouty, coz typicky trva dele nez
"normalni" komunikace. Kroem toho, v zavislosti an ovladaci a hardwaru,
po dobu behu takoveho timeoutu muze byt zablokovana i komunikace s
jinymi disky tehoz radice. To muze vyvolat az dojem zatuhnuti.
Typicky priklad je ATA sbernice, kde se po vypadku MASTER disku casto
stane nedostupnym i SLAVE disk, proste proto, ze ATA specifikace
nedovoluje aby na kabelu byl pouze SLAVE disk. Dat si tedy dva disky
navzajem se zastupujuci v mirroru na tentyz kabel je pomerne nerozumne.
V pripade RAID5 je problem stejny.
Ani za teto situace by ale kernel nemel zbuchnout na CPU exception nebo
dokonce zustat trvale a tise zadreny - to ukazuje takrka jiste na chybu
kodu. Za tehle situace by "regulerne" melo dojit k panicu.
Dan
More information about the Users-l
mailing list