Podezrele chovani Intel MatrixRAID
Dan Lukes
dan at obluda.cz
Thu Mar 9 13:15:59 CET 2006
Uvidem reknu, ze jsme se timto konkretnim radicem nezabyval konkretne.
A nemam moc v lasce semi-softwarove raidy vubec, takze celou tuhle
skupinu hardware sleduju jen okrajove. Takze budu varit trochu z vody.
Ergo, to do napisu je prevazne extrapolace znalosti z jinych oblasti a
jde jen o (snad kvalifikovany) odhad.
jan.koukal at fs.cvut.cz wrote:
> Mar 8 20:03:11 mail kernel: ar1: WARNING - mirror protection lost. RAID1
> array in DEGRADED mode
Co je primarni pricinou tohohle hlaseni se odhadovat pokouset nebudu.
Muze jit o skutecnou vadu disku, selhani SATA radice, ale take chybu v
ovladaci.
> Mar 8 20:03:11 mail kernel: ar1: writing of Intel MatrixRAID metadata is
> NOT supported yet
Tohle uz je jasnejsi a vysvetluje to nektere nasledne veci. Pole ma na
disku zapsanou svoji vlastni konfiguraci - kroem jineho take to, v jakem
je ten-ktery disk a cele pole stavu.
Pro tento konkretni typ pole ovsem v driveru, ktery ve FreeBSD 6.0 je
neni implementovan zapis techto dat - driver tedy neni schopen zpet
ulozit informaci, ze konkretni disk selhal a pole je v nekorektnim stavu.
To lze povazovat za velmi vazny problem - po restartu, ke kteremu
doslo, dosly ovladace na zaklade (ne)uloznych informaci k zaveru, ze
pole je V PORADKU. Ono ale mozna neni a existuji v tom mirroru mista,
kde obsah kopii neni identicky.
> Mar 8 20:03:11 mail kernel: unknown: TIMEOUT - WRITE_DMA48 retrying (1
> retry left) LBA=326028767
To znaci ztratu schopnosti komunikovat s konkretnim diskem. Proc ale,
to z teto sady informaci urcit nelze. Znovu muze jit o vadu disku,
radice nebo ovladacu.
To, ze se pocitac nasledne restartoval mirne favorizuje moznost, ze by
mohlo jit o chybu ovladacu. Ve skutecnosti to ale klidne mohla byt
primarne chyba jina, na kterou jen chybne napsany ovladac nespravne
zareagoval (a to vedlo k restartu).
> Mar 8 20:04:39 mail kernel: ar1: 305245MB <Intel MatrixRAID RAID1> status:
> READY
> Mar 8 20:04:39 mail kernel: ar1: disk0 READY (master) using ad8 at
> ata4-master
> Mar 8 20:04:39 mail kernel: ar1: disk1 READY (mirror) using ad10 at
> ata5-master
A tady uz je videt shora popsany problem - neulozena informace o
problemu ma za nasledek, ze vse je po restartu "v poradku".
Ja osobne si myslim, ze takto nedodelany ovladac se nikdy nemel dostat
do jakekoliv RELEASE - a pokud to z nejakeho velmi dobreho duvodu bylo
treba, tak melo byt jak v manualove strance i pri startu systemu velmi
velkymi pismeny uvedeno, jake nasledky muze mit v nekterych pripade
pouziti tohoto nedodelku.
Ale nemuzu to tu rikat moc hlasite, protoze nekteri jakekoliv osocovani
"noveho FreeBSD" nebo novych metod, ktere jsou pouzivany pri jeho
soucasnem vyvoji spatne snasi ... ;-)
Mimochodem, v 6.1 uz na tomto typu radice zapis metadat podporovany
bude (presto ale zustane jeste spousta radicu, kde stale ne).
> Jde z tohoto usoudit ce se stalo? Spatny disk,board?
Nebo ovladac. To se opravdu takhle odhadnout neda.
Co je jiste je, ze tento hardware je pri te konkretni verzi FreeBSD
opravdu nevhodne vybran. Ovladac je v teto situaci opravdu "zparchantely".
Nemam k tomu lepsi radu nez tu, ze nejprve rekneme, co chceme
dosahnout, pak se rozhodneme pro software a pak k software vybereme
odpovidajici hardware. Pokdu to probehne obracene, je treba byt velmi
opatrny nakolik je dany hardware pro dany OS vhodny - a v tomto pripade
moc neni ...
> Je normalni, ze na se sytem rebootne?
Na verzi 4.x nebo 5/6.x ? ;-)
U nektereho typu zavad to je normalni a v zasade se na takovou situaci
neda zareagovat o moc lepe - kazdopadne - reboot je typicky nasledek
zavady typu "nekorektne napsany software (OS)", ktery rozhodila ho
nejaka neobvykla situace (treba zavada hardware - s tou by ale mel
pocitat). Mozna se kdo dostal do nejake oblasti, kterou tech deset
studentu pri testovani vynechalo ... ;-)
Dan
More information about the Users-l
mailing list