Problem s diskom - DMA TIMEOUT
Marian Cerny
jojo at matfyz.cz
Thu Dec 3 16:36:46 CET 2009
Zdravim,
poprosil by som o radu ohladne problemu s diskom na jednom serveri. Zda
sa, ze problem nie je priamo s diskom, ale s nejakou inou komponentou
(radic, kable, system?).
Nizsie posielam adresu, kde je mozne najst aj dalsie vypisy z logov a
vypis z smartmontools.
Jeden server sa mi zablokoval. Fungoval ping, bolo mozne naviazat TCP
spojenie, ale nedostaval som ziadne data zo ziadnych skusanych
protokolov (SSH, HTTPS, IMAPS). Po 15 minutach bolo mozne naviazat SSH
spojenie a z logov som zistil, ze je nejaky problem s jednym diskom. V
logoch sa opakovane objavovali zaznamy DMA TIMEOUT. Pouzivam gmirror a
po par timeoutoch (12 minut) sa problemovy disk z mirroru odpojil. Avsak
timeouty sa v logu objavovali dalej a system bol dost nestabilny,
zablokovaval sa opakovane. Zrejme sa uplne pokazila komunikacia s
diskom. Aj vypis gmirror list zablokoval server na cca 10 minut. Po
nejakej dobe timeouty prestali, system problemovy disk ad12 prestal
pouzivat. Smartctl na otestovanie disku tiez nefungoval.
Po restarte serveru komunikacia s diskom fungovala opet v poriadku. Long
test pomocou smartctl neobjavil ziadnu chybu. Pri rebuildovani
(synchronizacii) gmirror pola sa problem po case (13 min) objavil znovu.
Po 5 minutach sa disk odpojil a dalsie timeouty sa uz neobjavovali.
Takze problem bude asi mimo disk, teda aspon nie chyba na povrchu disku.
Co by mohlo tento problem sposobovat? Mam skusit vymenit kabel, zapojit
disk do ineho konektoru? Alebo to moze byt disk?
Server do teraz asi pol roka fungoval bez problemov. Server nie je skoro
vobec zatazeny. V oboch pripadoch vyskytnutia problemu bola vyssia zataz
pri priaci s diskom (prvy krat kopirovanie cez SSH max 10 Mbit, druhy
krat synchronizaca gmirror pola).
Disky su Western Digital 500G GP-2.
ad6: 476940MB <WDC WD5000ABPS-01ZZB0 02.01B01> at ata3-master SATA300
ad12: 476940MB <WDC WD5000ABPS-01ZZB0 02.01B01> at ata6-master SATA300
V logoch sa objavili nasledujuce chyby:
ad12: WARNING - SETFEATURES SET TRANSFER MODE taskqueue timeout -
completing request directly
ad12: WARNING - SETFEATURES ENABLE RCACHE taskqueue timeout - completing
request directly
ad12: WARNING - SET_MULTI taskqueue timeout - completing request directly
ad12: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=826958688
swap_pager: indefinite wait buffer: bufobj: 0, blkno: 53, size: 4096
ad12: FAILURE - WRITE_DMA48 timed out LBA=826958688
GEOM_MIRROR: Request failed (error=5). ad12[WRITE(offset=423402848256,
length=131072)]
GEOM_MIRROR: Device gm0: provider ad12 disconnected.
Dalsie vypisy z logov a vypis z smartmonctl je mozne najst na adrese:
http://www.cerny.sk/temp/dma-timeout.txt
Dakujem za rady,
Marian
More information about the Users-l
mailing list