Problem s diskom - DMA TIMEOUT

Marian Cerny jojo at matfyz.cz
Thu Dec 3 16:36:46 CET 2009


Zdravim,

poprosil by som o radu ohladne problemu s diskom na jednom serveri. Zda 
sa, ze problem nie je priamo s diskom, ale s nejakou inou komponentou 
(radic, kable, system?).

Nizsie posielam adresu, kde je mozne najst aj dalsie vypisy z logov a 
vypis z smartmontools.

Jeden server sa mi zablokoval. Fungoval ping, bolo mozne naviazat TCP 
spojenie, ale nedostaval som ziadne data zo ziadnych skusanych 
protokolov (SSH, HTTPS, IMAPS).  Po 15 minutach bolo mozne naviazat SSH 
spojenie a z logov som zistil, ze je nejaky problem s jednym diskom. V 
logoch sa opakovane objavovali zaznamy DMA TIMEOUT. Pouzivam gmirror a 
po par timeoutoch (12 minut) sa problemovy disk z mirroru odpojil. Avsak 
timeouty sa v logu objavovali dalej a system bol dost nestabilny, 
zablokovaval sa opakovane. Zrejme sa uplne pokazila komunikacia s 
diskom. Aj vypis gmirror list zablokoval server na cca 10 minut. Po 
nejakej dobe timeouty prestali, system problemovy disk ad12 prestal 
pouzivat. Smartctl na otestovanie disku tiez nefungoval.

Po restarte serveru komunikacia s diskom fungovala opet v poriadku. Long 
test pomocou smartctl neobjavil ziadnu chybu. Pri rebuildovani 
(synchronizacii) gmirror pola sa problem po case (13 min) objavil znovu. 
Po 5 minutach sa disk odpojil a dalsie timeouty sa uz neobjavovali.

Takze problem bude asi mimo disk, teda aspon nie chyba na povrchu disku. 
Co by mohlo tento problem sposobovat? Mam skusit vymenit kabel, zapojit 
disk do ineho konektoru? Alebo to moze byt disk?

Server do teraz asi pol roka fungoval bez problemov. Server nie je skoro 
vobec zatazeny. V oboch pripadoch vyskytnutia problemu bola vyssia zataz 
pri priaci s diskom (prvy krat kopirovanie cez SSH max 10 Mbit, druhy 
krat synchronizaca gmirror pola).

Disky su Western Digital 500G GP-2.

ad6: 476940MB <WDC WD5000ABPS-01ZZB0 02.01B01> at ata3-master SATA300
ad12: 476940MB <WDC WD5000ABPS-01ZZB0 02.01B01> at ata6-master SATA300

V logoch sa objavili nasledujuce chyby:

ad12: WARNING - SETFEATURES SET TRANSFER MODE taskqueue timeout - 
completing request directly
ad12: WARNING - SETFEATURES ENABLE RCACHE taskqueue timeout - completing 
request directly
ad12: WARNING - SET_MULTI taskqueue timeout - completing request directly
ad12: TIMEOUT - WRITE_DMA48 retrying (1 retry left) LBA=826958688
swap_pager: indefinite wait buffer: bufobj: 0, blkno: 53, size: 4096
ad12: FAILURE - WRITE_DMA48 timed out LBA=826958688
GEOM_MIRROR: Request failed (error=5). ad12[WRITE(offset=423402848256, 
length=131072)]
GEOM_MIRROR: Device gm0: provider ad12 disconnected.

Dalsie vypisy z logov a vypis z smartmonctl je mozne najst na adrese:
http://www.cerny.sk/temp/dma-timeout.txt

Dakujem za rady,

Marian


More information about the Users-l mailing list