FAILURE - WRITE_DMA48 / TIMEOUT - READ_DMA

Miroslav Lachman 000.fbsd at quip.cz
Tue Aug 1 18:48:36 CEST 2006


Pred par tydny (10.7.) jsem zde rozebiral problem s mizejicimi SATA 
disky ze systemu (disk nebyl ani ve vypisu atacontrol list, ale po 
rebootu se objevil a pri zatizeni naprikald kopirovanim souboru zase 
zmizel). Jednalo se o dedikovane servery ASUS RS120-E3, zkousel jsem 
tenkrat upravy v nastaveni BIOSu atp., kdyz nic nepomohlo, obratil jsem 
se na providera s zadosti o vymenu disku, kdyz nezabrala vymena disku, 
vymenili mi ochotne cely server (za tuto ochotu jsem vazne vdecny), vse 
pak vypadalo, ze je uz v poradku, disk ze systemu jiz nemizel a nechal 
jsem nekolik dnu v kuse kopirovat a mazat /usr/ports z jednoho oddilu na 
druhy (v puvodni sestave to na tomhle temer spolehlive spadlo do par 
desitek minut). Vse se tvarilo OK, ale zacal stejnym zpusobem zlobit 
druhy server (identicky kus HW, identicka instalace FreeBSD 
6.1-RELEASE), opet doslo az na vymenu celeho serveru za jiny a opet se 
to zacalo tvarit OK, jenze dnes rano zkolabovaly oba dva.

Ten, u ktereho se vymenil HW jiz pred tydnem (jmeno Track) vyhodil o 
pulnoci chybu disku a odpojil ho z gmirroru, ale pres atacontrol list 
disk videt je, takze se ted jedna o jiny problem, nez predtim. (k tomu 
doslo v prubehu beziciho kopirovani souboru kvuli testu zatizenim)
Test pres smartmontools vsak zadnou chybu nevypisuje.

Aug  1 00:03:42 track kernel: ad5: TIMEOUT - WRITE_DMA48 retrying (1 
retry left) LBA=290279525
Aug  1 00:03:48 track kernel: ad5: TIMEOUT - WRITE_DMA48 retrying (0 
retries left) LBA=290279525
Aug  1 00:03:48 track kernel: ad5: FAILURE - WRITE_DMA48 
status=51<READY,DSC,ERROR> error=10<NID_NOT_FOUND> LBA=290279525
Aug  1 00:03:48 track kernel: GEOM_MIRROR: Request failed (error=5). 
ad5[WRITE(offset=148623116800, length=2048)]
Aug  1 00:03:48 track kernel: GEOM_MIRROR: Device gm0: provider ad5 
disconnected.

Po chvili zacal podobne chyby vyhazovat i disk ad4:

Aug  1 06:09:31 track kernel: ad4: TIMEOUT - WRITE_DMA retrying (1 retry 
left) LBA=253508601
Aug  1 06:30:16 track kernel: ad4: TIMEOUT - WRITE_DMA48 retrying (1 
retry left) LBA=284911237
Aug  1 06:30:16 track kernel: ad4: FAILURE - WRITE_DMA48 
status=51<READY,DSC,ERROR> error=10<NID_NOT_FOUND> LBA=284911237
Aug  1 06:30:16 track kernel: GEOM_MIRROR: Request failed (error=5). 
ad4[WRITE(offset=145874553344, length=32768)]
Aug  1 06:30:16 track kernel: 
g_vfs_done():mirror/gm0s2d[WRITE(offset=76083052544, length=32768)]error = 5

Kdyz jsem se na stroj rano pripojil pres SSH, po chvili se sam restartoval.

Druhy stroj, ktery mel vymeneny HW vcera a novy druhy disk (jmeno stroje 
Roxy, druhy disk = ad5) byl do rana nezatizen, rano jsem na nem spustil 
stejny test (kopirovani ports tree + kopirovani velkych 512MB souboru a 
jejich nasledne mazani porad dokola), po par hodinach behu se v messages 
objevila chyba a po ctvrt hodine nasledoval reboot

Aug  1 11:27:59 roxy kernel: ad4: TIMEOUT - READ_DMA retrying (1 retry 
left) LBA=129290027
Aug  1 11:39:46 roxy syslogd: kernel boot file is /boot/kernel/kernel

Po 20 minutach behu doslo opet k rebootu (pred tim se v logu objevilo 
opet par stejnych chyb s ad4: TIMEOUT - WRITE_DMA) (to uz byl ale system 
v podstate idle, testovaci scripty jsem nespoustel)

Po dalsi hodine se situace opakovala naprosto stejne - ad4: TIMEOUT - 
WRITE_DMA a reboot, dalsi reboot po dvou hodinach. (opet byl server v 
podstate idle, bez testu)

Byl bych vazne moc rad, kdyby se nekdo ze zkusenejsich mohl podivat na 
nasledujici odkaz, kde jsou logy (vcetne dmesg) z obou serveru a SMART 
status a pripadne mi poradit, v cem jeste muze byt problem.

http://www.quip.cz/1/freebsd/asus_rs120-e3/

Jestli napriklad neni v 6.1-RELEASE nejaka znama chyba tohoto typu u 
radice ICH7, jestli se to da vyresit upgradem na STABLE, downgradem na 
6.0, pripadne jeste neni problem SATA300 radic a SATA150 disk...

Uz vazne nevim, jak to vyresit, co otestovat, jestli jsou potreba jeste 
nejake informace, staci rict, jak je ze systemy vytahnout a mile rad je 
zaslu.

Nebo jestli nahodou nemate nekdo osobni zkusenost s provozem FreeBSD na 
tomto serveru (ASUS RS120-E3)

Uvitam i jakekoliv tipy na nejake "stresstest" liveCD, se kterym bych 
mohl tyto problemy rychleji odhalit, nez cekanim tyden na chovani po 
spusteni mnou napsanych jednoduchych scriptu...

S pozdravem
Miroslav Lachman



More information about the Users-l mailing list