FAILURE - WRITE_DMA48 / TIMEOUT - READ_DMA
Miroslav Lachman
000.fbsd at quip.cz
Tue Aug 1 18:48:36 CEST 2006
Pred par tydny (10.7.) jsem zde rozebiral problem s mizejicimi SATA
disky ze systemu (disk nebyl ani ve vypisu atacontrol list, ale po
rebootu se objevil a pri zatizeni naprikald kopirovanim souboru zase
zmizel). Jednalo se o dedikovane servery ASUS RS120-E3, zkousel jsem
tenkrat upravy v nastaveni BIOSu atp., kdyz nic nepomohlo, obratil jsem
se na providera s zadosti o vymenu disku, kdyz nezabrala vymena disku,
vymenili mi ochotne cely server (za tuto ochotu jsem vazne vdecny), vse
pak vypadalo, ze je uz v poradku, disk ze systemu jiz nemizel a nechal
jsem nekolik dnu v kuse kopirovat a mazat /usr/ports z jednoho oddilu na
druhy (v puvodni sestave to na tomhle temer spolehlive spadlo do par
desitek minut). Vse se tvarilo OK, ale zacal stejnym zpusobem zlobit
druhy server (identicky kus HW, identicka instalace FreeBSD
6.1-RELEASE), opet doslo az na vymenu celeho serveru za jiny a opet se
to zacalo tvarit OK, jenze dnes rano zkolabovaly oba dva.
Ten, u ktereho se vymenil HW jiz pred tydnem (jmeno Track) vyhodil o
pulnoci chybu disku a odpojil ho z gmirroru, ale pres atacontrol list
disk videt je, takze se ted jedna o jiny problem, nez predtim. (k tomu
doslo v prubehu beziciho kopirovani souboru kvuli testu zatizenim)
Test pres smartmontools vsak zadnou chybu nevypisuje.
Aug 1 00:03:42 track kernel: ad5: TIMEOUT - WRITE_DMA48 retrying (1
retry left) LBA=290279525
Aug 1 00:03:48 track kernel: ad5: TIMEOUT - WRITE_DMA48 retrying (0
retries left) LBA=290279525
Aug 1 00:03:48 track kernel: ad5: FAILURE - WRITE_DMA48
status=51<READY,DSC,ERROR> error=10<NID_NOT_FOUND> LBA=290279525
Aug 1 00:03:48 track kernel: GEOM_MIRROR: Request failed (error=5).
ad5[WRITE(offset=148623116800, length=2048)]
Aug 1 00:03:48 track kernel: GEOM_MIRROR: Device gm0: provider ad5
disconnected.
Po chvili zacal podobne chyby vyhazovat i disk ad4:
Aug 1 06:09:31 track kernel: ad4: TIMEOUT - WRITE_DMA retrying (1 retry
left) LBA=253508601
Aug 1 06:30:16 track kernel: ad4: TIMEOUT - WRITE_DMA48 retrying (1
retry left) LBA=284911237
Aug 1 06:30:16 track kernel: ad4: FAILURE - WRITE_DMA48
status=51<READY,DSC,ERROR> error=10<NID_NOT_FOUND> LBA=284911237
Aug 1 06:30:16 track kernel: GEOM_MIRROR: Request failed (error=5).
ad4[WRITE(offset=145874553344, length=32768)]
Aug 1 06:30:16 track kernel:
g_vfs_done():mirror/gm0s2d[WRITE(offset=76083052544, length=32768)]error = 5
Kdyz jsem se na stroj rano pripojil pres SSH, po chvili se sam restartoval.
Druhy stroj, ktery mel vymeneny HW vcera a novy druhy disk (jmeno stroje
Roxy, druhy disk = ad5) byl do rana nezatizen, rano jsem na nem spustil
stejny test (kopirovani ports tree + kopirovani velkych 512MB souboru a
jejich nasledne mazani porad dokola), po par hodinach behu se v messages
objevila chyba a po ctvrt hodine nasledoval reboot
Aug 1 11:27:59 roxy kernel: ad4: TIMEOUT - READ_DMA retrying (1 retry
left) LBA=129290027
Aug 1 11:39:46 roxy syslogd: kernel boot file is /boot/kernel/kernel
Po 20 minutach behu doslo opet k rebootu (pred tim se v logu objevilo
opet par stejnych chyb s ad4: TIMEOUT - WRITE_DMA) (to uz byl ale system
v podstate idle, testovaci scripty jsem nespoustel)
Po dalsi hodine se situace opakovala naprosto stejne - ad4: TIMEOUT -
WRITE_DMA a reboot, dalsi reboot po dvou hodinach. (opet byl server v
podstate idle, bez testu)
Byl bych vazne moc rad, kdyby se nekdo ze zkusenejsich mohl podivat na
nasledujici odkaz, kde jsou logy (vcetne dmesg) z obou serveru a SMART
status a pripadne mi poradit, v cem jeste muze byt problem.
http://www.quip.cz/1/freebsd/asus_rs120-e3/
Jestli napriklad neni v 6.1-RELEASE nejaka znama chyba tohoto typu u
radice ICH7, jestli se to da vyresit upgradem na STABLE, downgradem na
6.0, pripadne jeste neni problem SATA300 radic a SATA150 disk...
Uz vazne nevim, jak to vyresit, co otestovat, jestli jsou potreba jeste
nejake informace, staci rict, jak je ze systemy vytahnout a mile rad je
zaslu.
Nebo jestli nahodou nemate nekdo osobni zkusenost s provozem FreeBSD na
tomto serveru (ASUS RS120-E3)
Uvitam i jakekoliv tipy na nejake "stresstest" liveCD, se kterym bych
mohl tyto problemy rychleji odhalit, nez cekanim tyden na chovani po
spusteni mnou napsanych jednoduchych scriptu...
S pozdravem
Miroslav Lachman
More information about the Users-l
mailing list