Problem s diskom - DMA TIMEOUT
Dan Lukes
dan at obluda.cz
Fri Dec 4 03:53:15 CET 2009
Marian Cerny napsal/wrote, On 12/03/09 16:36:
> poprosil by som o radu ohladne problemu s diskom na jednom serveri. Zda
> sa, ze problem nie je priamo s diskom, ale s nejakou inou komponentou
> (radic, kable, system?).
> logoch sa opakovane objavovali zaznamy DMA TIMEOUT
> Po restarte serveru komunikacia s diskom fungovala opet v poriadku
Az podsud to znam, stalo se mi to tento tyden. Az na to, ze nepomahal
ani restart stroje. Pomohlo az fyzicke odpojeni napajeni a pripojeni zpet.
U sebe jsem to vyhodnotil jako vaznou interni chybu firmware disku.
Akorat mam trochu odlisny typ nez ty (a zejmena verzi firmware) -
WD5000AAKS-00TMA0 12.01C01 - takze to asi bude nahodna koincidence a
tvuj problem bude spis jiny.
Navic je se dvema disky souacsne, coz by naznacovalo problem nejake
spolecne komponenty. Disky jsou SATA, takze kazdy ma svuj kabel. Takze v
uvahu pripada:
a) elektricke ruseni (bud' zcela vnejsi nakmitane do obou kabelu, nebo
vnitrni - prorazeny nektery z filtracnich kondenzatoru spis ve zdroji
nez na MB)
b) vada radice (a tedy zakladni desky)
Muzes zkusit prerovnat kabely uvnitr tak, aby oba nevedly spolu - pokud
by to situaci zmenilo, pak jde o vnejsi ruseni nakmitane do kabelu.
Muzes zkusit kabely i vymenit, ale to je spis pro lacino pocit, ze se
neco udelalo - pravdepodobnost, ze soucasne odesly dva nezavisle kabely
je mala.
No a pak uz je to o tom zacit pomalu menit komponenty a hledat vadnou.
Pro zacatek bych proveril, ze vada neni ve skutecnosti zpusobena
prehratim. Disky mas sice chladne, ale o teplote zbytku nevime nic.
Prizadreny vetracek na procesoru se muze projevovat i takhle. Pak bych
se vrhnul na zdroj. Problemem muze byt nejen vnitrni zavada, ale treba i
to, ze neni dostatecne dimenzovany na to, aby utahl vsechno co v bedne je.
Nicmene, z popisu se zda, ze zatim je to nahodne se projevujici chyba.
To se bude hledat spatne ...
Jako workaround muzes zkusit zakazat DMA. Ale zazrak bych si od toho
nesliboval. Nektere hranicni pripady by to mohlo zamaskovat (posunout
hranici, kdy se zacnou projevovat jako pozorovatelna chyba, takze se
navenek neprojevi).
Co se tyce toho, ze jeden disk vyrvava i po odpojeni - nemame od tebe vypis
swapctl -l
takze nevime, kde swap mas.
Mimochodem, ja bych swap na softwarovy RAID nedaval, nicmene, dovedu si
predstavit situace, kdy to ma smysl.
Dan
P.S.
Obecne se v posledni prislo na to, ze rada disku neni vhodna pro provoz
v RAIDu. A to proto, ze nekdy jim odpoved trva prilis dlouho (rec je o
zejmena pripadech, kdy disk pouziva L2 samoopravny algoritmus, ktery je
vypocetne narocnejsi) a RAID management je ma tendenci vyhodnotit jako
vadne a vyradi je.
Jak Seagate tak WD na problem reagovalo uvolnenim novych firmware pro
nektere typy svych disku. Ten tvuj ale mezi ne nepatri, coz by mohlo
znamenat, ze je v tomto ohledu v poradku.
More information about the Users-l
mailing list