ata3: reiniting channel

Miroslav Lachman 000.fbsd at quip.cz
Thu Aug 24 00:06:48 CEST 2006


Dan Lukes wrote:
> Miroslav Lachman napsal/wrote, On 08/23/06 18:00:

[...]
>>Aha! Je pravda, ze jsem naposledy bootoval system prave s volbou verbose 
>>logging - lze toto chovani nekde nastavit, aby se system vzdy (dokud 
>>nereknu jinak) bootoval s verbose logging? 
> 
> 
> /boot/loader.conf (see /boot/default/loader.conf)
> za behu systemu take pomoci nastaveni prislusne sysctl

Diky moc, to jsem vubec netusil.

[...]

> 	Neznam konfiguraci toho stroje - je-li aktivni APM nebo ACPI, muze byt 
> zdrojem techto udalosti i BIOS. A na korektnost implementace techto veci 
> v BIOSu mam vlastni nazor ...
> 
> 	Mozna reseni je pozakazovat v tomto ohledu vsechno co je mozne (uz v 
> BIOSu).
> 
> 	Nicmene, to tu spradam hypotezy - nerikam, ze onen konkretni problem 
> pochazi odsud ...

S pokracujicimi problemy jsem v BIOSu vypnul snad uz vsechno, co me 
napadlo, takze jsou vypnute vsechny periferie, ktere se nepouzivaji 
(USB, LPT, FDD...), je vypnuty i APM. ACPI je zapnuty, mam pocit, ze bez 
toho mi nepobezi SMP, nebo se pletu? Kazdopadne i s UP kernelem to v 
minulosti vykazovalo stejne chyby (ztratu disku, nikoliv ata_reinit, to 
jsem dnes videl prvne - vlastne dnes poprve se se serverem stalo neco 
jineho, nez ze zmizel disk - driv zmizel disk, objevila se hlaska v logu 
a jeste nejaky cas (hodiny i dny) system bezel dal z jedineho disku v 
mirroru, ted je ale mirror zruseny a jede se primo z ad4, ad6 je jen 
jako druhy disk - takze se mozna stalo to same co jindy, ale system to 
neustal diky tomu, ze mu zmizel disk, ze ktereho jel... to ale jen hadam)

[...]

> 	Ani ja ne - nemam predstavu, zda nektera kompomenta za nejakych 
> okolnosti takovy pozadavek vyslovi. "Podezrelym" v rade prvni je v tomto 
> pripade kod softwaroveho raidu - ale opravdu nevim, jestli je to 
> podezreni opravnene.

SW RAID je na tomto serveru prave vypnuty, abych mel jistotu, ze problem 
neni v kodu gmirroru - coz se patrne potvrdilo, geom_mirror se ted vubec 
pri bootu neloaduje a system startuje z /dev/ad4s1a (drive 
/dev/mirror/gm0s1a)

> 	V nejhorsim pripade lze grepem projit kompletni zdrojaky na vyskyt 
> IOCATAREINIT - tim by se melo dat zjistit, zda jej neco pouciva, pokdu 
> ani tak co a kdy ...

[...]

> 	Zmineny dump by se vytvoril, pokud pri padu doslo k panicu systemu, v 
> konfiguraci je nastaveno kam se dump ma delat (dela se vzdy do swapu, 
> ale je treba oznacit do ktereho), onen swap je k dispozici a jeho 
> velikost je vetsi nez velikost fyzicke pameti.

Bohuzel nemam sanci zjistit, co se objevilo na konzoli tesne pred tim, 
nez se system odporoucel k rebootu :( Lze tohle vyresit napriklad 
seriovym kabelem do druheho serveru? Zustane tam i po rebootu informace 
o tom, co se stalo tesne pred rebootem?

> 	Doufam, ze jsem na nic nezapomel ...
> 
> 	Pri (pristim) startu systemu je mozne dump ze swapu vytahnout a ulozit 
> si ho jako "normalni" soubor.

> 	Do LOGu se o tom zadny zaznam nedela - system v panicu, delajici tento 
> dump je ve velmi spatne definovanem stavu - ten uz neni zpusobily psat 
> do nejakych souboru - je rad, ze zvladne to raw zarizeni (swap).

Mam takovy pocit, ze kdyz se dump vytvori ve swapu, tak je pri dalsim 
bootu o tom zaznam v messages, ze byl nalezen dump ve swapu, ne? Matne 
si vzpominam, ze jsem neco takoveho parkrat zahlednul, ale tentokrat to 
v logu nebylo.

> 	A nekdy ani to ne - pri urcitem typu zavady je stav systemu natolik 
> spatny, ze neni schopen udelat ani tohle. A to pomijim takove stavy 
> systemu (na urovni hardwarove), ze o vzniklem problemu se OS proste 
> vubec nedozvi. Urcite stavy procesoru (napriklad triple-fault) proste 
> znamenaji okamzity reset - nikomu se nedava prilezitost se o tom 
> dozvedet natozpak s tim neco udelat ...
> 
> 	Neni jiste, ze se dump udelal ...
> 
> 	Nicmene, i v pripade, ze dump nemate, neni to takova skoda - on je 
> celkem k nicemu, pokud nemate jadro (to, ktere bylo aktivni, kdyz to 
> spadlo) prelozene s debugovacimi informacemi.
> 
> 	A dokonce i kdyz je tohle splnene - tak se proste dokazete podivat v 
> kterem miste kodu to spadlo - a jaky byl stav pameti. Ale pokud nejde o 
> nejaky trivialni problem a aktualni pad byl napriklad zpusoben tim, ze 
> obsah pameti byl poskozen nejakou uplne jinou udalosti, ke ktere doslo 
> nekdy drive a ktera sama bezprostredne k padu nevedla, tak to se z 
> takoveho dumpu zjistuje velice problematicky ...

Takze pro me je v podstate pripadny dump jen neuzitecnou hromadou dat, 
ze kterych stejne nic nevyctu :(

[...]

>>Navic po bootu se spusti fsck a pri kontrole posledniho oddilu prvniho 
>>disku dojde opet k samovolnemu rebootu (probehlo jich 5, pak jsem 
>>background fsck zastavil a pokusim se "nejak" zjistit, co vede system k 
>>tomu, ze pri fsck spadne - opet bez jakekoliv hlasky v logu.)
> 
> 
> 	Pad uplne bez varovani (musite byt u console - na dalku to nepoznate) 
> je obvykle spis znamka problemu hardware, nebo komunikace te nejnizsi 
> vrstvy systemu s hardwarem ...
> 
> 	Jeste tak by mohlo jit o poskozeny filesystem v kombinaci s chybou 
> jadra ...

Kdyz jsem stopnul bezici background fsck (pokazde to padlo pri kontrole 
ad4s2d) a pak provedl kontrolu oddilu v popredi primo ze systemu, tak uz 
fsck probehlo az do konce, ale takovym zpusbem, ze mi to napriklad 
smazalo vsechny soubory v adresari mrtg (tedy ne jen vygenerovane grafy, 
ale i ty databazove soubory atd.)

Nalezene problemy pri fsck byly nasledujici:

87036137 DUP I=21785724
UNEXPECTED SOFT UPDATE INCONSISTENCY

87036138 DUP I=21785724
UNEXPECTED SOFT UPDATE INCONSISTENCY

EXCESSIVE DUP BLKS I=21785724
CONTINUE? [yn] y

INCORRECT BLOCK COUNT I=21785724 (96 should be 40)
CORRECT? no

INTERNAL ERROR: dups with -p
UNEXPECTED SOFT UPDATE INCONSISTENCY
** Phase 1b - Rescan For More DUPS

Nakonec hromada (desitky/stovky) hlasek jako je tato

ALLOCATED FRAGS 87881200-87897583 MARKED FREE

a nazaver

514 files, 22374762 used, 62651156 free (572 frags, 7831323 blocks, 0.0% 
fragmentation)

Po teto kontrole a manualnim rebootu uz system bezi zase normalne 
(patrne do pristiho padu)

Je jeste neco, co bych mohl na dalku zapnout (nejaky debug pomoci sysctl 
nastaveni) a mit tak pri dalsim padu vice informaci?

> 	S timhle vam opravdu prilis nepomohu - v podobnych pripadech pomaha jen 
> zarikavani ...

Zarikavam uz mesic a pul. :( Poskytovatel tvrdi, ze Linux jim na 
stejnych strojich bezi bez problemu, tezko rict, jestli je tedy problem 
ve FreeBSD, nebo jen v tom, ze na tech linuxovych strojich nikdo neudela 
takovou zatez, jako ja pri zahorovacich testech.

Miroslav Lachman



More information about the Users-l mailing list