Proces zaseknuty ve stavu D (disk)

Dan Lukes dan at obluda.cz
Wed Mar 24 08:54:09 CET 2021


On 23.3.2021 15:23, Miroslav Lachman wrote:
> Proces je podle ps zaseknuty ve stavu D, coz je "process in disk (or other short term, 
> uninterruptible) wait".

No, a podstatne je, ze proces je "in-kernel". A v te chvili s nim 
opravdu nejde nic udelat, protoze "neco" by se muselo udelat s jadrem 
systemu a jedine relevantni "neco" je reboot. A dokonce i s tim mohou 
byt nekdy problemy.

> Uz minule jsem podezrival nejakou chybu filesystemu

Neni to zcela vylouceno, ale nemyslim si to. Tohle byva problem hloub, 
na urovni disku jako takoveho. Nejaky pozadavek na disk, jehoz vyrizeni 
(nikoliv nutne uspesne) trva chvili zde trva "donekonecna".

Problem disku, radice, ovladacu (ve vztahu ke konkretni HW konfiguraci).

> A ted je otazka, jak tenhle problem priste resit? Tedy jak zjistit, na cem presne se to zasekne? 

Coredump celeho systemu a nasledne narocna prace s kernel-debuggerem. 
Neni to nemozne, ale velkou sanci ti nedavam.

> Zkusil jsem na ten proces pustit ktrace -p 63940 a to same s truss, ale nic to nevypise.

Kdyz uz proces v tom stavu je, je pozde.

> problem je podle vseho na root partition. Tam se ale zasekava na cteni v ruznych 
> oblastech. Nejde precist /boot/ (cast obsahu vypise, ale pak se 
> zasekne), zasekne si i pri obycejnem "ls /mnt". Opet v neprerusitelnem 
> stavu.

Hypoteza: problem disku pri praci s konkretni oblasti

a) Misto pokusu se ctenim na urovni FS cti pomoci dd fyzicky disk.

b) Nainstaluj si smartctl a zkus vycist interni log disku jakoz i 
S.M.A.R.T. parametry, proved "-t long" test (v dobe nizsiho provozniho 
zatizeni disku).

Pokud slo o jednorazovou udalost a vyctene udaje nebudou vzbuzovat 
podezreni, ze disk je ve spatnem stavu, pak to lze prejit jako "nahodnou 
chybu". Pokud udaje disku nebudou uklidnujici nebo se situace bude 
opakovat, je na miste zacit premyslet o (preventivni) nahrade komponenty.

Dan


More information about the Users-l mailing list