dlouho trvajici sync po upgrade na 11.2
Miroslav Lachman
000.fbsd at quip.cz
Fri Nov 2 12:34:50 CET 2018
Dan Lukes wrote on 2018/11/02 07:41:
> Krome chyby (nejspis v kodu ovladace (S)ATA disku) muze jit o zmenu
> logiky - sync mozna nyni skonci az v okamziku, kdy jsou vsechny
> "spinave" buffer zapsane, coz v okamziku, kdy neustale prichazeji dalsi
> a dalsi pozadavky an zapisy nemusi nastat hodne dlouho.
Asi to cele vic souvisi s tim, co konkretne se deje na tomhle stroji,
nez s tim, ze se neco tak moc zmenilo mezi 10.4 a 11.2, protoze stejny
skript bezi na vetsine stroju a nektere jsou vytizenejsi nez tenhle, ale
stejny problem na nich nepozoruju.
>> CPU: 14.1% user, 0.0% nice, 85.7% system, 0.1% interrupt, 0.1% idle
>
> Pomer casu procesoru pro obsluhu in-kernel zalezitosti je pomerne velky
> - ale nevede me to k zadnemu jasnemu a jednoznacnemu poznani o tom, co
> se uvnitr presne deje. Zapis bufferu na disk by mel vytezovat spis IO
> subsystem nez procesor.
Ano, tohle je divne i me a jak to tak vypada, ten sync je jen priznakem
nejakeho jineho problemu. Disky jsou tu ted vytizene na 100%, ale
prevazne ctenim. A to i pres to, ze jsem ten sync ve skriptu
zakomentoval a rsync backup zastavil.
>> Da se nejak zjistit, na cem se na tak dlouho zasekne?
>
> Zacnes tim, ze nektery z tech syncu zastrelis tak, aby se vytvoril
> coredump. Tim zjistis co proces delal z uzivatelskeho hlediska. Ja si
> ale myslim, ze tim zjistis, ze proces proste ceka na navrat z volani
> kernelove funkce. A debugovat co se deje uvnitr kernelu bude o poznani
> slozitejsi.
Jak jsem psal vyse, asi jsem zacal resit problem ze spatneho konce, nebo
se mi tu sesly problemy dva a ted, misto toho, "na co ceka sync" musim
najit, proc "node.js" zere tolik IOPS
159 processes: 6 running, 148 sleeping, 3 zombie, 2 lock
CPU: 18.5% user, 0.0% nice, 17.6% system, 0.1% interrupt, 63.8% idle
Mem: 2169M Active, 14G Inact, 3492M Laundry, 2685M Wired, 1498M Buf,
1666M Free
Swap: 16G Total, 79M Used, 16G Free
PID USERNAME VCSW IVCSW READ WRITE FAULT TOTAL PERCENT COMMAND
7178 www 369 7 367 0 0 367 16.86% node
7202 www 268 47 219 0 0 219 10.06% node
7191 www 372 22 60 0 159 219 10.06% php
7206 www 520 73 175 0 0 175 8.04% node
7210 www 347 34 152 0 0 152 6.98% node
7204 www 531 55 135 0 0 135 6.20% node
7208 www 318 39 132 0 0 132 6.06% node
7212 www 238 27 108 0 1 109 5.01% node
6853 www 218 37 101 0 0 101 4.64% httpd
7104 www 217 20 90 0 0 90 4.13% httpd
7214 www 214 37 69 0 1 70 3.22% node
6643 www 172 23 58 0 0 58 2.66% httpd
6670 www 68 3 41 0 0 41 1.88% httpd
# iostat -x -w 20 ada0 ada1
extended device statistics
device r/s w/s kr/s kw/s ms/r ms/w ms/o ms/t qlen %b
ada0 551 73 2888.9 2876.7 12 1 0 11 7 100
ada1 561 73 2961.6 2876.7 11 1 0 10 3 100
extended device statistics
device r/s w/s kr/s kw/s ms/r ms/w ms/o ms/t qlen %b
ada0 552 25 2871.5 1168.4 12 1 0 12 9 100
ada1 546 25 2825.1 1168.4 12 1 0 11 6 100
extended device statistics
device r/s w/s kr/s kw/s ms/r ms/w ms/o ms/t qlen %b
ada0 437 59 2275.8 2329.1 13 0 0 12 2 99
ada1 435 59 2280.0 2329.1 14 0 0 12 1 99
> Pro zacatek bych se ale opatrne pokusil vratit k jednoduche byt ne uplne
> patricne otazce - proc ten sync vubec volas ...
To bude nejaky pozustatek z davne minulosti, kdy jsem se chtel ujistit,
ze tyhle zmeny v souboru budou skutecne zapsane na disk a nestane se, ze
rebootem serveru v nevhodny okamzik (panic atd.) o ne prijdu... ale
stejne to byl nejspis dost naivni pristup :)
Mirek
More information about the Users-l
mailing list