Disk do maleho servriku
Jan Dušátko
jan at dusatko.org
Wed Nov 6 13:08:12 CET 2013
Ahoj,
Dovolim si prijit se svoji troskou do mlyna, lepe receno z pozorovani a
statistik na velkem poctu disku (v radu 10^3 a vyse) + nejake chytre veci co
jsem si nacetl. Pisu to protoze mne zajimal vliv zateze, teploty a dalsich
charakteristik disku na MTBF hodnoty a protoze mne zajimaly extremne
nizkoprikonove server.
1) Disky je mozne rozdelit na:
- HDD - 5600/7200/10000/15000 RPM
- SSD - SLC/MLC
2) Co se tyka propustnosi, kdysi platilo (a dnes je stale mozne vyuzivat
jako pesimistickou formu vypoctu), ze IOps = 1/(2.5*doba otacky), z toho
vyplyva ze prenosova rychlost by mela byt IOps*velikost bloku. Toto jiz
nekolik let neplati zcela presne, protoze disky zvladnou za jednu otacku
prenest vice sektoru. Udava se az 4 operace/otacku, ale pri linearnim cteni
(blok za blokem) je stejne mozne nacist maximalne data do cache. Ne vzdy
zvladne processor na desktopovem disku zaroven data nacitat a posilat,
zpravidla je to vlastnost az enterprise disku.
3) U SSD disku stoupa pocet IOps o 2-3 rady (z 10^2 na 10^4-10^5), timeout
mezi jednotlivymi operacemi odpovida adresovaci schopnosti radice. Bohuzel
SSD disky (zaroven veskere flash, SD a obdobne pameti) maji limitovany pocet
zapisu. Neprijemna vlastnost I u enterprise disku, na rozdil od HDD se
proste spatne vyspi a jsou K.O. Neni mozne rozumne predikovat stav. Aby toho
nebylo malo, bunky u MLC maji obecne okolo 10^5 poctu zapisu, SLC se
pohybuji okolo 10^6. K tomu se pak pridavaji radosti jako TRIM,
wear-leveling atd., proto maji SSD disky obecne o 10%-50% vetsi kapacitu (z
udaju, co se mi podarilo nalezt)
4) Bloky jsou take povedena taskarice. Stary format pouzival 512B (pripadne
520B) na sector. V soucasnosti se pouzivaji 4K, kde disk muze umoznovat
"premapovani" do stareho typu pristupu. 4K format je pro soucasne disky
nutnosti pokud je potreba pouzit vetsi kapacitu.
Dalsi vlastnosti je pouzity protokol. SCSI prislo s TCQ (z toho nasledne TCQ
prevzalo SAS, seriova verze SCSI). SATA prislo s NCQ. Oba tyto protokoly
umoznuji radit nekolik operaci do jednoho prikazu, coz resi omezeni
sbernice.
5) Aby toho nebylo malo, disky je mozne delit na desktop a enterprise rady.
Tyka se to mimo charakteristik MTBF (ktere jsou orientacni - jinak tez
vycucane z palce, dnes se ani ne vzdy pouzivaji testy zrychleneho starnuti),
tak hlavne neceho, cemu se rika dle vyrobce ERC/TLER/CCTL (ERC:error
recovery control/TLER: time-limited error recovery (/CCTL: command
completion time limit). Tato hodnota udava timeout v pripade chyby, pro
enterprise disky resi logiku opravy radic, u desktopovych samotny disk. To
je zhusta I duvodem, proc zlobi SW RAID s enterprise disky a HW RAID s
desktop disky.
6) Zivotnost a spolehlivost. Vetsinou se udava MTBF pro prostredi okolo
20°C, stejne tak jako ze narust o 10°C znamena zvyseni poruchovosti o 40%. V
zasade s tim lze souhlasit, ale neni to funkce (nebo mozna je, ale s dalsimi
skrytymi parametry). Pro HDD je strop okolo 40°C, kde je prilis maly tepelny
spad proti prostredi, vnitrni teplota stoupne pres 60-70°C a dochazi k
mechanicke destrukci disku, vetsinou z duvodu tepelne roztaznosti materialu.
Curieho teploty dle meho neni mozne timto zpusobem dosahnout, pro soucasne
materialy se pohybuje v radech 10^2°C (300-900°C dle technologii). Bohuzel
stejny vliv jako teplota ma I zatez pres 90% (je jedno zda cteni nebo zapis)
a otresy. Desktopove disky byvaji vybaveny detekci nulove gravitace/volneho
padu, ale to nechrani skodami napachanymi vibracemi. Jenom pred padem - a v
uzkem rozmezi podminek.
7) Posledni vec je prikon. Vetsina soucasnych desktop disku 2,5" se drzi od
1,5 do 3W, ale je potreba si uvedomit provozni odber (maximum pro zapis) a
startovaci odber. Napr. 3,5" 15000RPM disky si pro motorek mohou pri startu
"liznout" az 25A, coz je duvodem pro radic podporujici "staged power on".
Peak rozbehu je dle disku od 2 do 5s, pokud se vam bude rozbihat 100 disku,
popremyslejte nad malou elektrarnou ;o) Tohle odpada pro SSD disky. Navic,
HDD a SSD maji znacny rozdil v napajeni, pokud si to nekdo navrhuje doma,
doporucuji se nad tim zamyslet ;o)
8) Cenove relace at si spocita kazdy sam, ale celkove naklady zahrnuji
nasledujici hodnoty:
- porizovaci naklady
- implementace
- prikon a chlazeni
- servis (vymeny vadnych komponent, udrzba)
Dalo by se jeste spousta napsat o technologiich sifrovani a dalsich vecech,
ale ty nejsou duvodem proc jsem to posilal. Muj osobni nazor je podobny
Danovi. Koupit maly levny disk, eventuelne hybridni disk a pripojit ho. 2,5"
neni moc, adapter a SSD karta stoji vic. Kupodivu flash pamet nemusi mit
mensi odber nez HDD! Co je ovsem dulezite - hybridni nebo HDD disk nema
omezeny pocet zapisu, je nutne davat pouze pozor na teplotu a vibrace. Pokud
potrebujete pracovat do 60°C (coz uz zacina byt na hrane pro dobre
chlazeni), dejte tam nejakou flashku, ale pocitejte s problemy.
More information about the Users-l
mailing list