Reportáž z VSHosting

Dostali jsme pozvání od ředitele společnosti VSHosting Damira Špoljariče navštívit jejich datacentrum v areálu TTC TECHKOM, ve kterém máme naše servery a dozvěděli jsme se mnoho zajímavostí o tom, jak takové datacentrum funguje.
Damir Špoljarič
Damir Špoljarič
Část I. - Kapacita disků je 1,2 PB
O kolik serverů se staráte? A jak si stojíte na českém trhu?
VSHosting se aktuálně stará o nějakých 2500 serverů. Jsou to dedikované a managed servery a s tímhletím počtem jsme asi aktuálně největší ve střední Evropě.
Ve střední Evropě?
V Čechách, na Slovensku určitě. V jiných státech jako Rakousku jen tušíme, ale v Čechách jsme největší.
Mohl byste popsat systém, který monitoruje stav serverů?
Máme dva paralelní monitoringy, které fungují ze dvou nezávislých sítí od cizích operátorů, abychom byli schopni rozpoznat problém například na naší síti. Monitorujeme desítky parametrů a jsme schopni mnoho věcí i predikovat. To nám umožňuje zasáhnout v mnoha případech ještě dříve, než problém skutečně nastane. Když se něco stane, například nějaký výpadek, přetížení nebo útok, tak ten problém rozpoznáme do jedné, maximálně dvou minut a v této době ho začínáme rovnou i řešit.
Na jakých zařízeních máte data uložena?
Primárně používáme servery SuperMicro a DELL. Na co se ukládají data, tak to se různí. Nejpoužívanější jsou stále klasické rotační SATA disky, protože poměr prostor a cena je zatím stále ještě nejlepší. Je tu ale také poměrně velký podíl SSD disků. SSD disky u nás už dokonce úplně vytlačily SAS disky, protože cena byla skoro srovnatelná a ty rychlé disky, které mají 15 tisíc otáček, mají také menší kapacity.

Já mám takovou vizi, že do pěti let budeme používat v 50 procentech případů výhradně SSDčka. Teď například spouštíme nový cloud, který už je čistě na SSD technologii. Je to experiment a je to hodně drahé, ale bude to hodně rychlé.
Pohled na servery zblízka
Pohled na servery zblízka
Máte představu, jaká by byla dohromady kapacita všech disků ve vašem datacentru?
Tak to pojďme spočítat. Mělo by to být přibližně 1,2 PB (pozn: rovná se 1228 TB, tj. cca 2500x víc, než míváte ve svém počítači). Týdně měníme 20 až 30 disků z důvodu jejich opotřebení.
IMG_3394.jpg
Mohl byste popsat, co se děje, když vypadne elektrická síť?
První výhodou, kterou nemá žádné jiné datové centrum, je to, že jsme připojeni na dvě nezávislé přípojky velmi vysokého napětí (síť VVN) 110 kV. Navíc je tady vlastní odpojovací stanice, takže když nastane blackout třeba ve čtvrtině Prahy, tak nás se žádným způsobem nedotkne, protože jsme připojeni ke dvěma hlavním pražským rozvodnám.

Pokud by úplně vypadl proud od dodavatele elektřiny, tak v tu chvíli zajišťují chod UPSky (pozn. uninterruptable power supply neboli nepřerušitelný zdroj energie založený na napájení technologie bez přerušení z baterií o vysokém výkonu), které slouží k tomu, aby regulovaly stav napětí v síti, ale hlavně aby vykryly dobu, než nastartuje generátor. Generátor startuje hned po výpadku sítě a trvá zhruba 30 vteřin, než má provozní otáčky a sfázuje se se sítí. Na ně to může jet třeba až několik týdnů.
Až několik týdnů?
Kriticky ano. Zásoba nafty tam samozřejmě taková není, ta je na zhruba první dva dny přičemž už preventivně po zhruba 12 hodinách se objednává první cisterna s naftou, ze které se nádrže průběžně doplňují.
Dieselové generátory
Dieselové generátory
Neexistuje tedy způsob, jak by vás elektrická energie mohla ohrozit?
Nějaký způsob samozřejmě existuje. Každé datové centrum funguje podle některé úrovně standardu TIER, který určuje jeho spolehlivost. Může se stát, že technologie shoří nebo nastane nějaký problém.

Pokud jsou v elektrické síti zapojeny dvě nezávislé UPS, tedy dvě větve, tak je to tzv. TIER IV, což je dneska nejlepší standard. My tu máme dneska TIER III+, což je téměř nejlepší standard. U energetické části splňujeme TIER IV, nicméně u této úrovně uptime institute stanovuje i další požadavky jako např. umístění budovy v bezletové zóně apod., tudíž „papírově“ plnohodnotný TIER IV nemáme, technologicky ano. Dvě větve znamenají, že větve jsou dvě a naprosto nezávislé a každá má svoji UPSku a své generátory. Kdyby se stalo, že by ta UPSka shořela, tak stále jedna nezávislá větev je funkční. Mají-li servery dva zdroje, jsou připojeny do těchto nezávislých větví a vždy je tak alespoň jeden zdroj napájen. TIER IV jsou tak po energetické stránce dvě datacentra v jednom.

Ale jak říkám, tohle je velký unikát. Většinou mají datacentra TIER III nebo někde i TIER II a my tady máme TIER III+ s technologickými prkvy z TIER IV.
Jedna větev elektrické energie
Jedna větev elektrické energie
Jistě jste zaregistroval, že u WEDOSu, který prý nemáte úplně v oblibě, měli před pár týdny problém. Jak jste chráněni proti tomu, co se stalo tam?
Tak společnost WEDOS není naše konkurence, dělají jiný typ služeb, takový „lidovější“ a tomu odpovídá technologické zázemí. My se zaměřujeme na korporátní klienty z celého světa pro které děláme náročný full managed servis. Mezi naše klienty tak patří náročné a nejnavštěvovanější TOP projekty, mezi které řadíme například i Webgarden. WEDOS dělá masovou službu levného webhostingu. To je ta krása volného trhu, že si každý může nabízet služby pro cílovou skupinu klientů, kterou sám chce. Cílové skupiny naší firmy a WEDOSu se tak prakticky nepřekrývají. Je ale pravdou, že WEDOS tvrdil, že jeho datacentru se tohle [zmíněný problém] nikdy nemůže stát. Rouhání mu tak přišlo draho, protože se projevil problém, že tam byly a stále jsou koncepční vady. Chtějí levné služby, mají levné technické zázemí. Je ale s podivem, že jim vyřešení trvalo tak dlouho.

My jsme chráněni tak, že máme dvě větve, pravidelně testujeme UPSky i generátory a máme správce datacentra (elektrikáře) nonstop, který je schopen podobné problémy okamžitě řešit.
Co se stane, když v datacentru vypukne požár?
Ono tam v první řadě nemá moc co hořet. Nejsou tam žádné materiály, které by jednoduše hořely. Ale už došlo k jedné situaci, že začal hořet zdroj v serveru. Tehdy jsme viděli poprvé, že z toho serveru začalo čoudit. Je tady automatické řešení inertním plynem FM-200, který funguje tak, že když se sepne druhý stupeň poplachu, tak se tam ten plyn vypustí. V našem případě je to několik tun hasiva, které se tam musí trubkama dostat asi za 10 vteřin. Zjednodušeně to funguje tak, že plyn na sebe váže molekuly kyslíku a oheň pak nemůže hořet. Zapálit si tady cigaretu je opravdu hodně drahý špás.
Požární přístroje s hasivem
Požární přístroje s hasivem
Co u vás znamená druhý stupeň poplachu?
Je to poměrně standardizovaná věc. Máte všudemožná čidla a první stupeň poplachu znamená, že jedno čidlo zaznamená požár. Spustí se siréna a spustí se první stupeň poplachu a většinou tomu předchází nějaká kontrola. Pokud zaznamená i druhé sousední čidlo problém, tak se to bere jako druhý stupeň poplachu, kdy se spouští evakuační čas 30 vteřin. Kdo je v té chvíli v serverovně, tak tam už být správně nemá. Ten plyn není zdraví škodlivý, člověk tam v tu chvíli neumře. Je tam taková koncentrace, která člověku nevadí. Nějaké následky to asi má. Ta cedule opusťte prostor, když zazní siréna, tam zřejmě má svůj důvod.
Když ten plyn na sebe váže molekuly kyslíku, tak to uhasí oheň, ale zároveň člověk nemá co dýchat. Jak to je?
Ono to funguje asi tak, jako kdybyste byli nahoře na pětitisícovce. V zahraničí jsem viděl datová centra, která fungují tak, že trvale udržují nižší hranici kyslíku, kde se vám sice hůř dýchá, ale sirku si tam nezapálíte. Ale je to drahé udržovat takové prostředí.
Přívodní trubka s plynem FM-200
Přívodní trubka s plynem FM-200
Jak jste chráněni před záplavami a průsaky vody?
Výhoda je, že naše datové centrum je v samostatném křídle budovy, kde nejsou rozvody vody ani odpadu. Je nad ním sice střecha, ale jde o budovu, která je připravená na to, že kdyby nastala porucha, tak by nás průsak vody neměl ohrozit.

Rozvody vody a topení se daly také pryč. Nehrozí nám tedy, že by tu něco prasklo, jako se to stalo v Casablance. Někdo tam pustil vodu a nateklo to do serverů a měli týden výpadek. To asi nebylo úplně profesionální. Také nejsme v záplavové oblasti, takže nehrozí, že by nás při přívalových deštích postihly nějaké záplavy.
Jak řešíte zálohování?
Zálohuje se minimálně jedenkrát denně. Data uchováváme tady, to je tzv. current backup. Kdyby nastala nějaká havárie konkrétního serveru, tak jsme schopni to tady lokálně rychleji obnovit. Z toho current backupu se dělají každý den image do tzv. archivního backupu, kde se ta data ukládají 30 dní zpátky. Je to dobré pro případ, že by nastala nějaká havárie, ale tyhle archivy slouží hlavně k tomu, že když si klient někde něco smaže, tak nám napíše a my mu to obnovíme. Jsme schopni to obnovovat velice rychle, dokonce až na úrovni MySQL tabulek nebo konkrétních souborů. Současně máme v geograficky oddělené lokalitě archivní backup, kde se uchovávají zálohy se zpětnou historií a ve fyzicky odděleném prostředí.
Vy tedy data uchováváte tady a ještě někde jinde?
Ještě v Brně.
IMG_3411.jpg
IMG_3402.jpg
S jakými extrémními vnějšími vlivy počítáte? Co všechno by datacentrum mělo zvládnout přežít?
Jak jsem říkal, máme de facto TIER 4. Ten máme u té energetiky a u těch technických částí, které jsme schopni ovlivnit. TIER 4 nicméně říká, že by serverovna měla být v bezletové zóně, čehož třeba v Praze nelze dosáhnout. Museli bychom být jedině v nějakém vojenském objektu. My jsme primárně připraveni na provozní problémy, tedy na výpadek proudu nebo výpadek chlazení. Jsme třeba připraveni i na tyhle extrémní teploty (pozn. v den rozhovoru bylo 35°C). Ten největší problém serverovny je takovéhle počasí, protože klimatizace mají většinou limit venkovní teploty, který my dneska úspěšně překračujeme. Takže se tam dodělává tzv. adabiatické předchlazování, což znamená, že se na střešní kondenzátory klimatizace generuje vodní mlha. Tím se předchlazují tak, aby teplota na střeše byla nižší, než je v okolí, protože by se taky mohlo stát, že při vysoké teplotě klimatizace zaznamená vysoký tlak chladiva a prostě se vypne, což by nebylo příjemné. U konkurence běžná věc, my jsme na to připraveni právě tímto adabiatickým předchlazením. Řešíme tedy hlavně provozní věci, jako jsou extrémní výkyvy teplot, kolísání napětí nebo blackouty. Ty by mohly nastat, protože bohužel česká energetická síť je dneska díky „solárnímu boomu“ ve stavu, kdy tohle může nastat kdykoliv.

Dále řešíme datovou konektivitu. Dneska tady máme vlákna do dvou směrů. Pro případ, že by se někde něco kopalo a ten kabel se překopl, tak aby vše fungovalo dál. Stát se tedy může cokoli a je potřeba být proti tomu chráněný.

Pak jsou tu situace, které jsou méně pravděpodobné, jako je zemětřesení, válka, záplavy, pád letadla atd. To už je tedy hodně velký extrém. Nicméně pravda je, že jsme aspoň mimo hlavní letecké koridory. Na všechny ranveje Ruzyně létají letadla jinudy. A tolik letadel v Praze zase nepadá. A zemětřesení tu taky nepamatujeme a nevíme, jak by se ta budova zachovala. Asi na to úplně stavěná není, to je pravda. Záplavy tady také nehrozí. A když bude válka, tak si myslím, že budeme mít všichni asi jiné starosti.
IMG_3397.jpg
IMG_3399.jpg
Mohl byste popsat, jak řešíte chlazení?
V budově je několik systémů chlazení. V našem hlavním datovém sále, kde je i Webgarden, máme vodní systém chlazení, který funguje tak, že v zimě je schopný využívat nepřímý freecooling, což znamená, že cirkulace chladícího média je ochlazovaná přes chladiče a není potřeba zapínat kompresory. Ty jsou nejvíce energeticky náročné. Když je teplota nad 15°C, tak to běží kombinovaně a když nad 20 stupňů, tak už běží čistě jen kompresové chlazení.

Udržuje se teplota 21 stupňů ve studené uličce. Studená ulička se přetlakovává a studený vzduch se fouká přes servery do teplé uličky, kde se vzduch opět nasává a ochlazuje se. Je to uzavřené primárně kvůli ekonomické efektivitě chlazení a snížení negativního vlivu na ekologii.

Díky vodnímu chlazení jsme schopni servery chladit i během těch 30 vteřin, než nastartují diesely. Datová centra, která mají starší typ chlazení, tohle nedovedou.
U nás je to chlazení nepřetržité i při výpadku napájení. Ten výpadek napájení nastává poměrně často, protože provádíme záměrnou zkoušku záložní soustavy „pod zátěží“. To znamená, že shodíme přívod napájení a zkoumáme, jestli celá soustava správně funguje, jestli startuje diesel apod.
Máte tady systém, který hlídá, kdo má přístup do datacentra?
Máme tady dvojitý kamerový systém, který hlídá, kdo tam vstupuje. Navíc tam máme klasickou EZSku a přístupový systém na karty. Zaměstnanci mají vlastní karty na jméno a všude jsou čipy, žádné klíče. Pro nás je to standard, ale věřím, že pro čtenáře to může být zajímavé. Máme tady speciality, jako je například přepouštěcí komora. Je to něco jako turniket. Když otevřete jedny dveře, tak vám systém další nedovolí otevřít, dokud ty první nebudou zavřené. Díky tomu se nestane, že se dveře nedovřou, a pak tam někdo vleze a třeba odnese všechny servery. (smích)
Jsou zde tři bezpečnostní zóny. Servery jsou samozřejmě až v té poslední, takže než se k nim dopracujete, tak překonáváte čtyři různé čtečky. Kdyby přišla URNA, tak by se tam asi po čase s použitím beranidel dostali, ale proti běžnému napadení nebo záměrnému ukradení serverů je to chráněné dobře.
Na jaký úspěch za poslední rok jste nejvíc hrdý?
Nevíce jsme hrdí na naši zahraniční expanzi, konkrétně expanzi do USA. Řekli jsme si, že s know-how, které máme, uděláme díru do světa a že na nás v té Americe čekají. (smích)
Začali jsme tam realizovat něco podobného jako tady, ale na trošku jiné bázi. Je to spíš na bázi cloudu. Jmenuje se to jinak než VSHosting a je to spíš standardizovaná služba, protože dneska VSHosting dělá kompletně individuální služby pro ty největší internetové projekty. To znamená, že přijde nějaký projekt, třeba ČSFD nebo Webgarden, a my mu navrhneme servery, správu a všechno, co potřebuje.

V Americe chceme jít spíš cestou standardizování, takže klient si všechno nakliká online. Takže spíš to je tak, že se on přizpůsobí naší službě. Je to taková ta idea, jako má Google a další. Uvidíme, jak se to ujme. Budeme mít datové centrum na stejné technologické úrovni jako tady v Čechách. Kvůli geografické lokalitě bude v Austinu v Texasu. Je to, řekněme, uprostřed Spojených států. Provoz naplno by tam měl začít do konce roku, tak uvidíme. Je to takový nový začátek. To, co jsme tady budovali osm let, tak tam chceme zvládnout za rok a něco.
IMG_3403 copy.jpg
Máte ještě nějaké další plány nebo vize do budoucna, o které byste se s námi mohl podělit?
VSHosting chystá expanzi na další zahraniční trhy. Zajímavé je například členství ve dvou největší peeringových centrech na světě. To právě řešíme. Jsou jimi DE-CIX a AMS-IX, která mají dohromady 7 Tbitů traffic. Jsou to dvě největší peering centra na světě. Jedno je v Amsterdamu a druhé ve Frankfurtu a žádná česká firma, tuším kromě jednoho telefonního operátora, není členem v těchto největších peeringových centrech. Řešíme teď vyřízení členství, a to kvůli zahraničním klientům, ale bude to i benefit pro naše české klienty, kteří fungují v zahraničí, protože si nemusí platit CDNky (pozn. content delivery network) pro zrychlení webů. To znamená, že služba běžící z VSHostingu z Prahy funguje stejně rychle v Čechách jako třeba ve Finsku. Ten rozdíl latence jsou jednotky milisekund, které uživatel nepostřehne.
A zároveň je to pro vás prestižní…
Ano, přesně tak. Dneska je naše páteřní síť celoevropská. Jsme členem NIXu, což je peeringové centrum v Čechách, které také není úplně malé. Je tuším v největší světové desítce. Jsme rovněž členem SIXu na Slovensku a teď řešíme Maďarsko a Polsko a plus ten DE-CIX a AMS-IX.

Jinak jsme hrdí na to, že jsme největší. To je potřeba říct. (smích) A také na technické zázemí. Proč jsme největší? To není proto, že bychom na lidi dělali nějaký dojem, jak jsme skvělí a „cool“, ale ty firmy, které nám dnes konkurují, se zasekly někdy před deseti lety a od té doby se inovačně nepohnuly o moc dál. My tady třeba jako jediní máme třísměnný provoz s s odborníky na servery. Žádná operátorka nebo administrátor doma na pohotovosti jako je to jinde. Když nastane v noci nějaký problém, tak jde o to, aby administrátor byl schopný hned zareagovat.
Jsme také například schopni si sami řešit vlastní hardwarový servis garantovaný do doby 60 minut, což opět nikdo nenabízí ani po těch letech, co to nabízíme my.
29.01.2016 13:43:49
miracky
Name
Email
Comment
Or visit this link or this one