Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book
OVH: przyczyną pożaru był prawdopodobnie zasilacz awaryjny (UPS)
Dwa dni temu informowaliśmy o pożarze w serwerowni OVH w Strasburgu. Incydent ten był przyczyną problemów z dostępnością wielu serwisów, takich jak chociażby Lichess, VeraCrypt, Rust, Bonito, Baselinker, Imagify, czy Bad Packets. Jeśli przegapiłeś całą akcję, to zapraszamy tutaj.
Film informacyjny
Jak zwykle bywa z tego typu incydentami, klienci domagają się wyjaśnień. Założyciel OVH, Octave Klaba w swoim tweecie zaznacza, że właśnie został opublikowany film z wyjaśnieniami:
Cała wypowiedź Octave: https://www.ovh.com/fr/images/sbg/Octave-Klaba-speaking-en-vid.mp4
Video zaczyna się od przeprosin za zaistniałą sytuację. Prezes OVH zaznacza, że jest jeszcze zbyt wcześnie, aby odpowiedzieć na wszystkie pytania. Po przybyciu strażaków, kamery termowizyjne zarejestrowały dwie płonące jednostki UPS(zasilacze awaryjne). Jest to dość istotna informacja, ponieważ jednostka UPS7 była serwisowana rano przez konserwatora. W tamtym czasie wszystko wydawało się w porządku, a jednostka działała bezproblemowo, aż do momentu wybuchu pożaru. Z filmu możemy również dowiedzieć się, że trwają prace porządkowe, aby posprzątać bałagan po całym zajściu. Trwa również przebudowa serwerowni, a OVH nabyło w tym celu 2000 serwerów, a kolejne 1000 ma przybyć w ciągu kilku najbliższych dni.
Podsumowanie
Jak widać, OVH wzorcowo usuwa awarię, a liczba pożarów z roku na rok z pewnością będzie maleć. Prezes OVH stanął na wysokości zadania i w dość krótkim czasie zaczął na bieżąco informować o całym zajściu, jednocześnie nabywając nowe serwery w celu przebudowy serwerowni. Tego samego nie można powiedzieć o klientach serwisu, którzy nie posiadali żadnych zewnętrznych kopii zapasowych, ani planów na wypadek incydentu.
~ Jakub Bielaszewski
początek podsumowania brzmi jak oświadczenie wodociągów kieleckich, brakuje tylko info że są w czołówce światowej ;)
Podsumowanie nie jest takie przypadkowe :P
> a liczba pożarów z roku na rok z pewnością będzie maleć
XD zabrzmiało jakby ta serwerownia płonęła 100x w ciągu roku.
Ale przeprosiny w miarę ok, bez korpo ściemy, same fakty.
Wodociągi Kieleckie w sposób wzorcowy usuwają awarie, w sposób błyskawiczny. Jesteśmy w czołówce krajowej, a nawet światowej. Liczba awarii z roku na rok maleje.
To była specjalna i ironiczna odpowiedź wodociągów.
Ja się tylko zastanawiam dlaczego nie zadziałały, a przynajmniej nieskutecznie, systemy ppoż.
Ciekawe, tym bardziej, że tu https://www.soyoustart.com/pl/centra-danych.xml pisza „Sale są wyposażone w systemy wykrywania cząstek dymu.”
Przy zapłonie baterii/akumulatora pożar postępuje tak szybko, że ugasić go można tylko działaniami wymierzonymi bezpośrednio w źródło. Co w cale nie oznacza, że coś tam u nich jednak zawiodło.
W serwerowniach i tego typu pomieszczeniach (elektronika) stosuje systemy neutralizujące tlen w powietrzu: nie ma tlenu = nie ma ognia
Niektóre rzeczy nie potrzebują tlenu z zewnątrz, żeby się palić ;). Należą do nich również ogniwa litowo-jonowe z tego co wiem
Wolisz żeby spaliły się same baterie czy cała serwerownia?
W wielu centrach (np Azure) nie stosuje się systemów neutralizujących tlenu, żeby przy okazji zadziałania systemu nie zabić pracujących tam ludzi.
Bo nie było systemu gaszenia gazowego.
> OVH nabyło w tym celu 2000 serwerów
ale jak to kupiło? przecież chwalili się, że sami je składają, dostosowując pod siebie etc. stąd cena itd.
W takich sytuacjach pewnie zależy im na czasie.
Mowa jest o 2000 serwerów dostarczonych Klientom w innych centrach danych OVHcloud i kolejnym 1000 w gotowości do uruchomienia (na moment nagrania filmu). Plus zwiększenie mocy produkcyjnych, by dostarczyć kolejne w szybkim czasie.
To może nabyli komponenty w celu złożenia. Czy niektórym trzeba każda informacje przedstawiać w formie rysunku?
Chyba nie uwazasz ze OVH buduje wszystko od poczatku, oni musza miec gotowe komponenty do skladania i to wlasnie kupuja. Nic dziwnego i KAZDA serwerownia tak robi nawet te najwieksze.
W takim przypadku liczy się czas i kupuje się gotowe rozwiązania. Wyobrażasz sobie ile mogłoby potrwać składanie takiego sprzętu w czasie pandemii i jaki sztab ludzi musiałby to robić.
Ja ja chcę kupić 2-3 serwery to muszę czekać ok. miesiąca bo dopiero je będą składać, testować, dostarczać itp itd. (produkcja u wszystkich wiodących producentów). Tu był pożar i na magazynie czeka na sprzedaż dla OVH 2000 serwerów. Jak by byli przygotowani że będzie pożar i trzeba będzie szybko sprzedać.
Jakby nie było to komponenty należy zakupić.
pewnie gdyby nie (dosłownie) paląca sytuacja to by tak zrobili. a tak trzeba kupić gotowe by czym prędzej odbudować infrastrukturę
IV Prawo Murphy’ego odnośnie elektroniki:
– Układ zabezpieczający zniszczy układy zabezpieczane
Wyobrażam sobie co mogło stać się z UPS-em…
Pewnie zmieniali akumulatory. W większości UPS-ów (nawet EATON i APC) dość powszechne są ostre krawędzie wewnątrz obudowy. Dość ważną rolę pełni tam… dwustronna taśma klejąca, która nie każdy wsadza z powrotem na miejsce. No i można się pomylić kupując aku ze stykami 4,8mm zamiast 6,3mm – niby da się podłączyć, ale kontakt jest słaby i kabelek może zlecieć i przyspawać się do jakiejś blachy… Ciepła robi się z tego cała masa. Jeśli nie ma gaszenia gazem, to będzie się grzać aż do wyładowania akumulatora.
A ja trochę inaczej kojarzę UPSy w dużych serwerowniach…
No dobra – racja. Pewnie są osobne UPS-ownie, albo UPS-y wielkości szafy. Ale wiadomo? Może akurat dziadowali i mieli popierdółki 2U? :D
Zasilacze byly _awaryjne_, to ulegly awarii.
Powinni miec bezawaryjne.
Było w jednej komedii: „Z wypadku lotniczego zawsze przeżywają tylko czarne skrzynki. Dlaczego nikt nie wpadł na pomysł aby z tego samego tworzywa robić samoloty?” ;-E
Nie słowo w słowa – tak z pamięci ;-)
Nie wiem jakie baterie stosują, ale ogniwa litowo jonowe bardzo trudno się gasi wodą. Niech to będzie lekcja dla każdego posiadacza współczesnej elektroniki.
Oni oferowali w cenie serwer na backup. Ale prawdopodobnie w tej samej serwerowni
tego nie przewidzieli ;)
Heh, chyba już coś takiego widziałem w serialu „Mr. Robot”. :D
„Jak widać, OVH wzorcowo usuwa awarię,” – wzorcowo to im nie zadziałał system ppoż
ovh wam płaci za korpopropagandę?
Miałem w tym budynku serwerek. Dla mnie jest to bardzo dziwna sprawa, bo mam tam serwer od chyba 9lat a ten który był w SBG2 od chyba 4. I dzień przed tj o 13:00 został pierwszy raz wyłączony od sieci na pol godziny ze względu na DDoS atak a nigdy wczesniej nie był blokowany w ten sposób….przypadek? nie sądzę :) Czy inni wlasciciele serwerków też mieli jakieś dzwine sytuacje w ostatnich dniach przed awarią?
Zanim dostałem się do backupowago (storage backup) serwerka minely 3 ni zanim miałem pewność, że na szczęście był w innej loalizacji RBX i za to im chwała. Ogólnie sytuacja była naprawdę ciężka.
Też miałem tam VPS’a z automatycznym backupem…tylko nie mogą zlokalizować tej kopii bezpieczeństwa ponieważ nie trzymają podobno żadnego loga gdzie te kopie są, a technicy informują tylko, że instancja po instancji przeszukują i zgrywają to co ocalało z pożaru i wtedy dopiero identyfikują kopie z VPS’ami.
Podobno nie można się inaczej dowiedzieć gdzie jest i kiedy (jeśli w ogóle) odzyskają naszą kopię?
Czy to jest normą, że trzyma się kopie w tej samej infrastrukturze? Wynika z tego, że nikt kto planował tę serwerownie nie pomyślał, że może się ona spalić.