Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book
Serwerownia w kanciapie, graficy śpiący w śpiworach, półtonowy serwer i pomylona sekwencja startu… historia awarii w jednej z polskich firm
Przy okazji naszego niedawnego wpisu: Prosiłem klienta żeby nie używał 14-sto letniego, używanego PCta, bez backupów jako swojego głównego serwera w firmie, Piotr zamieścił w jednym z komentarzy swoją historię (którą spontanicznie nagradzamy czarną bluzą z kapturem sekuraka!).
Warto zacytować całość, czytajcie do końca oczekując gorzkiej puenty. A jeśli macie podobne historie – podzielcie się w komentarzach.
Pracowałem w firmie, która przeprowadziła się do nowego budynku (niosąc z kolegą półtonowy serwer robiliśmy sobie jaja „ucz się, synku, inaczej będziesz serwery nosił”). Kanciapa, wyznaczona na serwerownię, miała pojedynczą fazę, która miała udźwignąć trzy szafy, klimę, i kilka dużych desktopów.
Nie dźwigała. Tj… dźwigała, ale…Trzeba było przestrzegać ściśle sekwencji startu. Odpalasz klimę. Czekasz kilka minut, aż się ustabilizuje, odpalasz pierwsze pudełko, dwie minuty, drugie. Dwie minuty, trzecie. Trzy minuty, szafa1. Trzy minuty, szafa2. Chwytacie.
Jeśli próbowało się uruchomić dwie rzeczy na raz, wyjebywało korki. Prosiliśmy wielokrotnie szefostwo, żeby wydało kasę na tę sprawę, bo to groziło zawałem całej firmy. Szefostwo brało to na ojtamojtam.
Firma zajmowała się działalnością wydawniczą i trzy dni przed publikacją wszyscy redaktorzy i graficy siedzieli non-stop w pracy, śpiąc w śpiworach na ziemi. Jednej z takich nocy wywaliło korki. Więc jeden z redaktorów, półprzytomny po 48 godzinach pracy, zadzwonił do mnie i pyta, co robić.
Powiedziałem mu po kolei. Zrobił wszystko dobrze, ale pominął włączenie klimy. Kiedy rano przyjechaliśmy do pracy, do serwerowni dosłownie nie dało się wejść. Trzeba było zostawić drzwi na oścież, uciec przed falą uderzeniową, odczekać 10 minut i dopiero wejść do pomieszczenia, w którym nadal było chyba z 50 stopni i powyłączać wszystko.
Szlag trafił kilka serwerów, w tym www. Spalony, nie bootuje się, został nam po nim dysk. Ale dysk był skonfigurowany w tak zabawny sposób, że w innym kompie nie działał. Firma, zajmująca się odzyskiwaniem danych, zażyczyła sobie za to kasę w wysokości moich dwumiesięcznych zarobków, więc podpiąłem ten dysk do jakiegoś linuxa i w trzy dni, z dużą pomocą kolegów z sieci, odzyskałem wszystko, skonfigurowałem nowy serwer i uruchomiłem go.
W nagrodę, kiedy chciałem jechać na wakacje, usłyszałem, że nie dostanę urlopu, bo co, jeśli coś takiego zdarzy się znowu?
Przypomina mi historię z teatru, gdzie było seminarium… podczas którego wywaliły bezpieczniki całej instalacji elektrycznej. Firma robiąca seminarium dostała opieprz od teatru, że „tak nie wolno”. Po wielkim popisie oralnym kierownika technicznego, który zrobił występ „jestem facet alfa” i próbie dowartościowania się „na chamach co nie wiedzą jak się zachować w teatrze”, okazało się że to ochroniarze wyłączyli klimę w serwerowni oraz zamknęli drzwi, bo nie chciało im się pilnować. Wywaliły bezpieczniki chroniące przed przegrzaniem i pożarem.
Czy ktoś pochwalił firmę która zrobiła zabezpieczenie? Nie. Nawet nie przeproszono ich za rzekomą nieumiejętność zachowania się w teatrze.
Aż mi się przypomniało jak zwróciłem uwagę na starożytność naszego sprzętu w firmie i temperatury klimy, to zostałem „mile uświadomiony”, że pracujemy na NAJNOWSZYM sprzęcie.
2 tygodnie później klima w całym budynku poszła się przysłowiowo je…, a system informatyczny zamienił się w system karteczkowy :)
Koledzy chyba szafę rakową nieśli bo niezłą krzepę trzeba mieć, aby nieść 500 kg we dwóch. Normalnie Pudziany jak nic.
Luzik. Duża firma sektora paliwowego (6000 zatrudnionych),szafa ze switchem na ze 200 komputerów w pomieszczeniu sprzątaczek. Piętro wyżej jakaś łazienka, zalało. Sprzęt światowy (APC, hp), zasilanie odcięte, UPS piszczy, ale switcha zasila. W końcu się rozładował, sprzątanie do końca zmiany i to wszytko włączono, po prostu. Później do tego pomieszczenia doprowadzono mocniejsze zasilanie (bo wyleciało parę razy) i wstawiono szafę z serwerami węzła klastra bazodanowego.
Pewne starostwo powiatowe. Linuxowy serwer pewnego systemu padł, nie startuje baza systemu do zarządzania tam wszystkim. Dane wprowadzane jakieś 6 lat. Informatyk próbuje ponownie zainstalować Linuxa, bo może się naprawi, baza danych zniszczona, dane poszły. Później okazuje się, że backup nie działał, plik ma wielkość 0. Nie wiem ile pracownicy wprowadzali ręcznie dokumenty z 6 lat. Wykonywaniem backupu miał zajmować się informatyk starostwa.
Nie wystarczy zrobić backup, trzeba jeszcze regularnie testować odtwarzanie.
Ja mam może mniej ciekawą historię, ale paru osobom już się podobała, więc spróbuję.
Do Poznania zostałem sprowadzony w 2003 – sprawdziłem się wcześniej u kogoś w firmie i postanowił mnie zabrać do Poznania, dając mi tu pracę.
Przyjechałem (właściwie przyjechaliśmy razem, jego samochodem) prosto do biura, które było w trakcie remontu. On pojechał dalej, szykować nam chaty, ja zostałem w biurze i od razu zająłem się instalacjami.
Biuro 6 pokoi, chyba coś koło 180-220 metrów kwadratowych (staram się oszacować na oko, bo szczerze mówiąc już dokładnie nie pamiętam) – Wiepofama w Poznaniu, ten najniższy, gdzie obecnie jest Biedronka – wtedy tam był Bank Ochrony Środowiska, a my byliśmy na drugim końcu, na drugim piętrze. W Google Street View do dzisiaj widać pierwsze 2 okna w ostatnim pokoju zamurowane – tam była nasza „serwerownia”.
Przechodzimy do meritum. Budynek stary i biura często zmieniały najemców, a nie było jakiejkolwiek dokumentacji i każdy kolejny kładł swoje kable: telefoniczne, LAN, nawet zasilanie.
No więc ja, trochę zachłyśnięty rolą szefa, kazałem robotnikom zerwać WSZYSTKO. Każdy kawałek kabla, do gołych ścian. Łącznie z zasilającymi. Na moje ryzyko. Bo i tak mieliśmy już zamówioną firmę, która miała położyć nową instalację.
Finalnie tych zerwanych kabli było tyle, że samej miedzi było ponad 100 kilogramów! A „surowych” kabli (z izolacją, gniazdkami, kołków rozporowych z resztami tynku itd.) dużo więcej, chyba pod 200 kg.
I co się okazało? Uszkodziliśmy raptem jeden kabelek, który był w użyciu. Był to zbiorczy kabel Netii, na 15 numerów, wpięty na lewo z boku budynku i przechodzący przez nasze biuro, idący do kolejnego. Aktywny był na nim 1 (słownie: jeden) numer telefoniczny. Swoją drogą gość wpadł do nas z mordą jeszcze zanim robotnicy skończyli ten kabel wyciągać – prowadził „biuro podróży” (takie w klitce 3×5 metrów) i mu popsuliśmy interes.
No trudno, w 20 minut podłączyliśmy mu prowizorycznie ten telefon naszym kablem (szpule już przyjechały). A po kilku dniach, robiąc docelową instalację, zrobiliśmy to porządnie – czyli cały kabel Netii ogarnęliśmy dwoma skrętkami i doprowadziliśmy do szafy – a stamtąd dalej kolejna skrętka szła do niego.
Koszt niewielki, a dzięki temu pozbyliśmy się syfu w postaci ciągłego „a do czego jest ten kabel”, a w przypadku instalacji elektrycznej także ryzyka, czy coś się zaraz nie zapali i nie sfajczy nam serwerów.
U kumpla w pracy w dużej firmie w małopolsce kilka lat temu – okazało się , że serwery przez zewnętrzną firmę (które dzierżawiła) to oczywiście zwykłe desktopy postawione w kącie jednego z pokoi przy oknie (lepsza wentylacja). W pewien dzień pracująca tam pani lekko podkurzona z jakiegoś powodu pieprznęła torebką w kąt i wywaliło kilkusetosobową firmę bo akurat trafiła w wyłącznik UPSa ;) oczywiście nie skojarzyła faktu tak od razu…
Hehe, to ja byłem tym kolegą, z którym Piotr nosił serwery. Potwierdzam każde słowo.
Sytuacja od slow „więc podpiąłem ten dysk” najsmutniejsza, bo karze za ponadwymiarowa, ochotnicza prace :-(.
Ale zawsze moze byc gorzej. Autora mogly dodatkowo spotkac pretensje, ze „az” 3 dni usuwal awarie.
Niestety, okazuje sie, ze gdy zdarzy sie taka zawiniona przez szefostwo awaria, to nie nalezy dzialac „ekstra”, a pozwolic firmie odzyskujacej dane, bo tylko wydatek przemowilby do szefostwa.
Jest takie powiedzenie: rob w pracy na ochotnika wiecej niz masz w obowiazkach, to wszyscy uznaja, ze to nalezy do twoich obowiazkow :-((.
W opisanym ciagu zdarzen chyba pierwszym bledem moglo byc opracowanie i stosowanie tej specjalnej procedury zalaczania urzadzen. W przeciwnym razie za kazdym razem wywalaloby bezpieczniki i szefostwo MUSIALOBY dac srodki na rozbudowe zasilania, dzieki czemu nie byloby katastrofy. A tak, skoro „dziala”, to nie widac koniecznosci wydatku.
+100
Aż dziw, że nikt nie zaproponował po prostu wymiany bezpiecznika na większy. Bo co może pójść źle? 🤣
Pracuje w Niemczech i zatrudniam elektryka, takiego juz zblizajacego sie do wieku emerytalnego. W sytuacji, kiedy stale wywala bezpiecznik mowi, ze w NRD, wkladano w takiej sytuacji w miejsce bezpiecznika duza srube .. :)
Znam taki dokładnie przypadek, co za problem podjechać do hurtowni elektrycznej i 16 na 25A podmienić ? Żaden. I super działało do czasu kontroli z Tauronu i solidnej kary.
Jeśli to był główny bezpiecznik to tak – gdyż zwiększając bezpiecznik zwiększył możliwość pobierania większej mocy od operatora, a taka zmiana musi być uzgodnione z operatorem, i odpowiednie dokumenty i wykonuje ją operator
Jeśli by zrobił w wewnętrznej rozdzielnicy bezpiecznik odpowiadający tylko za serwerownie to dostawce to nie interesuje
Wygląda to na małe doświadczenie pracowników IT, którzy zrzucają odpowiedzialność na zarządzających zamiast profesjonalnie podejść do problemu:
-nie noszę serwera – od tego są wyspecjalizowani pracownicy. Chyba, że chcesz zarabiać tyle co człowiek od przenoszenia paczek.
-nie kombinuję z jakąś sekwencją włączania urządzeń, to szczyt braku profesjonalizmu. Przekazuję kierownictwu informację, że urządzeń nie da się podłączyć, bo zasilanie nie jest odpowiednie. „Kombinowanie” kończy się tym, że kierownictwo dostaje informację, że przecież wszystko działa, a ci gamonie w serwerowni jakoś sobie poradzą. Co gorsza, „kombinowanie” może zakończyć się totalną katastrofą.
-nikt nie wpadł na to, żeby systemy położyły się w przypadku za wysokiej temperatury? Albo chociaż wysłanie jakiejś wiadomości do „informatyka”?
Jedyny słuszny zarzut do zarządu, to brak zgody na urlop. Ci „informatycy” powinni byli dostać bardzo długi urlop i już do tej firmy nie wracać.
Czy nigdy nie miałem problemu z zasilaniem, nie wnosiłem serwera, nie „ugotowałem” serwerowni? Oczywiście, że się zdarzyło. Teraz mi się już nie zdarza, bo wiedziałem, że to były moje błędy, które mnie coś nauczyły.
Niestety, niektórzy uważają, że zarządy nie mają co robić i powinny tylko słuchać marudzenia facetów wymieniających toner w drukarkach. Jeżeli chcesz liczyć się w firmie i chcesz żeby systemy sprawnie działały, to zamiast tracić czas na kombinowanie z sekwencyjnym włączaniem serwerów przedstaw zarządowi konkretny projekt modernizacji serwerowni i pokaż co firma na tym zyska. W przeciwnym wypadku pozostaniesz śmiesznym facetem czołgającym się pod biurkami i bohaterem stron „10 powodów, dla których nikt nie lubi informatyków”
Czyli Tobie można wybaczyć popełnione błędy, ale innym już nie? bo tak to brzmi
Wybacz mu. Ewidentnie jest z menedżerem działu IT.
@Atom
Oj tam, oj tam. Ten etap też już mam za sobą :)
Tak to nie miało brzmieć. Ja nie krytykuję błędów. Każdy je popełnia i każdy musi przejść okres braku doświadczenia.
Doświadczenie można zdobywać też na błędach. Ale jeżeli nie zauważymy, że popełniamy błędy, to się niewiele nauczymy.
Wyspecjalizowani pracownicy XD To żeś mnie rozśmieszył, rozumiem że zębów sam sobie nie myjesz tylko ktoś Ci myje? Ego wybujałe niczym Boniek i Wałęsa
@wredziol Dobre wskazówki w mojej ocenie, takim podejściem ułatwia się stanie partnerem zarządu.
@dzek we wpisie wredziola nie ma nic o wybaczaniu, wyglądają na wskazówki szczerego faceta do kolegów. Stawianie mu zarzutów emocjonalnych może wskazywać, że kogoś mocniej niż innych te wskazówki dotyczą.
Całkowicie się zgadzam. Dobrymi chęciami niestety piekło jest wybrukowane. Na dźwiganiu wbrew pozorom też trzeba się znać inaczej można łatwo stracić zdrowie. Dobre intencje typu „a sam to zrobię” kończą się nieszczęściem na zdrowiu albo pociągnięciem do odpowiedzialności „miłego pracownika”.
Z drugiej strony rozumiem, że jakieś 15 lat temu rynek pracy nie był rynkiem tak przyjazny ludziom IT. Jednak gdy przyjdzie szukać kto zawinił to zwykle oskarzą się „komputer” i IT więc trzeba być mega asertywnym i przewidującym. Za ostatni wyciek danych z armi kto odpowiada? Informatyk oczywiście. Co go czeka?…
Zapomniałeś o tym, że jak przyjdą do zarządu i powiedzą, że się nie da i trzeba zrobić plan modernizacji, a to zajmie czas i będzie kosztować, to wtedy zarząd ich wywali, zatrudni 2 studentów i 2 praktykantów, którzy na pewno to jakoś ogarną bez tej całej kosztownej modernizacji i skończy się tak jak się skończyło.
„bo co, jeśli coś takiego zdarzy się znowu?” Czyli jak rozumiem, ta sytuacja nic nie nauczyła szefostwa i dalej będą próbować swojego „szczęścia”. Szok.
U mnie też była dość zabawna sytuacja (a z perspektywy czasu tragiczna). W budżetówce stan komputerów i serwerów był jaki był – beznadziejny. Wiele rzeczy działało na open source gdzie IT robiło za support, administracje, developing itp itd – czyli standard.
Pewnego razu zauważyliśmy, że jeden z dysków w backupie umiera wiec polecieliśmy do księgowego z informacją, że trzeba kupić dyski aby nie stracić danych. Wg. niego nie było konieczności bo są ważniejsze wydatki i tak oto po kolei zaczęły umierać kolejne dyski z macierzy aż w końcu wszystkie padły. Suma sumarum księgowy musiał sypnąć kasą na nowe dyski oraz odzysk danych. W korpo by gość poleciał a tu nawet korona się nie poruszyła ;) Na szczęście uciekłem z tego grajdołka.
Spędziłem nieco czasu w IT w samorządowej budżetówce, ale taka sytuacja w moim urzędzie nie mogłaby się zdarzyć. Każda macierz musiała mieć wsparcie z wymianą dysków nbd, a później zawsze mieliśmy sparse a w razie problemów gwarantowany czas usunięcia problemu przez zewnętrzną firmę, a jeżeli sobie nie poradzi to 24h na postawienie działającego sprzętu zastępczego.
Czy w urzędzie mogę kupić dysk, gdy kontrolka macierzy się zaświeci? To nie jest proste – niby w przypadku awarii zamówienia publiczne można ominąć, ale macierz to środek trwały a zwiększenie wartości środka trwałego to są pieniądze z inwestycji, które akceptuje rada gminy – zakup wymagałby zmiany budżetu gminy. Dlatego nie można mieć pretensji do księgowego – naruszenie dyscypliny budżetowej to jest poważna sprawa. Dlatego trzeba takie sytuacje przewidzieć wcześniej, uświadomić je kierownictwu na etapie wnioskowania o budżet i odpowiednio się zabezpieczyć.
Niestety, są urzędy w których nie jest tak dobrze jak było w moim… Nie wiem czy to jest wina kierownictwa, czy jednak pracowników IT, którzy nie potrafią z kierownictwem rozmawiać. Czasami trzeba korzystać z okazji – zdobyć wsparcie kierowników innych działów, wykorzystać elevator speech 😊 itd.
Punkt widzenia zależy od punktu siedzenia. W zeszłym roku padły 2 switche w serwerowni. Informowaliśmy, że one są stare, żeby zostały zarezerwowane środki. Nic nie trafiało.
Koniec końców padły 3 switche, przy czym były to 2 piętra. Od razu znalazły się pieniądze i kupiliśmy 6 switchy. Natychmiastowo został wymieniony stary sprzęt, a budżet już był dogadany.
Także czasem musi coś pier…ąć żeby niektórzy zrozumieli, że jeżeli sprzęt trzeba wymienić, to TRZEBA wymienić.
„Pokaż raz, że umiesz, to będziesz zawsze robił…”
o to to! :)
„Panie Areczku trzy fazy są dla zarządu, bo jest nasz dużo, a pan jest jeden i jedna fazy wystarczy”.
Dawno temu w pewnej firmie, ktoś shackował stronę opartą na wordpresie. Reinstalacja serwera nie wchodziła w rachubę, bo na tym serwerze działały wszystkie usługi. Zagadałem do deva, aby podniósł wersję WP i dostosował ją do aplikacji. Dev się zgodził i namiętnie coś klikał na kompie. W połowie dniówki zagajam do niego jak mu idzie, czy coś mu pomóc – on odpowiada, że „spoko, da radę”. Pod koniec dnia zerkam na jego kompa a on szpila w czołgi – patrzę na logi z routera – cały dzień grał.
Niby fuszerka, ale jak zestawi się to z faktem, że 90% ludzi od pół roku nie dostawało wypłaty…
Firma nr 1, lata 2007-2009
Serwerownia w kuchni – szafa rack wstawiona między lodówkę a zlewozmywak. Zero klimy, w środku 3 serwery m.in bazy danych, monitor ręcznie przełaczany, klawiatura, mysz i UPS Kabel zasilający UPS wpięty do przedłużacza pod ścianą. Przy serwisie serwerów siedziało się na krzesełku przed tą szafą i za każdym razem jak ktoś chciał coś z lodówki, trzeba było wstać. Nie raz i nie dwa ktoś wyjął wtyczkę UPS z przedłużacza. Efekt wow murowany, bo UPS po 2 min zamykał serwery.
Firma nr 2, lata 2007 – 2013
Generalnie wadą było instalacja prądowa w budynku. ;yła z lat 60 i przy remoncie przez właściciela budynku nie została wymieniona. W efekcie po rozbudowie serwerowni z 3 serwerów do 15 wszystko stało się problemem – wyłączenia bezpieczników czy nawet ich przepalenia to cotygodniowa codzienność. Montaż jakiejkolwiek mocniejszej klimy był niemożliwy
Firma nr 2 – rok 2013
Przeprowadzka do nowej serwerowni. Wszystko super, własny budynek, tylko w serwerowni architekt zaprojektował kaloryfer i nikt tego nie skorygował. A jak jest na projekcie tak trzeba zrobić. Zasadniczo nie powinien być problem, bo przecież można wyłączyć. Ale przy pierwszym rozruchu ogrzewania okazało się, że jest nieszczelność. Kolega wszedł do serwerowni jak woda podchodziła pod szafy serwerowe.
„niosąc z kolegą półtonowy serwer” 250 kg na osobę
Gdy wspominam stare czasy gdy byłem jeszcze „śrubokrętem” w IT to w sumie nie dziwi mnie taka sytuacja.
Ze śmiesznych akcji związanych z serwerowniami, to w jednej firmie w serwerowni, stała wielka klima, która miała również możliwość regulowania poziomu wilgotności w pomieszczeniu… ale to nie działało bo projekt serwerowni nie przewidział doprowadzenia wody.
Kończyło się to tak, że w gorące letnie dni, gdy powietrze było mega suche, niektóre urządzenia miały czujnik, który gdy było za sucho i groziło to mikro wyładowaniami elektrostatycznymi, wyłączał urządzenie. Człowiek, który był na oncalu, wiedział, że od czasu do czasu będzie musiał przyjechać i dopalić bezprzewodowy czajnik, ze ściągnięta pokrywką, tak aby gotująca się ciągle woda nawilżała powietrze :|
(to jedno z tych szybkich, tymczasowych i genialnych rozwiązań, na które wpadają ludzie z IT z piwnicy podczas burzy mózgów, które ratują firmę w czasie kryzysu, które zostaje potem oficjalnie wdrożone jako część działania serwerowni)
Zgłaszanie tego przez kilka lat kończyło się porównaniem wydatków:
Koszt pracownika na dyżurze + prognoza pogody (ilość gorących dni w lecie oraz szacunkowa ilości interwencji bazując na poprzednich latach)
kontra
koszty doprowadzenia wody i przebudowa serwerowni.
Koniec końców, onbording nowego pracownika wyglądał tak:
-to jest serwerownia blablabla
-tu jest lista kontrolna serwerowni na którą się wpisujesz gdy robisz obchód blablabla
-tu sprawdzasz system przeciwpożarowy blablabla
-tutaj są szafy a w nich blablabla
-tu jest klima
-a tu jest system do rozwiązywania incydentów w serwerowni związanych ze zbyt suchym powietrzem, tu jest czajnik a na korytarzu jest łazienka z kranem gdzie napełnisz go wodą.
ba dum tsss
Urzekl mnie serwer wazacy 500kg, ktory sie spalil i przez to nie bootowal.
Poprawne skonfigurowanie backupów należy do administratora serwera. Wystarczy skonfigurować RAID zapisujący jednocześnie na dwóch dyskach czy backupy danych w godzinach najmniejszego obciążenia serwerów, chociażby do chmury. Uważam, że wina (nie wnikając w dyrekcję firmy i zasilanie) stoi po stronie właśnie tego admina, który zarządzał serwerami i nie robił kopii.
Zasilanie niewielkich serwerowni to wdzięczny temat. Moje przypadki:
1. Podczas burzy piorun uderzył w budynek. Wywaliło zasilanie serwerowni. Elektryk był nieosiągalny. Okazało się że miał zwyczaj wyłączanie w piątek po południu telefonu kontaktowego który włączał w poniedziałek rano. Tłumaczył że na działce nie ma zasięgu. Przyzwyczaił ochroniarzy że jek jest weekend to oni włączają wywalone bezpieczniki. Tu wywaliło takie o których ochrona nie miała pojęcia. Zostałem w miejsce elektryka wezwany awaryjnie. Z urlopu. Wykonałem trasę Świnoujście-Warszawa-Świnoujście plus kwadrans na włączenie prądy. Co ciekawe piorun poza wywaleniem zasilania spalił tylko jeden komputer i centralę telefoniczną. Ja dostałem zwrot kasy i premię. Elektryk dostał wypowiedzenie.
2. Budowa wieżowca obok budynku z serwerownią,. Przewz wiele dni kafar regularnie co kilkanaście sekund wbijał pale popd fundamenty budynku. Serwerownia miała 2 źródła zailania i automatykę przełączającą zasilanie. Przy każdym uderzeniu kafara na skutek wstrząsu było przełączanie na zapas zasilania i powrót. Po 2 dniach skończył się prąd w UPS-ach i zaczęły się problemy. Okazało się że UPS nie nadążał z ładowanie przy takich przełączeniach. Serwer się wyłączał, potem podnosił i zanim się uruchomił znów padał. Pomogło przeprogramowanie automatyki tak by powrót był po kilkudziesięciu sekundach a nie natychmiast. Był problem z diagnozą – sprawdzaliśmy w weeknd i nic się nei działo. A jak ruszali w poniedziałek to w środę znów był problem.
3. Największa polska wojskowa uczelnia. Dostali grant na zakup maszyny do przetwarzania równoległego. Ale tylko na sprzęt. Na nic więcej. Mnie do pomocy ściągnęła zaprzyjaźniona firma bo nie mieli nikogo pod ręką od Linuxa. Zmontowali sprzęt a ja zająłem się systemami i softem. Na życzenie był to jeden z Linuxów i francuski soft do zarządzania przetwarzaniem – też wolnościowy. Spoko. Do czasu gdy się okazało że soft źle pracuje na zmiennym taktowaniu procesorów. Wymuszono na mnie napisanie skryptu który powodował że nawet jak system się nudził to pracował na maksymalnym taktowaniu. A to było 12 maszyn po 4 procesory po 6 rdzeni każdy. W pomieszczeniu nie przewidziano klimatyzacji – bo na to nie było pieniędzy. Wi ęc wszystko się przegrzewało. Żeby nie uszkodzić maszyn zażądano kolejnego skryptu – tym razem przy przekroczeniu zadanej temperatury na czujnikach płyt głównych następowało zamknięcie systemów. I wtedy „Pan Kazio” miał checklistę. Jak przestawał system działać to otwierał drzwi i okno i czekał aż temperatura spadnie z 50-60 do 20-25. Zamykał okno. Następnie odpalał maszynę sterującą. Po 8 minutach odpalał kolejne node-y systemu w odstępie co 3 minuty. Na koniec zamykał drzwi na klucz i je plombował. I tak czasami po kilka razy dziennie. System tak działał ponad 3 latra. Wtedy z kolejnego grantu kupili klimatyzację i UPS-y.
@3.
Założę się, że ten system nic nie robił większą część życia. Typowe realia państwowej uczelni: projekt -> kasa z grantu -> blask i chwała -> zakup i szkolenia -> sprzęt się kurzy -> złomowanie po 10 latach.
Na takie fanaberie idą rocznie dziesiątki milionów w kraju.
Znam Pana Kazia hahahah
i tak, że miał szafy :P kiedyś, nie wiem jak jest teraz, pewien ISP miał serwerownię w piwnicy w bloku, 33 stopnie zimą, 38 stopni w lecie, zamiast serwerów zwykłe PC, poustawiane na regałach magazynowych, brak klimy, tylko wentylator umieszczony za kompami, który rurą spiro wydmuchiwał powietrze na korytarz w piwnicy. Pewnego pięknego dnia widzimy, że net padł, „serwery” nie odpowiadają…ki diabeł? Więc biegniemy do tej piwnicy i widzimy, że na korytarzu w puszce prądowej elektryk coś przepina…Okazało się później, że z tej puszki było na lewo podpięte pół serwerowni :D Ułańska fantazja ;)
yt: Serwerownia pełna niespodzianek
Ja mam poradę. Ustawiamy Crona z dd i find rm. Idziemy po podwyżkę. Jak nie to jedziemy na wczasy a Cron się odpali. O I tak nas docenią. Wkoncu awarię się zdążają
Cóż mogę powiedzieć , pracuje w firmie w której szef kompletnie się nie znając, sam kupuje sprzęt na „serwer”. No może nie nazywajmy tego serwerem, jest to komp z aplikacją księgową z którą klienci łącza się przez aplikacje terminala czy coś podobnego.
Kilka lat temu szef kupił na ten niby serwer komputer PC z windowsem XP !!
i to poleasingowy :D pochodził dwa lata, spuchły kondensatory i umarł. Na szczęście dysk był cały więc udało się odzyskać dane. Po tej awarii kupił serwer w wersji serwerowej faktycznie z windows serwer, aleeeee poleasingowy oczywiście. Dwa lata temu udało mi się wymusić zakup UPSa bo były częste wahania napięcia . Ale co to jest Backup ? Propozycja zakupu QNAPa została wyśmiana ;P drugi dysk żeby zrobić raid 1, też została zaniechana przez koszty !
Oczywiście poleasingowy serwer co jakiś czas nie wstaje ;P ale kto by się tym przejmował ? wystarczy przecież resetować do skutku ;P
Czytając ten tekst mogę potwierdzić że takie sytuacje mają miejsce .
Miałem coś podobnego, dawne czasy, przełom XX i XXI wieku. Mała serwerownia, w niej 2 serwery HP9000 w pełnym wydaniu, czyli serwer, macierz dyskowa, UPS. Do tego 2 szafy ze sprzętem sieciowym. Jeden z klimatyzatorów zaczął sprawiać wrażenie, że chce na emeryturę. Jeden monit do administracji, bez rezultatu, drugi monit, brak rezultatu, itd. Któregoś dnia przychodzę do pracy i już mi coś nie gra. Między moim biurem a serwerownią stalowe drzwi. Dotknąłem ich i mało mi się do nich ręka od gorąca nie przykleiła. Dobra rada dla wszystkich, takie monitowanie róbcie mailem lub na piśmie za potwierdzeniem. Gdyby nie to, że monity szły mailem, byłbym oczywiście pierwszy w kolejce, jako winny zaniedbania.
Jasne :) Fajne story do opowiadania przy ognisku w wakacje.
„(niosąc z kolegą półtonowy serwer robiliśmy sobie jaja „ucz się, synku, inaczej będziesz serwery nosił”)”
A Pudzianowi i tak by nic to nie dało, to by nic nie dąło :)
Ah, jedna z najbardziej absurdalnych sytuacji jakie mi się przydarzyły, jakieś 4 lata temu.
Zaczynałem prace o 8 rano. Tego dnia, w środę, mieliśmy jechać do miasta oddalonego od biura o jakieś 350km do dwóch serwerowni w celu instalacji nowych routerów (w pierwszej lokalizacji) i przeniesienia obecnej szafy (parę routerów i switchy) do innej szafy, w innej komorze.
O 14 w środę, razem ze znajomym wsiedliśmy w auto i po jakichś 3,5h byliśmy na miejscu. Najpierw lokowanie w hotelu, bo podmianka routerów w pierwszej lokalizacji musiała się odbyć w okienku w nocy. Spoko. Ogarnęliśmy pokoje, ustawiliśmy budziki i jazda. Praca miała być szybka, bo wystarczyło tylko wnieść dwa routery, kable już były podciągnięte i je tylko szybko skonfigurować. Byliśmy na 23 i mieliśmy wyjść po max 1,5h. Wyszliśmy po 4 rano, czyli około 5h. Zmęczeni wracamy na pokój.
Dzień drugi – pojechaliśmy na drugą lokalizację około 9 rano. Wejście bez problemu. Najpierw rzut oka na nową komorę – git. Wróciliśmy do starej i zaczęliśmy wszystko rozmontowywać. Szybko się uwinęliśmy, przenosimy to do nowej szafy, podpinamy a sieciowiec zdalnie próbuje się połączyć i mówi że nie może, że coś jest nie tak. Nie mieliśmy ze sobą żadnego laptopa (gdyż nie mogliśmy sobie pozwolić na żaden „serwisowy”), więc staramy się coś wykombinować. Dzwonimy po obsługę serwerowni i mówimy żeby posprawdzał czy wszystko przepięte z ich strony jest. Było. Co dalej? Jeśli przez sieć nie ma szansy to zostaje połączenie serialowe. Z tym że nie mieliśmy ani laptopa, ani kabla odpowiedniego.
Około 13 mój współpracownik pojechał „w miasto” szukać sklepu stacjonarnego w którym kupi taki kabel. Wrócił około 16. Ja oczywiście nie mogłem opuścić serwerowni, więc przez cały ten czas siedziałem tam, od czasu do czasu wychodząc do łazienki i pijąc wodę z kranu gdy chciało mi się pić. Gdy wrócił, technik z serwerowni ogarnął jakiegoś laptopa, aczkolwiek to przesada trochę, bo był to jakiś złom który miał na sobie jeszcze Vistę (!). Ściągnęli teamviewera i jakoś sieciowec był w stanie się podłączyć. Jak się okazało – router nie był w stanie się dobrze odpalić, bo przeszedł samoistny downgrade OSa. Około 18 przekazaliśmy to info do Dyrektora Operacyjnego z nadzieją że powie nam „Dobra, wracajcie, i tak tam nie mamy serwerów to nie jest to tak ważne”. Byliśmy w błędzie – dostaliśmy zadanie ażeby wrócić na pierwszą lokalizację, ściągnąc routery które instalowaliśmy w nocy, zawieźć je do drugiej lokalizacji i tam odpalić. Wkurwienie sięgneło zeniut. W drodze na I lokalizację dostaliśmy telefon że jednak się udało podnieść OS tego routera do najnowszej wersji i wszystko jest ok.
Także tego.
Mogę prosić numer do tego admina? U nas dostanie i urlop i dobry pieniądz ;).
To u mnie w biurze w weekend zaczął przeciekać filtr wody. No i w taki sposób okazało się że pod naszą kuchnią znajduje się serwerownia stomatologa. Wody po kostki a szafa serwerowa była najkrótsza drogą tej wody.
Zmieniała się główna siedziba dużej państwowej firmy. Przenosi się do właśnie remontowanego starego budynku. Wysłali mnie z ramienia biura informatyki na naradę na palcu budowy, w której uczestniczyli projektant, kierownik budowy i delegaci wykonawców. Budowa już idzie na całego. Stoimy w kanciapie nad planami, jak sztabie. Wszyscy kiwają głowami i robią mądre miny. Zadaję niestosowne pytanie: gdzie jest serwerownia? Pokazują mi palcem. Ja na to: tutaj jest napis serwerownia, a ja pytam, gdzie ona jest. Widzę, że nie zrozumieli, więc kontynuuję: to pomieszczenie w piwnicy ma na planach wysokość 2m. Szafy serwerowe wymagają podłogi podniesionej i przestrzeni nad nimi. Na planach instalacja w pomieszczeniu jest 6A, a mają być 3 szafy na początek, a docelowo 6. Gdzie zasilanie dla klimatyzacji i UPS? Gdzie na planach są klimatyzatory i rury/kanały od nich? Gdzie z pomieszczenia wychodzi okablowanie strukturalne?
Na szczęście przed przeprowadzką udało się to od biedy wszystko naprostować, ale na budowie już mnie nie lubili. Taką fajną partaninę im zepsułem.
Kilka lat temu w pewnej firmie transportowej z Przemyśla postanowili serwer do GPS własny postawić. Lokalny informatyk miał się tym zająć. Po 3 tygodniach jedziemy na awarię z Krakowa, serwer nie działa. Szukamy pomieszczenia serwerowego, ale Pani na recepcji nam powiedziała, że jedyne co kojarzy, to nowy komputer obok jej komputera ktoś postawiał 3 tygodnie temu, bo podobno tylko tam było „wolne do internetu”. Pani uznała, że bez sensu się święci jak nie ma tam podpiętej klawiatury i monitora, to wyłączyła listwę zasilającą…
No dobra, minęło już sporo lat więc chyba można podzielić się pewną historią.
Opis ogólny:
Duża poważna (naprawdę poważna) instytucja posiadająca mnóstwo danych, informacji itp. Ile było serwerowni to nawet nie dało się ustalić w czasie spisu. Najdłużej trwało odnalezienie tej właściwej jak był alter. A to kluczy nie ma, a to źle opisane, a to drzwi zastawione czymś co bez paleciaka nie ruszysz itp. Odziwo nadzór zdalny pozwalał nad tym zapanować więc nie trzeba było za często zaglądać. Formalnie napomknę że to czasy kiedy popularniejsze od RDPów były laptopy serwisowe. Tutaj czasami względy bezpieczeństwa wykluczały RDPy. Dziwna polityka z punktu dzisiejszych czasów ale procedura akurat była przestrzegana.
Story:
Przychodzi jednak czas kiedy dostępu nie ma i trzeba iść fizycznie szukać, wejść, być. Im cieplej tym gorzej a wiadomo w lecie różne cuda się dzieją.
No więc alert mówi że temperatura osculuje pomiędzy 60-45-60.
Interwencja:
Wchodzimy do pomieszczenia, podnosimy żaluzje, otwieramy okna, otwieramy drzwi na wewnętrzny dziedziniec ale powietrze i tak stoi. Od strony okna można wskoczyć z ulicy do serwerowni w każdym możliwym momencie i dokonać aktu dewastacji. Wyznaczmy dyżury aby wietrzyć.
Oczywiście jest klima, która działa naprzemiennie bo druga jest jako awaryjna, ale bez zapędów to zwykła żaluzja. Klima daje ile może, a że może niewiele to w wyniku chłodzenia sama się zamraża i zastyga na sople. Odpala się druga (ręcznie) i próbuje chłodzić. Pierwsza wtedy się odmraża kapiąc niczym w jaskini lodowej i tak w kółko.
Oczywiście pytanie brzmi, kiedy powódź?
Absolutnie ani jedna kropla nie spada na ziemię. Pod klimą jest dosyć spore koryto kablowe, którymi leci trójfaza, eth, faza i jeszcze kilka innych. Generalnie wszystko pod wodą jak w akwarium.
I tak sobie to działało… i że to wszystko nie j…. to sam do dzisiaj nie wiem.
Dawno, dawno temu, kiedy zaczynałem pracę jako programista w firmie typu Januszex, która niestety funkcjonuje do dziś i kompletnie nie uczy się na błędach, napisałem skrypt w języku PHP, który rekursywnie usuwał katalogi wraz z plikami w podanej ścieżce. Skrypt miał za zadanie pomóc w czyszczeniu katalogów po usunięciu przez użytkownika wpisu przez panel administracyjny. Tutaj pewnie każdemu programiście zapala się lampka w głowie, pojawia uśmiech na twarzy i w myślach mówi do siebie: nie, to się nie stało. Tak, stało się. Coś poszło nie tak i skrypt dostał jako parametr wejściowy samego slasha („/”), co w systemach Linux oznacza katalog root. Oczywiście nie przewidziałem takiej sytuacji, więc mój skrypt ochoczo zabrał się do pracy. Jakież było moje zdziwienie, gdy okazało się, że na prywatnym serwerze firmy Januszex, który był zwykłym PCtem chowanym w szafie, dowolny użytkownik, w tym ten, z którego uprawnieniami wykonywany był skrypt, miał dostęp do wszystkich zasobów, których właścicielem nie był sam root we własnej osobie. Był to „serwer produkcyjny”, na którym było już „hostowane” pełno stron klientów. Zauważyliśmy z kolegą, że serwer zaczyna coś wolno działać. W niedługim czasie rozległy się telefony od klientów, którzy zauważyli, że strony przestały im działać lub poznikały zdjęcia. Po jakimś czasie, gdy skrypt zakończył sianie spustoszeń na serwerze, udało się namierzyć dokładną przyczynę zaistniałych sytuacji i wstępnie oszacować straty. Nic wielkiego, pomyślałem. Przywrócimy kopię zapasową, najwyżej zaoferujemy jakieś rekompensaty, albo gratis zmiany na stronie, zostanę po godzinach, jakoś się to wyprostuje. Cóż… wtedy dowiedziałem się, że prawdziwy serwer produkcyjny to nie jedyna rzecz, która nie istnieje w tej firmie, ale również nie istnieje w niej pojęcie backupu. I tak o to z pomocą kolegi spędziliśmy następne dni robocze wraz z popołudniami na przeszukiwanie Google Cache i ściąganiu wszystkiego co się da, żeby przywrócić strony klientom. Część danych została oczywiście bezpowrotnie utracona.