Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book
W poszukiwaniu zaginionych (meta)danych
Wstęp
Współczesny model zarządzania bezpieczeństwem informacji opiera się na politykach, standardach oraz procedurach skrojonych na miarę potrzeb konkretnej organizacji. Oczywiście poszczególne zasady i wymogi są zależne od wartości oraz poufności konkretnej informacji. Inaczej obchodzimy się z danymi publicznymi, inaczej z informacjami tajnymi. Z tego wniosek, że skuteczne zarządzanie bezpieczeństwem informacji nie może istnieć bez procesu klasyfikacji danych, ponieważ tylko w ten sposób będziemy w stanie zastosować środki współmierne do potrzeb.
Rzeczywiście, większość organizacji świadomie zarządzających bezpieczeństwem własnych danych wprowadza różne klasy ważności informacji oraz odpowiednio dobiera środki ochronne. Okazuje się jednak, że w całym programie zarządzania bezpieczeństwem informacji często pominięty zostaje temat metadanych.
(Meta)dane
W dzisiejszej, cyfrowej rzeczywistości, większość organizacji generuje, przechowuje i archiwizuje swe dane w postaci digitalnej. Zintegrowane systemy informatyczne pozwalają na uniknięcie zapisywania i przechowywania setek tysięcy kartek papieru. Pozytywne aspekty nowoczesnych technologii są jednak okupione niespotykanymi wcześniej zagrożeniami bezpieczeństwa informacji. Zagrożenia te są związane z pewną charakterystyczną cechą informacji cyfrowej, a mianowicie z jej, często niewidocznymi na pierwszy rzut oka, dodatkowymi atrybutami. Dodatkowe informacje charakteryzujące informację właściwą, takie jak data utworzenia czy data ostatniej modyfikacji, nazywamy metadanymi (ang. metadata). Takie dane o danych, bo tak właśnie można najkrócej scharakteryzować te struktury, stanowią właśnie dodatkowy problem w dziedzinie bezpieczeństwa informacji, niespotykany praktycznie w przypadku danych konwencjonalnych. Niestety tematyka metadanych jest zazwyczaj ignorowana przez standardy oraz procedury bezpieczeństwa informatycznego. Prawdopodobnie wynika to z ich pozornej niewidoczności oraz braku podobnego problemu w przypadku danych konwencjonalnych.
Jak się okazuje, odróżnienie danych właściwych od metainformacji nie jest wcale takie proste. Rozważając naturę obu typów informacji, nie jesteśmy w stanie wskazać żadnej różnicy, są to po prostu pewne informacje w postaci cyfrowej. Tym, co decyduje o rozróżnieniu, jest w praktyce wyłącznie kontekst, w jakim rozważamy konkretną informację. Przykładowo tekst piosenki zapisany w pliku tekstowym stanowi dane. Jednak jeśli ten sam tekst piosenki zostanie dołączony do pliku dźwiękowego z nagraniem tegoż utworu, te same dane mogą stać się metadanymi. Podstawowym zadaniem metadanych jest dostarczenie informacji pozwalających na prawidłowe zinterpretowanie i użycie informacji właściwej. Przykładowe struktury danych, zawierające zazwyczaj metainformacje, na jakie warto zwrócić szczególną uwagę, to między innymi: pliki graficzne, dokumenty elektroniczne w popularnych formatach, dokumenty w uniwersalnym formacie PDF.
Metadane mogą zawierać informacje personalne, adresy poczty e-mail, numery telefonów, nazwy komputerów, serwerów, drukarek i udziałów sieciowych (np. zawarte w ścieżkach do katalogów), a nawet poświadczenia! Tego typu informacje zazwyczaj w procesie klasyfikacji nie zostałyby uznane za publiczne. Sprawdźmy więc, czy w praktyce poszczególne organizacje rzeczywiście nie upubliczniają tego typu danych.
FOCA, czyli (meta)żniwiarz…
Osoby zainteresowane tematyką bezpieczeństwa informacji doskonale wiedzą, że popularne wyszukiwarki internetowe mogą służyć nie tylko do odnajdowania poszukiwanych przez nas informacji ogólnych, ale równie świetnie nadają się do pozyskiwania informacji, które wydostały się do publicznej sieci wbrew intencji ich właścicieli. Tak zwany Google hacking pozwala na pozyskiwanie informacji cennych z punktu widzenia bezpieczeństwa. Wszystko sprowadza się oczywiście do konstruowania odpowiednich zapytań, pozwalających na odnalezienie interesujących informacji zindeksowanych uprzednio przez roboty takie jak Googlebot. Tego typu działania możemy również przeprowadzać za pomocą specjalnych narzędzi automatyzujących cyfrowy rekonesans.
Jednym z ciekawszych narzędzi automatyzujących Google hacking zorientowany na masowe odnajdowanie i analizowania metadanych zawartych w upublicznionych dokumentach (ang. metadata harvesting) jest obecnie FOCA. Pomysł jest bardzo prosty: wystarczy za pomocą odpowiedniego zapytania skierowanego do internetowej wyszukiwarki odnaleźć dokumenty opublikowane przez interesującą nas organizację i przeanalizować zawarte w nich metadane. Wspomniany program, który obecnie dostępny jest w wersji 3.2, pozwala właśnie na przeprowadzenie tego typu zautomatyzowanego wywiadu. Spójrzmy jak to wygląda w praktyce.
Po utworzeniu nowego projektu i wybraniu docelowej domeny możemy od razu rozpocząć poszukiwanie publicznie dostępnych dokumentów. Wścibska FOCA bez większego problemu odnajdzie potencjalnie interesujące dokumenty. Wybierając opcję „Download All” możemy pobrać wszystkie odnalezione pliki, a dzięki „Extract/Analyze All Metadata” przekonamy się, czy udało nam się wydobyć na światło dzienne coś interesującego.
Podczas kilku praktycznych testów udało mi się odnaleźć wiele informacji, takich jak dane personalne dotyczące pracowników organizacji, nazwy udziałów, adresy IP, ścieżki do wielu folderów i drukarek sieciowych, szczegóły na temat rodzajów oraz wersji oprogramowania wykorzystywanego przez daną organizację.
(Meta)Leaks?
Na koniec warto się zastanowić, z czym tak naprawdę mamy do czynienia. Czy powyższe przypadki mogą stanowić poważny wyciek danych? Prawdopodobnie nie, jednak bez wątpienia większość ze wspominanych danych nie powinna być publicznie udostępniana i może w większym lub mniejszym stopniu przydać się potencjalnemu intruzowi na etapie rekonesansu przed planowanym atakiem. Poza tym świadczy to o nie do końca poważnym traktowaniu bezpieczeństwa informacji lub też braku wystarczającej świadomości w tym zakresie, co może negatywnie wpływać na wizerunek całej organizacji.
Jak się więc przed wyciekami (meta)informacji poszczególne organizacje mogą ochronić?
Należałoby zacząć od narzędzi administracyjnych, takich jak odpowiednie procedury oraz standardy postępowania z cyfrowymi dokumentami oraz metadanymi w nich zawartymi. Dobrym pomysłem wydaje się zalecenie usunięcia wszelkich metadanych z dokumentu (np. za pomocą wyspecjalizowanych narzędzi) przed jego upublicznieniem (w szczególności w Internecie). Oczywiście same rozwiązania administracyjne nie będą nigdy skuteczne bez dodatkowych działań, chociażby takich jak odpowiednie szkolenie pracowników oraz personelu IT w zakresie bezpieczeństwa informacji. Należy również aktywnie kontrolować, czy znaczące informacje nie wyciekają z naszej organizacji w postaci metadanych, co możemy osiągnąć m.in. za pomocą dobrze nam już znanego programu FOCA. Jak to zwykle bywa, tego typu narzędzia mogą służyć intruzom, lecz równie dobrze sprawdzą się w roli strażników naszego bezpieczeństwa. Warto więc z nich skorzystać, zanim ktoś inny zrobi to przed nami w złej wierze!
— Wojciech Smol, (wojciech.smol<at>sekurak.pl)
Fajny artykuł. Widze że autor skorzystał z wcześniejszego swojego artykułu do hakin9 o exif. Mam pytanie odnośnie hakin9 z tego co wiem to miało być wydanie tylko pdf. hakin9 PL powstają nowe wydania w wersji angielskiej na stronie hakin9.org a polskie wydania?.
Tomek,
Tak, rzeczywiście był kiedyś mój artykuł w hakin9 o podobnej tematyce, ale ten wpis raczej tylko luźno nawiązuje do niego tematem i skupia się na możliwościach programu Foca. Co do hakin9 to od dłuższego czasu nie mam już z tą organizacją nic wspólnego :).