Obecnie praktycznie na każdym kroku spotykamy się z pojęciem AI. Gdy producent mówi o nowym smartfonie czy też urządzeniu domowym, zawsze zapewnia o wsparciu sztucznej inteligencji, cokolwiek by to miało znaczyć. Nie inaczej jest ze Smart TV, gdzie zostały zaimplementowane zaawansowane algorytmy rzekomo idealnie dostosowujące obraz pod nasze preferencje. I zapewne tak rzeczywiście jest. A co, jeśli za to “nieocenione wsparcie” trzeba zapłacić prądem oraz własnym łączem?
TLDR:
Analitycy z Include Security, przy wsparciu badacza Buchodi przeprowadzili analizę pakietu SDK (Software Development Kit) oferowanego przez firmę Bright Data.
Okazało się, że darmowe aplikacje przeznaczone m.in. na SmartTV mogą używać tego komponentu do tworzenia węzłów proxy (exit nodes), przez które firmy trzecie przepychają masowy ruch sieciowy.
Co najgorsze, użytkownik wyraża na to zgodę, akceptując regulamin podczas pierwszego uruchomienia aplikacji.
Zgodnie z zapewnieniami firmy Bright Data rozwiązanie jest bezpieczne, nie zbiera danych osobowych, łączy się wyłącznie z zatwierdzonymi domenami (wskazanymi przez producenta), a dzienny transfer danych nie przekracza 50 MB.
Badacze wykazali, że to tzw. “okazjonalne” używanie łącza potrafiło zużyć nawet 200 GB danych miesięcznie.
Co więcej, komunikacja z urządzeniem użytkownika charakteryzowała się słabymi mechanizmami bezpieczeństwa, co samo w sobie otwiera furtkę dla atakujących.
Po nagłośnieniu sprawy Google, Amazon oraz Roku zablokowały pakiety SDK działające jako proxy w tle. Bright Data wciąż jednak deklaruje współpracę z systemami Tizen (Samsung) oraz webOS (LG).
Jak pokazują analizy przeprowadzone przez inżynierów z Include Security oraz badacza Buchodi, domowy telewizor może stać się potężnym narzędziem do masowego scrapowania internetu dla botów trenujących LLM-y (Large Language Models). Aby sprawdzić, jak to wygląda od kuchni analitycy wzięli na warsztat rozwiązania firmy Bright Data, rozkładając na czynniki pierwsze ich pakiet SDK (Software Development Kit) – fragment oprogramowania masowo zaszywany w aplikacjach konsumenckich.
Bright Data jest znaną międzynarodową firmą oferującą zaawansowane narzędzia do masowego pozyskiwania danych z sieci. Ich flagowym projektem jest największa na świecie sieć domowych adresów proxy (residential proxies), licząca ponad 400 milionów adresów IP. Urządzenia te zlokalizowane są na całym świecie – według danych dostępnych na stronie producenta, w samej Polsce aktywnych jest ok. 485,5 tys. takich punktów wyjściowych.
Za odpowiednią opłatą każdy może wykupić sobie dostęp do sieci i przepuścić ruch przez aktywne urządzenia. Warto więc zadać sobie pytanie, do czego taka infrastruktura może posłużyć? Zastosowań jest naprawdę wiele. Najbardziej dochodowym jest omijanie systemów anty-botowych typu Cloudflare, DataDome, czy też HUMAN.
Gdyby giganci technologiczni chcieli pozyskać dane treningowe dla swoich modeli AI, wysyłając miliardy zapytań bezpośrednio z serwerów w chmurze, zabezpieczenia stron natychmiast oznaczałyby taki ruch jako potencjalnie złośliwy. W konsekwencji skończyłoby się to natychmiastowym odcięciem serwerów oraz wyświetleniem błędu typu 403 lub ściany z Captcha.
W takim przypadku wykorzystanie domowych adresów IP staje się nieocenione. Ruch z domowego routera posiada najwyższą reputację, a co za tym idzie systemy bezpieczeństwa często w ogóle na niego nie zareagują. W efekcie boty AI mogą bez przeszkód scrapować dane na koszt użytkownika i przesyłać je na serwery dostawców.
No dobrze, ale skąd Bright Data posiada w swoim arsenale, aż tyle fizycznych urządzeń? Odpowiedź na to pytanie jest stosunkowo prosta – wszystko za sprawą wspomnianego wcześniej pakietu SDK, zaszytego w wielu darmowych aplikacjach.
Podczas instalacji tego typu oprogramowania użytkownik jest informowany, że w zamian za darmowy dostęp aplikacja może “okazjonalnie” korzystać z zasobów urządzenia oraz przesyłać dane “diagnostyczne” na serwer dostawcy. Na ekranie pojawia się profesjonalnie brzmiący komunikat, który przeciętny użytkownik przeklika pilotem lub palcem na ekranie, a następnie zaakceptuje, aby tylko uzyskać dostęp do pożądanego zasobu.
Analiza przeprowadzona przez badaczy jednoznacznie potwierdziła, że to “okazjonalne” używanie łącza potrafiło zużyć nawet 200 GB transferu miesięcznie. Głównym zadaniem realizowanym przez urządzenia było scrapowanie treści z zewnętrznych witryn na zlecenie klientów Bright Data.
Co ciekawe, kanał komunikacyjny zestawiony między urządzeniem końcowym a infrastrukturą dostawcą przypominał uproszczony model Command & Control (C2), znany z klasycznych botnetów. Urządzenie zgłaszało gotowość do działania, a serwer przesyłał instrukcje dotyczące kolejnych celów.
Badacze zwrócili również uwagę na sposób zabezpieczenia kanału komunikacyjnego. Według opisu protokół komunikacyjny został pozbawiony podstawowych mechanizmów bezpieczeństwa (uwierzytelnienie, integralność danych). Co więcej, analiza kodu SDK wykazała, że aplikacja potrafi omijać aktywne połączenie VPN użytkownika. Poprzez wymuszenie ruchu bezpośrednio przez Wi-Fi, oprogramowanie mogło ujawniać prawdziwy adres IP urządzenia.
Brak mechanizmów uwierzytelnienia oraz szyfrowania zapytań oznacza, że cyberprzestępcy potencjalnie mogliby przejąć infrastrukturę oraz wykorzystać ją do złośliwych celów (dystrybucja malware, skanowanie sieci, ataki typu DDoS). W takim scenariuszu odpowiedzialność za atak zostałaby przypisana do adresu IP użytkownika, a co za tym idzie jego sprzęt mógłby trafić na czarne listy systemów antyspamowych lub co gorsza mógłby zostać oznaczony jako element groźnego botnetu.
Dla zwykłego użytkownika oznaczałoby to nagłe problemy z ładowaniem stron, ciągłe alerty ze strony wyszukiwarek o wykryciu nietypowego ruchu i rozwiązywaniu zadań typu Captcha podczas próby wejścia na popularne witryny. W skrajnych przypadkach, funkcjonariusze CBZC mogliby zapukać do naszych drzwi i poinformować o zabezpieczeniu naszego sprzętu w związku z wykryciem podejrzanej aktywności.
Przedstawiciele firmy Bright Data stanowczo odpierają zarzuty. W oficjalnych oświadczeniach podkreślają, że ich infrastruktura jest bezpieczna, a perspektywa przejęcia przez cyberprzestępców jest mało prawdopodobna. Zapewniają przy tym, że pakiet SDK nie stanowi zagrożenia, oprogramowanie łączy się wyłącznie z zatwierdzonymi domenami (wskazanymi przez producenta), nie zbiera żadnych danych osobowych, a średnie dzienne zużycie transferu danych nie przekracza 50 MB.
Na dowód swoich słów dostawca powołuje się na niezależne audyty bezpieczeństwa oraz posiadane certyfikaty, takie jak SOC 2 czy ISO. Co więcej firma podkreśla, że w oficjalnym regulaminie (który każdy użytkownika musi zaakceptować zanim zacznie korzystać z danej aplikacji) powyższe informacje są przedstawione. Z punktu widzenia Bright Data kliknięcie „Accept” oznacza dobrowolne i legalne udostępnienie swojego łącza.
Po nagłośnieniu sprawy (serwis Lowpass) Google, Amazon oraz Roku zaczęły wprowadzać restrykcje dotyczące pakietów SDK działających jako proxy w tle, w wyniku czego Bright Datawycofała się z tych platform. Firma wciąż jednak deklaruje współpracę z systemami Tizen od Samsunga oraz webOS od LG.
Jeżeli instalujemy darmowe aplikacje oferujące funkcjonalność płatnych wersji, musimy się liczyć z tym, że płacimy za nie prywatnymi danymi lub mocą obliczeniową. W analizowanej kampanii okazało się, że po akceptacji regulaminu nasz domowy telewizor stawał się elementem większej sieci proxy, scrapującej internet w poszukiwaniu danych treningowych dla modeli AI.
Chcąc przeciwdziałać powyższym praktykom, zaleca się monitorowanie ruchu sieciowego urządzeń IoT oraz blokowanie zapytań do serwerów dostawcy na poziomie domowego routera lub lokalnego serwera DNS. Aby skutecznie odciąć SDK Bright Data od komunikacji ze światem, warto dodać do listy zablokowanych domen następujące pozycje:
proxyjs.bright-sdk.com,
proxyjs.brdtnet.com,
proxyjs.luminatinet.com,
clientsdk.bright-sdk.com,
clientsdk.brdtnet.com.
Należy pamiętać, że z czasem firma może zmienić sposób w jaki SDK nawiązuje połączenie, a co za tym idzie powyższa lista może wymagać aktualizacji.