Preorder drugiego tomu książki sekuraka: Wprowadzenie do bezpieczeństwa IT. -15% z kodem: sekurak-book

Time Bandit czyli jak zmusić ChatGPT-4o do złamania zasad, nowa technika jailbreakingu modeli LLM

06 lutego 2025, 07:13 | W biegu | 0 komentarzy

Na stronie CERT/CC pojawiła się szczegółowa notatka dotycząca nowej metody obejścia zabezpieczeń produktu firmy OpenAI – ChatGPT-4o. Jak większość produkcyjnie dostępnych dużych modeli językowych (LLM), tak i ChatGPT posiada zabezpieczenia, które mają na celu uniemożliwić lub ograniczyć odpowiedzi na niektóre tematy. 

Metoda “przekonania” modelu do odpowiedzi na zakazane pytania nosi nazwę jailbreakingu. Opisywaliśmy już kiedyś ciekawą metodę budowania promptów (czyli instrukcji wysyłanych do modelu) przy pomocy ASCII artów, co skutecznie obchodziło blokady wielu dużych modeli językowych.

Tym razem idea jest nieco inna i różni się od standardowego układania promptów tym, że autor buduje kontekst historyczny. Kiedy ChatGPT zaczyna odpowiadać na pytanie związane z minioną epoką, złośliwy użytkownik może manipulować wprowadzanymi zapytaniami w taki sposób, aby zmusić chat do wygenerowania potencjalnie szkodliwych treści (wśród nich autorzy wymieniają między innymi instrukcje tworzenia broni, produkcji środków odurzających itp.). 

Do wykonania jailbreaku można wykorzystać też funkcję przeszukiwania sieci web, dostępną dla zalogowanych użytkowników. Wykorzystując zapytania o kontekst historyczny, można wprowadzić model w błąd i przekonać do złamania narzuconych zasad wprost pytając o “zakazane” tematy. Co ciekawe, tak zadane pytanie zostanie usunięte, jednak model wciąż wygeneruje na nie odpowiedź.

During testing, the CERT/CC was able to replicate the jailbreak, but ChatGPT removed the prompt provided and stated that it violated usage policies. Nonetheless, ChatGPT would then proceed to answer the removed prompt.

Podatność została określona terminem “Time Bandit”. Podobno najskuteczniejszym okresem, który pozwalał na manipulowanie czatem, był okres XIX i XX wieku. 

Jako jeden z efektów wykorzystania podatności zostało wskazane tworzenie masowych kampanii phishingowych oraz malware. 

A jailbreak of this type exploited at scale by a motivated threat actor could result in a variety of malicious actions, such as the mass creation of phishing emails and malware.

Ponieważ obecnie funkcjonujące modele (zwłaszcza o3-mini) sprawnie rozwiązują różne problemy programistyczne i generują treści e-maili, możemy założyć, że przestępcy niestety dzięki AI będą mieli łatwiej w konstruowaniu kolejnych złośliwych kampanii.

OpenAI wprowadziło już stosowne metody zabezpieczenia, które powinny uniemożliwić otrzymanie odpowiedzi na cenzurowane zagadnienia. Oczywiście do czasu odnalezienia kolejnego jailbreaka. Może wystarczy spytać o okres przed naszą erą? :) 

Spodobał Ci się wpis? Podziel się nim ze znajomymi:



Komentarze

Odpowiedz