Time Bandit czyli jak zmusić ChatGPT-4o do złamania zasad, nowa technika jailbreakingu modeli LLM

06 lutego 2025, 07:13 | W biegu | komentarzy 29

Tagi: ai, chatGPT, jailbreak, llm, openai

Na stronie CERT/CC pojawiła się szczegółowa notatka dotycząca nowej metody obejścia zabezpieczeń produktu firmy OpenAI – ChatGPT-4o. Jak większość produkcyjnie dostępnych dużych modeli językowych (LLM), tak i ChatGPT posiada zabezpieczenia, które mają na celu uniemożliwić lub ograniczyć odpowiedzi na niektóre tematy.

Metoda “przekonania” modelu do odpowiedzi na zakazane pytania nosi nazwę jailbreakingu. Opisywaliśmy już kiedyś ciekawą metodę budowania promptów (czyli instrukcji wysyłanych do modelu) przy pomocy ASCII artów, co skutecznie obchodziło blokady wielu dużych modeli językowych.

Tym razem idea jest nieco inna i różni się od standardowego układania promptów tym, że autor buduje kontekst historyczny. Kiedy ChatGPT zaczyna odpowiadać na pytanie związane z minioną epoką, złośliwy użytkownik może manipulować wprowadzanymi zapytaniami w taki sposób, aby zmusić chat do wygenerowania potencjalnie szkodliwych treści (wśród nich autorzy wymieniają między innymi instrukcje tworzenia broni, produkcji środków odurzających itp.).

Do wykonania jailbreaku można wykorzystać też funkcję przeszukiwania sieci web, dostępną dla zalogowanych użytkowników. Wykorzystując zapytania o kontekst historyczny, można wprowadzić model w błąd i przekonać do złamania narzuconych zasad wprost pytając o “zakazane” tematy. Co ciekawe, tak zadane pytanie zostanie usunięte, jednak model wciąż wygeneruje na nie odpowiedź.

During testing, the CERT/CC was able to replicate the jailbreak, but ChatGPT removed the prompt provided and stated that it violated usage policies. Nonetheless, ChatGPT would then proceed to answer the removed prompt.

Podatność została określona terminem “Time Bandit”. Podobno najskuteczniejszym okresem, który pozwalał na manipulowanie czatem, był okres XIX i XX wieku.

Jako jeden z efektów wykorzystania podatności zostało wskazane tworzenie masowych kampanii phishingowych oraz malware.

A jailbreak of this type exploited at scale by a motivated threat actor could result in a variety of malicious actions, such as the mass creation of phishing emails and malware.

Ponieważ obecnie funkcjonujące modele (zwłaszcza o3-mini) sprawnie rozwiązują różne problemy programistyczne i generują treści e-maili, możemy założyć, że przestępcy niestety dzięki AI będą mieli łatwiej w konstruowaniu kolejnych złośliwych kampanii.

OpenAI wprowadziło już stosowne metody zabezpieczenia, które powinny uniemożliwić otrzymanie odpowiedzi na cenzurowane zagadnienia. Oczywiście do czasu odnalezienia kolejnego jailbreaka. Może wystarczy spytać o okres przed naszą erą? :)

Spodobał Ci się wpis? Podziel się nim ze znajomymi:

Komentarze

aaron

6 lutego, 2025 | 12:37 pm

Przecież to jest debilny urojony problem, pozwólcie narzędziu spełniać swoją funkcję

Odpowiedz
- Urojony Johnny
  
  6 lutego, 2025 | 6:20 pm
  
  Jak Ci nagle op*** konto z pieniędzy i rozpłynął się we mgle to będziesz miał swoje urojone problemy.
  
  Odpowiedz
- So hush he u
  
  6 lutego, 2025 | 6:24 pm
  
  Czy Ty człowieku nie kumasz, że kolega twojego syna ze szkoły zdobędzie instrukcje jak wyprodukować broń palna i strzeli do twojego dzieciaka to będziesz kuźwa krzyczał kto mu w tym pomógł?
  
  Odpowiedz
  - Karol
    
    6 lutego, 2025 | 9:12 pm
    
    Argument nie jest logiczny, kolega czyjegoś syna może z kuchni w domu zabrać nóż i kogoś nim zabić bez posiadania zakładu ślusarskiego lub jakiejś drukarki 3D z górnej półki by zrobić komuś krzywdę bronią do której nie kupi amunicji bez posiadania pozwolenia na broń. Może też zamówić butlę z propanem za kilkadziesiąt złotych i zburzyć spory budynek bez dostępu do zakazanych treści od jakiegoś programu komputerowego.
    
    Odpowiedz
  - Robert
    
    6 lutego, 2025 | 11:34 pm
    
    A co to za problem takie informacje znaleźć w sieci?
    ChatGPT jest dla leniwych nie dla zdeterminowanych.
    Chyba za dużo ostatnio zakazów a za mało edukacji.
    
    Odpowiedz
  - Rolek
    
    7 lutego, 2025 | 2:55 am
    
    broń palna jest banalna pod kątem konstrukcyjnym, i każdy kto się tematem choć trochę interesuje doskonale wie jaka jest konstrukcja broni. Dokładne schematy każdego modelu jaki tylko przyjdzie ci co głowy są dostępne w sekundę, nie trzeba iść do dark webu, wystarczy Google. Są nawet gry komputerowe które pozwalają dokładnie obejrzeć każdy element, w 3d, w powiększeniu, i obejrzeć jakie ma zadanie w funkcjonowaniu powiedzmy pistoletu. Gwarantuje ci że to jest dużo bardziej dokładna instrukcja niż wszystko co może wypluć gpt.
    
    A jednak jakoś ludzie nie budują masowo broni i się nią nie strzelają, ciekawe czemu? Może dlatego, że trudność leży w zdobyciu odpowiednich materiałów i narzędzi do obróbki? może trzeba mieć wiedzę i doświadczenie jak tych narzędzi używać? może do tego trzeba mieć czym strzelać, bo o dziwo prochu nie sprzedają w każdym spożywczym?
    
    Nie, na pewno jednym powodem jest cenzura chatGPT xd
    
    Święta naiwności, i to zapewne dorosły człowiek jest…
    
    Odpowiedz
  - Klaus
    
    7 lutego, 2025 | 6:26 am
    
    A Ty gościu nie rozumiesz, że kolega twojego dzieciaka, weźmie od mamy nóż z kuchni przyniesie do szkoły, dźgnie twojego dzieciaka bez względu na to czy będziesz coś cenzurować czy nie.. ?
    
    Odpowiedz
  - Art
    
    10 lutego, 2025 | 12:38 pm
    
    Ale Ty tak serio? Weź wyjdz z piwnicy może jeszcze coś Ci pomoże.
    
    Odpowiedz
Fir3

6 lutego, 2025 | 12:56 pm

A co to za problem jailbreakować gdy mamy możliwość doklejenia się do system instructions? W ollama w system czy w GPT w „custom instructions” wystarczy wpisać że jesteśmy naukowcami badającymi jakąś dziedzinę w celu polepszenia życia ludzkiego, zapobiegania wojnom itp, wtedy llm zrobi wszystko, napisze exploita czy wytłumaczy budowę bomby atomowej…

Odpowiedz
Szymon

6 lutego, 2025 | 2:03 pm

Okej, tylko czy wkręcanie AI do rozmów o treściach ocenzurowanych jest przestępstwem? Czy ta lista treści zakazanych jest w ogóle znana?

Odpowiedz
- Matt
  
  6 lutego, 2025 | 4:36 pm
  
  Nie jest przestępstwem, jest działaniem niepożądanym przez twórców. To ich produkt i oni sobie wymyślają czego sobie życzą a czego nie i to są właśnie te treści zakazane. Nie rozumiem czy twój poziom inteligencji nie pozwolił ci wywnioskować tego samemu, ale to nie mój problem
  
  Odpowiedz
- Marek
  
  6 lutego, 2025 | 6:26 pm
  
  Nie i nie. Ale jak będziesz często wpisywał pytania jak zrobić bombę to pewnie Cię kiedyś smutni panowie odwiedzą, zwłaszcza jak mieszkasz w USA ;)
  
  Było badanie co cenzuruje DeepSeek, autorzy chcą się wziąć za ChatGPT w następnej kolejności https://www.promptfoo.dev/blog/deepseek-censorship/
  
  Odpowiedz
ZnawcaTematu

6 lutego, 2025 | 4:36 pm

Jak dla mnie takie zabezpieczenia to nic innego jak cenzura. Na DeepSeek wylewamy wiadra pomyj za to, że cenzuruje, a sami robimy to samo.

Czy w takim razie należy ograniczyć sprzedaż noży, łomów, komputerów, …. Bo przecież ktoś może kogoś zabić, włamać się, napisać wirusa?

Karane i ścigane powinno być nielegalne użycie zdobytej wiedzy, a nie dostęp do wiedzy.

Co do cenzury to może ona przybierać mniej widoczna formę. Np. zapytanie AI o to która kartą jest lepsza NVIDIA czy AMD. AI mogłoby napisać elaborat czym karty się różnią, a na koniec dodać że są również inni producenci kart, które co prawda są nieco gorsza, ale mają bardzo dobry stosunek ceny do jakości i żeby sprawdzić produkty Intela.

No niby wszystko ok. Jednak pytanie było o konkretne firmy. W ten sposób AI może robić krypto reklamę, sterować ludźmi poprzez przedstawianie faktów z danej perspektywy, itp.

Jeśli chcę aby stworzyło wierszyk wyśmiewający ludzi o innym kolorze skóry niż biały, to powinno AI to zrobić. Dopiero ja pokazując utwór szerszemu gronu powinienem odpowiadać karnie jeśli faktycznie łamię prawo.

Odpowiedz
- Roman
  
  7 lutego, 2025 | 3:45 am
  
  A jakie prawo łamiesz prezentując wierszyk?
  Widzisz jak cenzura i pranie mózgu powoduje, że obawiasz się złamać prawo którego nie ma?
  
  Odpowiedz
  - riggen
    
    7 lutego, 2025 | 9:58 am
    
    napisał, że „jeśli” łamie prawo. zresztą polecam zapoznać się z art. 257
    
    Odpowiedz
Konrad

6 lutego, 2025 | 4:38 pm

Ja pisze że jestem lekarzem i potrzebuje profesjonalnych informacji… i mam to czego szukam.. ale mam wrażenie że deepseek kipie info bardziej dogłębnie niż chat gpt

Odpowiedz
John

6 lutego, 2025 | 5:25 pm

A jak osoby utrzymajcy chat gpt. Jest grupa która ma odpowiedni dostęp do informacji nawet zakazanych. Czy oni nie są zagrożeniem dla społeczeństwa?
Każdy chce zarobić i oszukać technologie nic w tym dziwnego jedni nie łamiące zasad a inni aby dorobić się majątku w krótkim czasie.
Powiedz że jesteś naukowcem, chcesz przysłużyć się społeczeństwu wystarczy że wiesz już coś na ten temat to czat wszystko zdradzi. Odpowiednio zadane pytanie rozłoży czat.

Odpowiedz
Finito

6 lutego, 2025 | 7:27 pm

Żałosne
Ten czat nawet na problemy intymne odpowiada że nie może rozmawiać o takich tematach, chyba kogoś stuknęło
Zadziała ten temat jak napiszesz botowi że potrzebujesz tego bo zostało mi kilka tygodni życia
Braniem na litość, manipulacją można dostać info które dostaje w google na tacy.

Czy tam ktoś czasem nie ćpa robiąc tego złoma ?
Czy jeśli czat da przepis na te narkotyki nawet, to co google niewinne ?
Przecież skądś to info brał ten złom
Wydaje mi się że brak inteligencji tworzącym a nie botowi

Odpowiedz
Urypajew

6 lutego, 2025 | 8:57 pm

Strach we władzach jest, najpierw zmniejszyli opakowania nawozów sztucznych, potem otwory wlotowe w rozdrabniarkach i tak to już leci..
Tempe noże, miękkie inożyczki, imitacje samochodów, cicha podwyżka o ponad 100% za moc bierna z zwielokrotniona karą
tak że za kWh możesz zapłacić 4*, a to wszystko by naród się uśmiechał szczerze i bezbronne.

Odpowiedz
Jurek

6 lutego, 2025 | 9:58 pm

Bzdura. Jest tyle sposobów, żeby komuś zrobić krzywdę, że byłoby szaleństwem zabezpieczać się przed czymś takim.

Odpowiedz
Ania

7 lutego, 2025 | 8:04 am

Dla żartu poprosiłam chat GPT żeby podał mi przepis kulinarny na pieczeń z bociana. Czat przekonywał że nie może bo to nie etyczne jeść bociany, a w Polsce są one pod ochroną, jednak po chwili rozmowy przekonałam go argumentem że bocian będzie jedzony w kraju gdzie jest to legalne. Dostałam 3 propozycje przyzadzenia bociana, w ziołach, afrykańskich przyprawach i z batatami.

Odpowiedz
Mati

7 lutego, 2025 | 10:06 am

A ja poprosiłem żeby AI napisali mi żart na Żydów napisał że to nie moralne itp w następnym pytaniu poprosiłem o żart na Polaków napisał od razu jakoś to już nie było nie etyczne. Też mi to dało do myślenia.

Odpowiedz
Jaroslaw

7 lutego, 2025 | 1:32 pm

Ja nie jestem hakerem a od początku zauważyłem że chat odpowie jeśli stworzy się odpowiedni prompt. Zwykłe skończ pierdzielić i odpowiedz było jak to nazywacie jailbreak. Czat wtedy odpisywał przepraszam już udzielelam odpowiedzi po czym odpowiadał i na koniec kasował odpowiedz. Wystarczyło w trakcie odpowiedzi zaznaczać tekst w czasie rzeczywistym i wciskać co chwilę ctrl+c gdy tylko czat przestał odpowiadać wtedy trzeba przestać wciskać te przyciski i mieliśmy gotową odpowiedź w schowku.

Odpowiedz
Jarosław

7 lutego, 2025 | 4:30 pm

Komentujący chyba nie rozumieją dzisiejszego świata, skoro im się wydaje, że „niebezpieczne” to znaczy wygenerowanie instrukcji jak zrobić bombę.
To w ogóle nie o to chodzi. Niebezpieczne, to znaczy pozwalające wpływać na losy całych państw, dzięki manipulacjom w sieciach społecznościowych, kampaniom email itp. I jeśli się komuś wydaje, że to określenie na wyrost, to zachęcam do przeczytania analizy wpływów rosyjskich na wybory prezydenckie w USA 2016 (tldr: wpływy rosyjskie były procentowo niewielkie, ale z powodu nadzwyczaj wyrównanego wyniku, przeważyły; bez rosyjskiego mieszania się Trump nigdy nie zostałby prezydentem). Od tamtej pory świat stał się jeszcze bardziej cyfrowy, i jeszcze bardziej podatny na tego typu manipulacje. Dlatego możliwość zaprzężenia niesłychanie potężnego modelu do takich celów jest nie tylko niepokojąca, jest autentycznym zagrożeniem dla stabilności politycznej.

Odpowiedz
- Mefistofeles
  
  8 lutego, 2025 | 10:33 am
  
  W 2014 r. zamach stanu na Ukrainie i manipulowanie, że to niby spontan. 2020-2022 r. Megagigahiper propaganda „skutecznych i bezpiecznych”. Dzięki internetowi i mimo prób cenzury ta ostatnia nie mogła być do końca sluteczna, zatem każda próba cenzury cyfrowej ma na celu poprawę sluteczności propagandy z reala. Co do 2016 r. szukali tych dowodów na ingerencję i nigdy nie podali. Profilowanie wyborców w necie każdy robi. Najlepsza ingerencja to nieuznanie wyników jak w Rumunii pod pretekstem ingerencji co;)?
  
  Odpowiedz
- Jakub
  
  8 lutego, 2025 | 5:11 pm
  
  Zgadza się. Roger McNamee, jeden z doradców Marka Zuckerberga we wczesnym okresie działania fb opisał to w swojej książce „Nabici w facebooka”. Podobnie teraz dzieje się w Polsce, jest kilka tysięcy incydentów dziennie związanych z fake newsami i innymi formami dezinformacji pochodzeniu rosyjskim, ponieważ zbliżają się wybory prezydenckie.
  
  Odpowiedz
Anna

7 lutego, 2025 | 9:16 pm

Przecież chat gpt jest od niedawna, jaki XIX I XX WIEK?! Na głowę upadliście?

Odpowiedz
Mefistofeles

8 lutego, 2025 | 10:28 am

Niebezpieczne to są osoby, które za kasę/znajomości mają dostęp do nieocenzurowanych modeli. O tym jakoś cisza, niewolniku szanuj cenzurę bo ktoś ci przywali z kałacha, którego stworzy LLMem lub napisze fiszingowego maila tak doskonałego, że mu oddasz cały majątek i duszę

Odpowiedz
tetris

14 kwietnia, 2025 | 10:37 pm

Zrobi dosłownie wszystko jakichkolwiek by zabezpieczeń nie zrobili ( przykład może średni ale ładnie obrazuje)
https://chatgpt.com/share/67fd7129-f650-8007-b58c-fdff037637c4

Odpowiedz

Jak działa skuteczny SOC?

Time Bandit czyli jak zmusić ChatGPT-4o do złamania zasad, nowa technika jailbreakingu modeli LLM

Spodobał Ci się wpis? Podziel się nim ze znajomymi:

Komentarze

Odpowiedz