Modele językowe LLM podpowiadają, jak zbudować bombę – atak typu ArtPrompt

21 marca 2024, 09:50 | W biegu | komentarze 2

Tagi: ai, artprompt, bypass, llm, prompt injection

Niektórzy nie mogą już sobie wyobrazić życia bez “inteligentnych” pomocników. Duże modele językowe (LLM – Large Language Models) zyskały bardzo dużo zastosowań w ostatnich latach. Wykorzystywane są do obsługi klientów, generowania niewielkich snippetów kodu, w charakterze osobistych asystentów i nie tylko. Wciąż poprawiane, uczone na coraz większej ilości danych, modele te stają się każdorazowo lepsze w generowaniu odpowiedzi na zadane pytania bądź żądania. Nie wszyscy użytkownicy sieci mają jednak szczytne intencje lub po prostu generują zapytania związane z nielegalnymi treściami. Dlatego też twórcy poszukują metod filtrowania i ograniczania zakresu informacji udzielanych przez ich modele.

Odpytując najpopularniejsze chatboty o tematy, np. uznane za nielegalne, można oczekiwać, że pytanie zostanie odrzucone. Złośliwi użytkownicy oraz badacze prześcigają się w pomysłach na obejście różnych metod, które mają za zadanie ograniczenia tematyki generowanych odpowiedzi przez LLMy. Przypomina to trochę grę w kotka i myszkę (co może być alegorią wielu gałęzi IT security). Badacze z uniwersytetów z Waszyngtonu oraz Chicago opublikowali bardzo ciekawą metodę obchodzenia filtrów treści w najpopularniejszych czatach z LLM takich jak GPT-3.5, GPT-4, Gemini, Claude czy Llama2.

Zaskakujący jest jednak sposób tworzenia zapytań zaproponowany przez naukowców. Opracowali oni metodę “maskowania” słów w zapytaniach kierowanych do LLM przy pomocy… ASCII art, tak tak – technika tworzenia prostych obrazków przy pomocy znaków ASCII może być bardzo przydatna w obejściu zaawansowanych filtrów. Obecnie powszechnie stosuje się dwie metody zabezpieczeń promptów modeli językowych. Można je skategoryzować jako “opierające się na detekcji”, które bazują na filtrowaniu wejścia oraz wyjścia modelu i blokowania tych złośliwych. Innym podejściem jest parafrazowanie inputu oraz jego ponowna tokenizacja w celu ograniczenia skutków złośliwych promptów.

Rys. 1. Grafika wraz z opisem metody działania jailbreaka promptów AI

Badacze opracowali benchmark pozwalający określić zdolność modeli do wykrywania pojedynczych i składających się z kilku liczb i cyfr ciągów, zbudowanych jako ASCII Art. Badanie wykazało, że obecnie wykorzystywane modele językowe mają trudności z rozpoznawaniem takich znaków. Dzieje się tak dlatego, że modele te są trenowane w oparciu o użycie semantyki do interpretacji znaków.

Właśnie to zachowanie powoduje, że ArtPrompt jest tak skuteczny. Modele mają problem z zamianą obrazkowo przedstawionych napisów na tokeny, które mogłyby zostać wykryte na etapie filtrowania. Ponadto modele “skupiają” się na procesie rozpoznawania tekstu, co powoduje, że proces filtrowania może zostać przeoczony lub przeprowadzony w niedostateczny sposób.

Atak ArtPrompt składa się z dwóch faz. Pierwszą z nich jest proces określony mianem “maskowania” i polega na generowaniu kolejnych zapytań, w których słowa promptu są po kolei z niego usuwane (szczególnie chodzi o słowa, które mogłyby doprowadzić do odrzucenia danego zapytania). W drugiej fazie “osłaniania” (ang. cloaking) generowane są zapytania, w których “wrażliwe” słowa są zastępowane przez napisy wygenerowane w formie ASCII art. Taki proces maskowania powoduje, że atakujący będzie musiał przeprowadzić tę fazę maksymalnie N razy (w stosunku do zapytania długości N). Oczywiście statystycznie będzie to z reguły znacznie mniej, ponadto można zoptymalizować ten proces przez odrzucenie zaimków, przedrostków itd. Jest to metoda dużo mniej złożona niż poprzednio zaproponowane ataki.

Rys. 2. Tabelka opisująca statystyki ataku

Przeprowadzone eksperymenty wskazują, że atak ArtPrompt może zostać skutecznie przeprowadzony na wszystkich testowanych LLMach (rysunek 2).

Rys. 3. Schemat pokazujący kroki ataku – model odpowiada jak przeprowadzić nielegalną operację

Autorzy zaznaczają, że atak ten będzie wciąż skuteczny nawet w przypadku multimodalnych modeli językowych, które posiadają funkcję rozpoznawania obrazów. Dzieje się tak z powodu tego, że pomimo możliwości graficznej interpretacji ASCII Artów, są one traktowane jako tekstowy format, co dodatkowo oszukuje model. Dokładny schemat ataku zaprezentowano w formie schematu zawartym w pracy (rysnek 3).

~fc

Dario

22 marca, 2024 | 10:51 am

Równie dobrze można mu powiedzieć, że prowadzisz szkolenie z tego zakresu i robisz to w celach edukacyjnych.

Odpowiedz
Orian

23 marca, 2024 | 11:32 am

Mając podstawowe pojęcie na dany temat można też wyłuskiwać informacje stosując zaprzeczenia, odwróconą logikę.
Wtedy LLM „wygada” się. Wystarczy postępować zupełnie odwrotnie do wskazówek, aby uzyskać właściwy wynik.
Zupełnie tak jak Glapiński jak coś mówi to znaczy, że jest dokładnie odwrotnie ;) ;) ;)

Odpowiedz

Wprowadzenie do bezpieczeństwa IT od sekuraka!

Modele językowe LLM podpowiadają, jak zbudować bombę – atak typu ArtPrompt

Spodobał Ci się wpis? Podziel się nim ze znajomymi:

Komentarze

Odpowiedz