Možda ste čuli za kontradiktorne napade u vezi s umjetnom inteligencijom i strojnim učenjem, ali što su oni? Koji su njihovi ciljevi?
Tehnologija često znači da su naši životi praktičniji i sigurniji. U isto vrijeme, međutim, takav napredak otključao je sofisticiranije načine za kibernetičke kriminalce da nas napadnu i pokvare naše sigurnosne sustave, čineći ih nemoćnima.
Umjetnu inteligenciju (AI) mogu podjednako koristiti stručnjaci za kibernetičku sigurnost i kibernetički kriminalci; slično, sustavi strojnog učenja (ML) mogu se koristiti i za dobro i za zlo. Ovaj nedostatak moralnog kompasa učinio je protivničke napade u ML-u sve većim izazovom. Dakle, što su zapravo kontradiktorni napadi? Koja je njihova svrha? I kako se možete zaštititi od njih?
Što su kontradiktorni napadi u strojnom učenju?
Adversarial ML ili adversarial napadi su kibernetički napadi koji imaju za cilj prevariti ML model zlonamjernim unosom i tako dovesti do niže točnosti i loše izvedbe. Dakle, usprkos svom nazivu, adversarial ML nije vrsta strojnog učenja, već niz tehnika koje kibernetički kriminalci — odnosno protivnici — koriste za ciljanje ML sustava.
Glavni cilj takvih napada obično je navesti model na dijeljenje osjetljivih informacija, neuspjeh u otkrivanju lažnih aktivnosti, stvaranje netočnih predviđanja ili kvarenje na temelju analize izvještaji. Iako postoji nekoliko vrsta kontradiktornih napada, oni često ciljaju otkrivanje neželjene pošte temeljeno na dubokom učenju.
Vjerojatno ste čuli za napad protivnika u sredini, što je nova i učinkovitija sofisticirana tehnika krađe identiteta koja uključuje krađu privatnih podataka, kolačiće sesije, pa čak i zaobilaženje metoda višestruke provjere autentičnosti (MFA). Srećom, protiv njih se možete boriti pomoću MFA tehnologija otporna na krađu identiteta.
Vrste kontradiktornih napada
Najjednostavniji način za klasificiranje vrsta kontradiktornih napada je njihovo razdvajanje u dvije glavne kategorije—ciljane napade i neciljane napade. Kao što se sugerira, ciljani napadi imaju određenu metu (kao što je određena osoba), dok neciljani napadi nemaju na umu nikoga konkretnog: mogu ciljati gotovo bilo koga. Nije iznenađujuće da neciljani napadi oduzimaju manje vremena, ali su i manje uspješni od svojih ciljanih pandana.
Ove dvije vrste mogu se dalje podijeliti na bijela kutija i Crna kutija adversarial napade, gdje boja sugerira poznavanje ili nedostatak znanja o ciljanom ML modelu. Prije nego što dublje zaronimo u napade bijele i crne kutije, bacimo brzi pogled na najčešće vrste kontradiktornih napada.
- Izbjegavanje: Uglavnom se koriste u scenarijima zlonamjernog softvera, napadi izbjegavanja pokušavaju izbjeći otkrivanje prikrivanjem sadržaja e-pošte zaražene zlonamjernim softverom i neželjene pošte. Koristeći metodu pokušaja i pogreške, napadač manipulira podacima u trenutku implementacije i narušava povjerljivost ML modela. Biometrijsko lažiranje jedan je od najčešćih primjera napada izbjegavanjem.
- Trovanje podacima: Također poznati kao kontaminirajući napadi, cilj im je manipulirati ML modelom tijekom razdoblja obuke ili implementacije i smanjiti točnost i izvedbu. Uvođenjem zlonamjernih inputa, napadači ometaju model i otežavaju stručnjacima za sigurnost da otkriju vrstu uzoraka podataka koji kvare ML model.
- Bizantski kvarovi: Ova vrsta napada uzrokuje gubitak usluge sustava kao rezultat Byzantine greške u sustavima koji zahtijevaju konsenzus među svim svojim čvorovima. Jednom kada jedan od njegovih pouzdanih čvorova postane lažni, može pokrenuti napad uskraćivanja usluge (DoS) i isključiti sustav sprječavajući druge čvorove u komunikaciji.
- Ekstrakcija modela: U napadu izvlačenja, protivnik će ispitati ML sustav crne kutije kako bi izvukao njegove podatke o obuci ili – u najgorem slučaju – sam model. Zatim, s kopijom ML modela u svojim rukama, protivnik bi mogao testirati svoj zlonamjerni softver na antimalware/antivirus i smisliti kako ga zaobići.
- Napadi zaključivanjem: Kao i kod napada ekstrakcijom, ovdje je cilj natjerati ML model da procuri informacije o svojim podacima o obuci. Međutim, protivnik će tada pokušati otkriti koji je skup podataka korišten za obuku sustava, tako da može iskoristiti ranjivosti ili pristranosti u njemu.
White-Box vs. Crna kutija vs. Grey-Box kontradiktorni napadi
Ono što razlikuje ove tri vrste suparničkih napada je količina znanja koju protivnici imaju o unutarnjem funkcioniranju ML sustava koje planiraju napasti. Dok metoda bijele kutije zahtijeva iscrpne informacije o ciljanom ML modelu (uključujući njegov arhitektura i parametri), metoda crne kutije ne zahtijeva nikakve informacije i može ih samo promatrati izlazi.
Model sive kutije, u međuvremenu, stoji u sredini ove dvije krajnosti. Prema njemu, protivnici mogu imati neke informacije o skupu podataka ili drugim detaljima o ML modelu, ali ne sve.
Kako možete obraniti strojno učenje od kontradiktornih napada?
Iako su ljudi još uvijek kritična komponenta u jačanju kibernetičke sigurnosti,AI i ML su naučili kako otkriti i spriječiti zlonamjerne napade— mogu povećati točnost otkrivanja zlonamjernih prijetnji, praćenja aktivnosti korisnika, prepoznavanja sumnjivog sadržaja i još mnogo toga. Ali mogu li odbiti kontradiktorne napade i zaštititi ML modele?
Jedan od načina na koji se možemo boriti protiv kibernetičkih napada je treniranje ML sustava da prepoznaju kontradiktorne napade unaprijed dodavanjem primjera njihovoj proceduri obuke.
Za razliku od ovog pristupa grube sile, obrambena metoda destilacije predlaže korištenje primarnog, učinkovitijeg modela za izračunavanje izbacite kritične značajke sekundarnog, manje učinkovitog modela i zatim poboljšajte točnost sekundarnog s primarnim jedan. ML modeli obučeni s obrambenom destilacijom manje su osjetljivi na kontradiktorne uzorke, što ih čini manje osjetljivima na iskorištavanje.
Također bismo mogli stalno modificirati algoritme koje ML modeli koriste za klasifikaciju podataka, što bi moglo učiniti kontradiktorne napade manje uspješnim.
Još jedna značajna tehnika je stiskanje značajki, koja će smanjiti prostor za pretraživanje dostupan protivnicima "istiskivanjem" nepotrebnih značajki unosa. Ovdje je cilj minimizirati lažne pozitivne rezultate i učiniti otkrivanje kontradiktornih primjera učinkovitijim.
Zaštita strojnog učenja i umjetne inteligencije
Suparnički napadi pokazali su nam da se mnogi ML modeli mogu razbiti na iznenađujuće načine. Naposljetku, kontradiktorno strojno učenje još je uvijek novo istraživačko polje unutar područja kibernetičke sigurnosti i dolazi s mnogim složenim problemima za AI i ML.
Iako ne postoji čarobno rješenje za zaštitu ovih modela od svih protivničkih napada, budućnost će vjerojatno donijeti naprednije tehnike i pametnije strategije za rješavanje ovog užasa protivnik.