AI modeli su dobri onoliko koliko su dobri podaci koji ulaze u njih. To ove podatke čini potencijalnom metom za napade.
Napredak u umjetnoj inteligenciji imao je značajan utjecaj na različita područja. Ovo je dalo razloga za zabrinutost velikom broju tehnoloških entuzijasta. Kako se ove tehnologije šire u različite aplikacije, mogu rezultirati povećanjem suparničkih napada.
Što su kontradiktorni napadi u umjetnoj inteligenciji?
Suparnički napadi iskorištavaju specifikacije i ranjivosti unutar AI modela. Oni kvare podatke iz kojih su modeli umjetne inteligencije naučili i uzrokuju da ti modeli generiraju netočne rezultate.
Zamislite da šaljivdžija mijenja škrabalice posložene kao ananas u "jabučar". To je slično onome što se događa u protivničkim napadima.
Prije nekoliko godina, dobivanje nekoliko netočnih odgovora ili izlaza iz AI modela bila je norma. Sada je obrnut slučaj, jer su netočnosti postale iznimka, a korisnici AI očekuju gotovo savršene rezultate.
Kada se ovi modeli umjetne inteligencije primijene na scenarije stvarnog svijeta, netočnosti mogu biti kobne, čineći protivničke napade vrlo opasnima. Na primjer, naljepnice na prometnim znakovima mogu zbuniti autonomni samovozeći automobil i natjerati ga da se uključi u promet ili izravno na prepreku.
Vrste kontradiktornih napada
Postoje različiti oblici kontradiktornih napada. s povećanje integracije AI u svakodnevne aplikacije, ti će napadi vjerojatno postati gori i složeniji.
Bez obzira na to, kontradiktorne napade možemo grubo klasificirati u dvije vrste na temelju toga koliko akter prijetnje zna o modelu umjetne inteligencije.
1. Napadi bijele kutije
U napadi bijele kutije, akteri prijetnji imaju potpuno znanje o unutarnjem funkcioniranju AI modela. Oni znaju njegove specifikacije, podatke o obuci, tehnike obrade i parametre. Ovo im znanje omogućuje da izgrade kontradiktorni napad posebno za model.
Prvi korak u napadu bijele kutije je mijenjanje izvornih podataka o obuci, njihovo oštećenje na najmanji mogući način. Izmijenjeni podaci i dalje će biti vrlo slični originalu, ali dovoljno značajni da uzrokuju da AI model daje netočne rezultate.
To nije sve. Nakon napada, akter prijetnje procjenjuje učinkovitost modela dajući mu protivničke primjere—iskrivljeni ulazi dizajnirani da uzrokuju greške u modelu— i analizira izlaz. Što je rezultat netočniji, to je napad uspješniji.
2. Napadi crne kutije
Za razliku od napada bijele kutije, gdje akter prijetnje zna za unutarnje funkcioniranje AI modela, počinitelji napadi crne kutije nemam pojma kako model radi. Oni jednostavno promatraju model iz mrtve točke, prateći njegove ulazne i izlazne vrijednosti.
Prvi korak u napadu crne kutije je odabir ulaznog cilja koji AI model želi klasificirati. Akter prijetnje zatim stvara zlonamjernu verziju unosa dodavanjem pažljivo izrađene buke, perturbacije podataka nevidljive ljudskom oku, ali koje mogu uzrokovati AI model kvar.
Zlonamjerna verzija se ubacuje u model, a izlaz se promatra. Rezultati koje daje model pomažu akteru prijetnje da nastavi mijenjati verziju sve dok ne bude dovoljno siguran da bi krivo klasificirao sve podatke koji su u nju uneseni.
Tehnike korištene u suparničkim napadima
Zlonamjerni entiteti mogu koristiti različite tehnike za izvođenje kontradiktornih napada. Evo nekih od ovih tehnika.
1. Trovanje
Napadači mogu manipulirati (otrovati) malim dijelom ulaznih podataka AI modela kako bi ugrozili njegove skupove podataka za obuku i točnost.
Postoji nekoliko oblika trovanja. Jedan od uobičajenih naziva se backdoor poisoning, gdje se utječe na vrlo malo podataka o obuci. AI model nastavlja davati vrlo precizne rezultate sve dok se ne "aktivira" da ne radi ispravno nakon kontakta s određenim okidačima.
2. Izbjegavanje
Ova je tehnika prilično smrtonosna jer izbjegava otkrivanje prateći sigurnosni sustav umjetne inteligencije.
Većina AI modela opremljena je sustavima za otkrivanje anomalija. Tehnike izbjegavanja koriste suparničke primjere koji izravno napadaju te sustave.
Ova tehnika može biti posebno opasna protiv kliničkih sustava kao što su autonomni automobili ili medicinski dijagnostički modeli. To su polja u kojima netočnosti mogu imati teške posljedice.
3. Prenosivost
Akteri prijetnji koji koriste ovu tehniku ne trebaju prethodno znanje o parametrima AI modela. Oni koriste kontradiktorne napade koji su u prošlosti bili uspješni protiv drugih verzija modela.
Na primjer, ako kontradiktorni napad uzrokuje da model klasifikatora slike zamijeni kornjaču s puškom, točan napad bi mogao uzrokovati da drugi modeli klasifikatora slika naprave istu pogrešku. Ostali modeli mogli su biti obučeni na drugom skupu podataka i čak imati drugačiju arhitekturu, ali su svejedno mogli postati žrtve napada.
4. Surogat majčinstvo
Umjesto da prati sigurnosne sustave modela koristeći tehnike izbjegavanja ili prethodno uspješne napade, akter prijetnje mogao bi upotrijebiti surogat model.
Ovom tehnikom akter prijetnje stvara identičnu verziju ciljanog modela, surogat modela. Rezultati, parametri i ponašanja surogata moraju biti identični originalnom modelu koji je kopiran.
Surogat će sada biti podvrgnut različitim suparničkim napadima sve dok jedan od njih ne proizvede netočan ishod ili izvrši pogrešnu klasifikaciju. Zatim će se ovaj napad upotrijebiti na izvornu ciljnu umjetnu inteligenciju.
Kako zaustaviti protivničke napade
Obrana od suparničkih napada može biti složena i dugotrajna jer akteri prijetnji koriste različite oblike i tehnike. Međutim, sljedeći koraci mogu spriječiti i zaustaviti kontradiktorne napade.
1. Suparnička obuka
Najučinkovitiji korak koji može spriječiti kontradiktorne napade je kontradiktorna obuka, obuka AI modela i strojeva korištenjem kontradiktornih primjera. To poboljšava robusnost modela i omogućuje mu da bude otporan na najmanje ulazne poremećaje.
2. Redovita revizija
Potrebno je redovito provjeravati slabosti u sustavu za otkrivanje anomalija AI modela. To uključuje namjerno hranjenje modela kontradiktornim primjerima i praćenje ponašanja modela prema zlonamjernom unosu.
3. Sanitizacija podataka
Ova metoda uključuje provjeru ima li zlonamjernih inputa unesenih u model. Nakon što ih identificirate, moraju se odmah ukloniti.
Ti se podaci mogu identificirati pomoću provjere valjanosti unosa, koja uključuje provjeru podataka za uzorke ili potpise prethodno poznatih kontradiktornih primjera.
4. Sigurnosna ažuriranja
Bilo bi teško pogriješiti sa sigurnosnim ažuriranjima i zakrpama. Višeslojna sigurnost poput vatrozida, anti-malware programa i sustavi za otkrivanje i sprječavanje upada može pomoći u blokiranju vanjskih smetnji aktera prijetnji koji žele otrovati model umjetne inteligencije.
Suparnički napadi mogli bi biti vrijedan protivnik
Koncept kontradiktornih napada predstavlja problem za napredno učenje i strojno učenje.
Kao rezultat toga, modeli umjetne inteligencije trebaju biti naoružani obranom kao što je kontradiktorna obuka, redovita revizija, sanacija podataka i relevantna sigurnosna ažuriranja.