Ovaj veliki jezični model obučen je na mračnom webu za procjenu prijetnji kibernetičkoj sigurnosti. Evo što trebate znati.
Popularnost velikih jezičnih modela (LLM) raste, a novi neprestano stupaju na scenu. Ovi modeli, poput ChatGPT-a, obično se obučavaju na različitim internetskim izvorima, uključujući članke, web stranice, knjige i društvene medije.
U potezu bez presedana, tim južnokorejskih istraživača razvio je DarkBERT, LLM obučen za skupove podataka preuzetih isključivo s mračnog weba. Njihov je cilj bio stvoriti AI alat koji nadmašuje postojeće jezične modele i pomaže istraživačima prijetnji, policiji i stručnjacima za kibernetičku sigurnost u borbi protiv kibernetičkih prijetnji.
Što je DarkBERT?
DarkBERT je transformatorski model kodera koji se temelji na RoBERTa arhitekturi. LLM je prošao obuku na milijunima mračnih web stranica, uključujući podatke s hakerskih foruma, web stranica za prijevare i drugih internetskih izvora povezanih s ilegalnim aktivnostima.
Uvjet "dark web" se odnosi na skriveni internetski dio
nedostupan putem standardnih web preglednika. Pododjeljak je poznat po skrivanju anonimnih web stranica i tržišta zloglasnih po ilegalnim aktivnostima, poput trgovine ukradenim podacima, drogama i oružjem.Za treniranje DarkBERT-a, istraživači su dobili pristup mračnom webu kroz Tor mrežu i prikupljao sirove podatke. Pažljivo su filtrirali te podatke koristeći tehnike kao što su deduplikacija, balansiranje kategorija i prethodna obrada stvoriti pročišćenu bazu podataka na tamnom webu, koja je zatim proslijeđena RoBERTa-i tijekom otprilike 15 dana za stvaranje DarkBERT.
Moguće upotrebe DarkBERT-a u kibernetičkoj sigurnosti
DarkBERT ima izvanredno razumijevanje jezika kibernetičkih kriminalaca i ističe se u uočavanju specifičnih potencijalnih prijetnji. Može istraživati mračni web i uspješno identificirati i označiti kibernetičke prijetnje poput curenja podataka i ransomwarea, što ga čini potencijalno korisnim alatom za borbu protiv kibernetičkih prijetnji.
Kako bi procijenili učinkovitost DarkBERT-a, istraživači su ga usporedili s dva renomirana NLP modela, BERT-om i RoBERTa, procjenjujući njihovu izvedbu u tri ključna slučaja upotrebe povezana s kibernetičkom sigurnošću, istraživanje, objavljeno na arxiv.org, ukazuje.
1. Pratite forume Dark Weba u potrazi za potencijalno štetnim temama
Praćenje foruma na mračnom webu, koji se obično koriste za razmjenu nedopuštenih informacija, ključno je za prepoznavanje potencijalno opasnih niti. Međutim, njihovo ručno pregledavanje može biti dugotrajno, zbog čega je automatizacija procesa korisna za sigurnosne stručnjake.
Istraživači su se usredotočili na potencijalno štetne aktivnosti na hakerskim forumima, osmišljavajući smjernice za komentare za važne niti, uključujući dijeljenje povjerljivih podataka i distribuciju kritičnog zlonamjernog softvera ili ranjivosti.
DarkBERT je nadmašio ostale jezične modele u smislu preciznosti, prisjećanja i F1 rezultata, postavši superioran izbor za prepoznavanje važnih niti na mračnom webu.
2. Otkrijte stranice koje sadrže povjerljive podatke
Hakeri i skupine ransomwarea koriste se mračnim webom za stvaranje mjesta curenja podataka, gdje objavljuju povjerljive podatke ukradene od organizacija koje odbijaju udovoljiti zahtjevima za otkupninu. Drugi kibernetički kriminalci samo prenose osjetljive podatke koji su procurili, poput lozinki i financijskih podataka, na mračni web s namjerom da ih prodaju.
U svojoj studiji istraživači su prikupili podatke iz zloglasne ransomware skupine i analizirali mjesta curenja ransomwarea koja objavljuju privatne podatke organizacija. DarkBERT je nadmašio druge jezične modele u identificiranju i klasificiranju takvih stranica, pokazujući svoje razumijevanje jezika koji se koristi u podzemnim hakerskim forumima na mračnom webu.
DarkBERT koristi funkciju ispune maske, inherentnu značajku jezičnih modela obitelji BERT, za točnu identifikaciju ključnih riječi povezanih s ilegalnim aktivnostima, uključujući prodaju droga na mračnom webu.
Kada je riječ "MDMA" bila maskirana na stranici za prodaju droga, DarkBERT je generirao riječi povezane s drogama, dok su drugi modeli predlagali općenite riječi i pojmove koji nisu povezani s drogama, poput raznih profesija.
Sposobnost DarkBERT-a da identificira ključne riječi povezane s nedopuštenim aktivnostima može biti dragocjena u praćenju i rješavanju novih cyber prijetnji.
Je li DarkBERT dostupan široj javnosti?
DarkBERT trenutno nije dostupan javnosti, ali istraživači su otvoreni za zahtjeve da ga koriste u akademske svrhe.
Iskoristite snagu umjetne inteligencije za otkrivanje i prevenciju prijetnji
DarkBERT je prethodno obučen za podatke s mračnog weba i nadmašuje postojeće jezične modele u više slučajeva upotrebe kibernetičke sigurnosti, pozicionirajući se kao ključni alat za unaprjeđenje istraživanja mračnog weba.
Umjetna inteligencija obučena za mračni web ima potencijal za korištenje za različite zadatke kibernetičke sigurnosti, uključujući prepoznavanje web stranica koje prodaju procurjele podatke povjerljivi podaci, nadgledanje foruma na mračnom webu radi otkrivanja nedopuštenog dijeljenja informacija i identificiranje ključnih riječi povezanih s cyber prijetnje.
Ali uvijek biste trebali imati na umu da je, kao i drugi LLM, DarkBERT rad u tijeku, a njegova se izvedba može poboljšati kontinuiranom obukom i finim podešavanjem.