Zero-shot učenje rješava nekoliko problema u strojnom učenju, ali kako ono funkcionira i kako čini AI boljom?

Ključni zahvati

  • Generalizacija je neophodna u dubokom učenju kako bi se osigurala točna predviđanja s novim podacima. Zero-shot učenje pomaže u postizanju toga dopuštajući AI da koristi postojeće znanje za točna predviđanja o novim ili neviđenim klasama bez označenih podataka.
  • Zero-shot učenje oponaša kako ljudi uče i obrađuju podatke. Pružajući dodatne semantičke informacije, unaprijed obučeni model može točno identificirati nove klase, baš kao što čovjek može naučiti identificirati gitaru šupljeg tijela razumijevanjem njezinih karakteristika.
  • Zero-shot učenje poboljšava AI poboljšanjem generalizacije, skalabilnosti, smanjenjem prekomjernog opremanja i isplativosti. Omogućuje obučavanje modela na većim skupovima podataka, stjecanje više znanja kroz prijenos učenja, bolje razumijevanje konteksta i smanjenje potrebe za opsežnim označenim podacima. Kako umjetna inteligencija napreduje, zero-shot učenje postat će još važnije u rješavanju složenih izazova u raznim područjima.

Jedan od najvećih ciljeva dubinskog učenja je osposobiti modele koji su stekli opće znanje. Generalizacija je ključna jer osigurava da je model naučio smislene obrasce i može donijeti točna predviđanja ili odluke kada se suoči s novim ili neviđenim podacima. Uvježbavanje takvih modela često zahtijeva značajnu količinu označenih podataka. Međutim, takvi podaci mogu biti skupi, radno intenzivni, a ponekad i nemogući.

Zero-shot učenje implementirano je kako bi se premostio ovaj jaz, dopuštajući umjetnoj inteligenciji da koristi svoje postojeće znanje za izradu prilično točnih predviđanja unatoč nedostatku označenih podataka.

Što je Zero-Shot učenje?

Zero-shot učenje je specifična vrsta prijenosne tehnike učenja. Usredotočen je na korištenje unaprijed obučenog modela za prepoznavanje novih ili nikad prije viđenih klasa jednostavnim pružanjem dodatnih informacija koje opisuju pojedinosti nove klase.

Koristeći opće znanje modela o određenim temama i dajući mu dodatnu semantiku o tome što treba tražiti, on bi trebao biti u stanju prilično točno odrediti koju temu ima zadatak identificirati.

Recimo da trebamo identificirati zebru. Međutim, nemamo model koji bi mogao identificirati takve životinje. Dakle, dobivamo već postojeći model osposobljen za identifikaciju konja i kažemo modelu da su konji s crno-bijelim prugama zebre. Kada počnemo zaključivati ​​o modelu dajući slike zebre i konja, postoji dobra šansa da će model točno identificirati svaku životinju.

Poput mnogih tehnika dubinskog učenja, zero-shot učenje oponaša kako ljudi uče i obrađuju podatke. Poznato je da ljudi prirodno uče s nulom. Ako ste dobili zadatak pronaći gitaru šupljeg tijela u glazbenoj trgovini, možda ćete imati problema s traženjem iste. Ali kad vam jednom kažem da je šuplje tijelo u osnovi gitara s rupom u obliku slova F na jednoj ili obje strane, vjerojatno ćete je odmah pronaći.

Za primjer iz stvarnog svijeta, poslužimo se aplikacijom za klasifikaciju s nultim udarom open source LLM hosting stranica Hugging Face pomoću modela clip-vit-large.

Ova fotografija prikazuje sliku kruha u vrećici s namirnicama pričvršćenom na visoku stolicu. Budući da je model obučen na velikom skupu podataka slika, model vjerojatno može identificirati svaki predmet na fotografiji, poput kruha, namirnica, stolica i sigurnosnih pojaseva.

Sada želimo da model klasificira sliku koristeći prethodno neviđene klase. U ovom slučaju, nove ili neviđene klase bile bi "Relaxed Bread", "Safe Bread", "Sitting Bread", "Driving Grocery" i "Safe Grocery".

Imajte na umu da smo namjerno koristili neuobičajene neviđene klase i slike kako bismo pokazali učinkovitost klasifikacije bez snimanja na slici.

Nakon zaključivanja modela, bilo je u mogućnosti klasificirati s oko 80% sigurnosti da je najprikladnija klasifikacija za slika je bila "Siguran kruh". To je vjerojatno zato što model misli da je visoka stolica više za sigurnost nego za sjedenje, opuštanje ili vožnja.

Super! Osobno bih se složio s rezultatom modela. Ali kako je točno model došao do takvog učinka? Evo općenitog pogleda na to kako funkcionira učenje bez pokušaja.

Kako funkcionira Zero-Shot učenje

Zero-shot učenje može pomoći unaprijed obučenom modelu identificirati nove klase bez pružanja označenih podataka. U svom najjednostavnijem obliku, zero-shot učenje se provodi u tri koraka:

1. Priprema

Zero-shot učenje počinje pripremom tri vrste podataka

  • Viđena klasa: Podaci korišteni u obuci prethodno obučenog modela. Model već nudi viđene klase. Najbolji modeli za učenje bez pokušaja su modeli obučeni na predavanjima blisko povezanim s novim razredom koji želite da model identificira.
  • Neviđena/nova klasa: Podaci koji nikada nisu korišteni tijekom obuke modela. Morat ćete sami pripremiti ove podatke jer ih ne možete dobiti iz modela.
  • Semantički/pomoćni podaci: Dodatni bitovi podataka koji mogu pomoći modelu identificirati novu klasu. To može biti u riječima, frazama, umetnutim riječima ili imenima klasa.

2. Semantičko preslikavanje

Sljedeći korak je mapiranje značajki neviđene klase. To se postiže stvaranjem umetanja riječi i izradom semantičke karte koja povezuje atribute ili karakteristike nevidljive klase s dostavljenim pomoćnim podacima. AI prijenos učenja čini proces puno bržim jer su mnogi atributi koji se odnose na nevidljivu klasu već mapirani.

3. Zaključivanje

Zaključivanje je korištenje modela za generiranje predviđanja ili izlaza. U zero-shot klasifikaciji slika, ugradnje riječi generiraju se na danom ulazu slike i zatim se iscrtavaju i uspoređuju s pomoćnim podacima. Razina sigurnosti ovisit će o sličnosti između ulaznih i dostavljenih pomoćnih podataka.

Kako Zero-Shot učenje poboljšava AI

Zero-shot učenje poboljšava AI modele rješavanjem nekoliko izazova u strojnom učenju, uključujući:

  • Poboljšana generalizacija: Smanjenje ovisnosti o označenim podacima omogućuje obučavanje modela u većim skupovima podataka, poboljšavajući generalizaciju i čineći model robusnijim i pouzdanijim. Kako modeli postaju iskusniji i generaliziraniji, čak je moguće da modeli nauče zdrav razum nego tipičan način analiziranja informacija.
  • Skalabilnost: Modeli se mogu neprestano obučavati i stjecati više znanja prijenosom učenja. Tvrtke i neovisni istraživači mogu neprestano poboljšavati svoje modele kako bi bili sposobniji u budućnosti.
  • Smanjena mogućnost prekomjernog opremanja: Prekomjerno opremanje može se dogoditi zbog modela koji se trenira na malom skupu podataka koji ne sadrži dovoljno raznolikosti da predstavi sve moguće ulaze. Uvježbavanje modela kroz učenje od nule smanjuje šanse za prekomjerno opremanje obučavanjem modela da ima bolje kontekstualno razumijevanje subjekata.
  • Isplativ: Davanje velike količine označenih podataka može oduzeti vrijeme i resurse. Upotrebom zero-shot transfer učenja, obuka robusnog modela može se obaviti s mnogo manje vremena i označenih podataka.

Kako AI napreduje, tehnike poput zero-shot učenja postat će još važnije.

Budućnost Zero-Shot učenja

Zero-shot učenje postalo je bitan dio strojnog učenja. Omogućuje modelima prepoznavanje i klasificiranje novih klasa bez eksplicitne obuke. Sa stalnim napretkom u arhitekturi modela, pristupima temeljenim na atributima i multimodalnoj integraciji, zero-shot učenje može značajno pomoći da modeli budu puno prilagodljiviji u rješavanju složenih izazova u robotici, zdravstvu i računalu vizija.