AI nas može prevariti da generiranu umjetnost zamijenimo za prave fotografije. Pa zašto su ruke tako veliki izazov?

AI generatori evoluiraju pred našim očima zastrašujućom brzinom, ali još uvijek imaju nedostataka. Uočavanje čudnih detalja na AI slikama zapravo je prilično smiješno. Zbog toga su Midjourney ruke postale vruća tema, problem uobičajen u mnogim motorima.

Razjasnimo zašto ruke toliko izazivaju AI generatore slika. Njihovi programeri već rješavaju ovaj problem vrijedan memea, ali zanimljivo je razmišljati o tome kako umjetna inteligencija uči, a da ne spominjemo što joj se nađe na putu.

Zašto su ruke generirane umjetnom inteligencijom izazvale pometnju

Svatko tko koristi AI motore za stvaranje slika možda je primijetio da ruke rijetko ispadnu kako treba, ali problem je okrenuo glavu kada se hrpa "fotografija" pojavila na Twitteru.

Kad se bolje pogleda, čudne ruke ljudi odaju ih kao slike koje je generirala umjetna inteligencija. Činjenica da je ovo bio Midjourneyev pokušaj ruke učinila je situaciju zanimljivijom.

instagram viewer

Jedan od najboljih AI motora nije se mogao uhvatiti u koštac sa zamršenošću ljudskih ruku, pa su mogućnosti Midjourneyja i njegovih konkurenata stavljene na test. Istina, čak je i DALL-E sklon nestvarnim prstima i noktima.

Pompa je bila nesrazmjerna, s obzirom na to da su ruke generirane umjetnom inteligencijom oduvijek bile problem, ali dodatna pozornost doista je potaknula objavljivanje Midjourney v5 za poboljšanje na v4.

Nova verzija je poboljšala dizajn ruku, što je jasan pokazatelj da su AI inženjeri obratili pozornost na urnebesno komešanje i odlučili nadograditi mogućnosti softvera.

Drugi motori sporo slijede Midjourneyjev primjer, pa popravljanje umjetne inteligencije pomoću Photoshopa ostaje neprocjenjiva vještina. Glavna prepreka programerima je koliko je komplicirano istrenirati umjetnu inteligenciju da nacrta uvjerljive ruke.

Zašto se AI generatori slika bore s rukama?

AI motori koriste generativne kontradiktorne mreže (GAN) ili stabilnu difuziju za proizvodnju slika. Obje tehnologije zahtijevaju opsežne izvorne materijale, obuku i procesorsku snagu za stvaranje čak i najosnovnijih umjetničkih djela.

Budući da su već postojeće slike ključne za obuku umjetne inteligencije, programeri moraju hraniti svoj softver tisućama, ako ne i milijunima slika uz upite—ponavljanje procesa iznova i iznova dok motor ne shvati na što se određena riječ odnosi i kako to predstaviti objekt.

Ali izvorne slike iz kojih AI uči uglavnom su 2D, gdje su ruke prikazane u različitim položajima. Bilo ravno ili uvijeno, pokazuje pet ili tri prsta.

Na kraju dana, stroj zapravo ne razumije koncept ruku, a slike iz kojih uči ruke ne prikazuju uvijek jasno ili dovoljno dosljedno. Zato Midjourney ruke mogu biti tako ružne: AI zbunjenost.

Vrijedi kao Zabrinutost Elona Muska oko razvoja umjetne inteligencije možda se neki dijelovi tehnologije još moraju mnogo naučiti. A njihove prepreke nadilaze nedostatne primjere ruku.

Drugi razlozi zašto se AI generatori slika sporo poboljšavaju

Gledati u Midjourneyjevi modeli, v5 nudi naprednu usklađenost između tekstualnih upita i proizvedenih slika, kao i veću rezoluciju i dodatne alate. Ali takva postignuća nisu jeftina.

Uvježbavanje umjetne inteligencije da radi bolje s rukama zahtijeva ubacivanje boljih slika, posebno u 3D. To znači da se puno vremena i radne snage troši na procese, od nabave izvornih materijala do poboljšanja kodiranja i ponavljanja obuke dok umjetna inteligencija ne napravi ono što treba.

Čak i tada softver može pogriješiti u inače zapanjujućim umjetničkim djelima. Osim što je ogroman i složen posao, skup je. Dakle, ne očekujte besplatni AI generatori teksta u sliku da još malo pređe na Midjourneyev kalibar.

Jednostavno rečeno, problem s AI motorima nije samo u nemogućnosti ovih računalnih programa da u potpunosti razumiju kako ljudske značajke poput ruku i stopala izgledaju ili rade. Također se svodi na cijenu te na pristup tehnologije 3D slikama i tehnikama strojnog učenja koje mogu pomoći generatorima da realističnije shvate svijet oko sebe.

AI generatori slika neće se boriti zauvijek

Ruke su lukav koncept za umjetnu inteligenciju oko koje se može umotati binarna glava, ali rješenja problema već su na djelu. Midjourney, DALL-E 2 i druge platforme s vremenom će moći svesti neobične prste na minimum, ako ne i potpuno ih iskorijeniti.

Napredak u drugim područjima umjetne inteligencije osigurava da se tehnologija neprestano razvija, a njezini programeri uvijek uče nove načine njezine primjene i poboljšanja.