Googleov MusicLM činio se obećavajućim sa svojom sposobnošću generiranja glazbe iz tekstualnih upita. Ali nakon što sam ga stavio na test, nije se baš pokazao.

U siječnju 2023. Google je najavio MusicLM, eksperimentalni AI alat koji bi mogao generirati glazbu na temelju tekstualnih opisa. Uz ovu vijest, Google je objavio zadivljujući istraživački rad za MusicLM koji je ostavio mnoge ljude zadivljenim sposobnošću stvaranja glazbe iz zraka.

S obzirom na tekstualni upit, model je obećao proizvesti glazbu visoke vjernosti koja je isporučila sve vrste opisa od žanra do instrumenta do apstraktnih naslova koji opisuju poznata umjetnička djela. Sada kada je MusicLM otvoren za javnost, odlučili smo ga staviti na test.

Googleov pokušaj stvaranja AI glazbenog generatora

Pretvaranje tekstualne upute poput "opuštajućeg jazza" u pjesmu spremnu za reprodukciju nedvojbeno je sveti gral eksperimenata u AI glazbi. Slično kao kod poznatih AI generatora slika kao što su Dall-E ili Midjourney, ne trebate imati ni trunku glazbenog znanja kako biste proizveli pjesmu koja ima melodiju i ritam.

instagram viewer

U svibnju 2023. oni koji su se prijavili na Googleovu AI Test Kitchen mogli su prvi put isprobati demo. Dočekuje ga web stranica jednostavna za korištenje i nekoliko vodećih pravila—elektronička i klasična instrumenti rade najbolje i ne zaboravite navesti "vibru"—stvaranje isječka glazbe je nezamislivo lako.

Brzina je jedna od rijetkih stvari koje MusicLM uistinu pruža, uz uzorke relativno visoke vjernosti. Međutim, pravi test nije se trebao mjeriti samo štopericom. Može li MusicLM proizvesti pravu glazbu koja se može slušati na temelju nekoliko riječi? Ne baš (uskoro ćemo doći do toga).

Kako koristiti MusicLM u Googleovoj AI Test Kitchen

Korištenje MusicLM-a je jednostavno, možete se prijaviti na listu čekanja za Googleova AI Test Kitchen ako želite dati mu priliku.

Na web-aplikaciji vidjet ćete tekstualni okvir u kojem možete sastaviti upit od nekoliko riječi do nekoliko rečenica koje opisuju vrstu glazbe koju želite čuti. Za najbolje rezultate Google savjetuje da "budete vrlo deskriptivni", dodajući da biste trebali pokušati uključiti raspoloženje i emociju glazbe.

Kada budete spremni, pritisnite enter za početak obrade. Unutar otprilike 30 sekundi, dva audio isječka bit će vam dostupna za audiciju. Između ta dva, imate opciju dodijeliti trofej najboljem uzorku koji odgovara vašem upitu, što zauzvrat pomaže Googleu da obuči model i poboljša njegov učinak.

Kako zvuči MusicLM

Ljudi stvaraju glazbu od prije najmanje 40.000 godina bez definitivne ideje je li glazba nastala prije, nakon ili u isto vrijeme s razvojem jezika. Stoga, na neki način, nije iznenađujuće da MusicLM nije do kraja razbio šifru ove drevne univerzalne umjetnosti.

Googleov MusicLM istraživački rad predložio je da MusicLM može generirati glazbu iz naslova koji pripadaju poznatim umjetničkim djelima i slijediti upute poput promjene žanra ili raspoloženja na glatki način slijedeći niz različitih upita.

Međutim, prije nego što smo krenuli s tako visokim zadacima, otkrili smo da MusicLM prvo mora riješiti nekoliko temeljnih problema.

Poteškoće s držanjem tempa

Najosnovniji posao svakog glazbenika jednostavno je svirati u taktu. Drugim riječima, držite se tempa. Iznenađujuće, to nije nešto što MusicLM može učiniti 100% vremena.

Zapravo, koristeći isti upit 10 puta, što daje 20 glazbenih zapisa, samo su tri stigle na vrijeme. Preostalih 17 uzoraka bilo je brže ili sporije od navedenog tempa koji je napisan u "otkucajima u minuti", široko korištenom izrazu za opisivanje glazbe.

U ovom smo primjeru upotrijebili upit "solo klasični klavir svira pri 80 otkucaja u minuti, mirno i meditativno". Pri pažljivijem slušanju glazba se često ubrzavala ili usporavala unutar male dužine uzorka.

Glazbi je također nedostajao snažan ritam i zvučala je kao da je netko pritisnuo play usred djela. Bez obzira je li to bilo namjerno ili ne, teško je procijeniti može li MusicLM zapravo komponirati pravi početak ili kraj glazbenog djela uz pridržavanje ritma.

Slučajni odabir instrumenta

Možda MusicLM još nije naučio svirati u strogom vremenu, pa smo prešli na drugi uobičajeni glazbeni parametar. Htjeli smo vidjeti hoće li odobriti naš zahtjev za određene instrumente.

Napisali smo nekoliko različitih upita koji uključuju opise poput "Solo sintesajzer" i "Solo bas gitara". Drugi su bili veći ansambli poput "Gudačkog kvarteta" ili "Jazz benda". U cjelini, izgledalo je kao 50:50 šanse da dobijete ono što ste tražili.

Jedna je teorija da model povezuje neke instrumente s popularnim glazbenim žanrovima. Uzmimo, na primjer, upit "Solo sintisajzer, progresija akorda. Živahan i optimističan". Umjesto da dobije sam zvuk sintesajzera, MusicLM je proizveo elektroničku pjesmu s bubnjevima i basom.

Moguće je da model jednostavno nije imao dovoljno podataka i dovoljno obuke za razumijevanje specifičnog zahtjeva za instrumentom.

Vokali su izvan jednadžbe

Prema tadašnjim ograničenjima, manekenka nije htjela proizvoditi glazbu koja sadrži vokale. Teški problemi MusicLM-a s autorskim pravima i loši vokali je vjerojatni čimbenik zašto je Google odlučio igrati na sigurno postavljanjem ovog ograničenja.

Ali nakon neko vrijeme eksperimentiranja s MusicLM-om, shvatili smo da Googleova kontrola nad izlazom modela nije baš željezna. Začudo, upit poput "akustične gitare" proizveo bi pjesmu koja je sadržavala vokale poput duhova u pozadini koji su zvučali prigušeno i udaljeno.

Iako ovo nije uobičajena pojava, ostavlja vas da se zapitate o sposobnosti MusicLM-a da stvori uvjerljive vokale.

Sa softverom kao što su VOCALOID i Synthesizer V prednjače Tehnologija glasovne sinteze potpomognuta umjetnom inteligencijom, izostavljanje vokala iz trenutnog modela ostavlja nas da se zapitamo nije li još uvijek dovoljno dobar da se natječe s postojećom tehnologijom. MusicLM bi mogao prijeći dug put prije nego mu glazbenici počnu pjevati hvalospjeve.

Budućnost AI glazbenih generatora

Dok je MusicLM pomaknuo generativnu AI glazbenu tehnologiju naprijed, mora se vratiti u školu i naučiti još nekoliko stvari prije nego što može preuzeti praktičan rad u glazbenoj industriji.

Do sada, najbolji pokušaj generativne AI glazbe bio je model koji je OpenAI nazvao JukeboxAI. Nije baš bio u stanju spremnom za korištenje, a bilo je potrebno nevjerojatnih devet sati da se renderira samo jedna minuta glazbe.

Za svoj trud, vjerojatno ćete dobiti pjesmu koja zaista zvuči vanzemaljsko, prožetu izobličenjem zvuka i artefaktima. S druge strane, nećete se dosađivati slušajući bizarne kreacije koje Jukebox dočarava.

U svjetlu ovoga, MusicLM je značajno napredovao prema AI generatoru glazbe jednostavnom za korištenje. Gotovo da bismo mogli oprostiti modelu njegove nasumične izlaze kada zastanete i razmislite koliko je komplicirano generirati glazbu u sirovom audio obliku.

Međutim, nakon što je model stavljen u rad, MusicLM se osjeća polovično u usporedbi s onim što je Google objavio u svom početnom istraživačkom radu. Rijetko kada AI generator slike pogrešno dobije sliku Applea, isto tako bi AI generator glazbe trebao ispraviti nekoliko osnova kao što su tempo i instrumenti.

Googleov MusicLM nije ispunio očekivanja

Uz tehnološke tvrtke koje se utrkuju da nadmaše jedna drugu na području umjetne inteligencije, MusicLM se čini kao da je ušao u javna ispitivanja prije nego što je bio spreman. Umjesto ispravnih osnova, čini se da model ima daleko nejasniji i subjektivniji pristup stvaranju glazbe.

Google vas može potaknuti da budete precizni s upitom, ali ne može dobro podnijeti tempo i nije zajamčeno da ćete svaki put dobiti instrumente koje ste tražili. MusicLM može biti zanimljiv i dobra demonstracija moćnog AI napretka, ali ako je glazba krajnji cilj, još je dug put pred njim.