Deepfake glazba oponaša stil određenog izvođača, uključujući njihov glas. Kako je moguće da zvuči tako stvarno?

Glazba je dugo vremena izbjegavala svijet deepfakeova jer je jednostavno bilo prekomplicirano sintetizirati nečiji glas. Sve se to promijenilo s napretkom AI tehnologije. To je rezultiralo glasovnim klonovima poznatih izvođača koji se mogu koristiti za proizvodnju novih vokalnih zapisa.

S AI alatima koji postaju sve dostupniji prosječnim ljudima, deepfake glazba je sve veći problem. Evo što je to i kako se stvara.

Evolucija Deepfake glazbe

Kada čujete svog omiljenog izvođača kako pjeva na Spotifyju ili YouTubeu, teško da mislite da bi to moglo biti lažno, ali napredak umjetne inteligencije učinio je to stvarnošću. Osim lažnih slika i videa, postoji i deepfake glazba.

Alati umjetne inteligencije mogu vjerno reproducirati nečiji pjevački glas obučavanjem modela umjetne inteligencije na audio uzorcima njezina glasa. Stvoreni od strane obožavatelja umjetnika ili obožavatelja AI tehnologije, sve više ljudi pokušava stvoriti vokalne dvojnike.

instagram viewer

Ljudi godinama pokušavaju sintetizirati glas pomoću računala, sve do 1961. kada je IBM 7094 bio prvo računalo koje je pjevalo. Možete čuti računalno generirani glas koji pjeva Daisy Bell u YouTube isječku i pokušajte zamisliti kako je ovaj trenutak bio nevjerojatan.

Brzo naprijed u 21. stoljeće i AI tehnologija poboljšala je kvalitetu sintetiziranog glasa i omogućio nam je da radimo stvari koje većina nas do sada nije smatrala mogućima, poput kloniranja ljudskih glasova.

Samo pogledajte ovaj snimak Roberta Nicksona koji svoj glas pretvara u umjetnika i repera Kanyea Westa. Gledanje videa čini se nevjerovatnim, doista zvuči poput Kanyea, ali ga je i neugodno gledati. Bez previše razmišljanja o tome kako bi umjetnik mogao misliti ili osjećati, i bez dopuštenja, to bi se moglo shvatiti kao prisvajanje nečijeg glasa.

Za razliku od računalne izvedbe Daisy Bell, AI kloniranje glasa može reproducirati točnu sličnost nečiji glas, koji uključuje sve suptilne razlike u boji koje nam pomažu identificirati nečiji jedinstveni vokal profil. Međutim, bez licence i bez dozvole, deepfake glazba ima ozbiljnih problema, o kojima ćemo govoriti kasnije.

Kako nastaju Deepfake pjesme

Za stvaranje deepfake pjesama koriste se različite metode, ali mnoge od njih koriste AI tehnologiju. Projekti otvorenog koda poput SoftVC VITS Singing Voice Conversion projekt na GitHubu, na primjer, razvili su AI model koji radi ono što kaže u svom nazivu: pretvara audio uzorak u glas koji pjeva.

Ovaj model uzima postojeću audio datoteku nekoga tko pjeva i pretvara je u glas nekog drugog. Stvari poput teksta i ritma izvornog glasa se zadržavaju, ali ton, timbar i osobne vokalne kvalitete pretvaraju se u glas određen skupom podataka za obuku.

Imajte na umu da se drugi dijelovi pjesme i dalje mogu proizvoditi ručno, poput stvaranja ritmova i melodija u istom stilu i žanru kao izvorni izvođač.

Da bi se stvorio deepfake Kanye Westovog glasa, skup podataka treće strane morao je biti unesen u SoftVC VITS model, koji bi uključivao uzorke pravog Kanyeovog glasa. Autor je u međuvremenu uklonio datoteku koja sadrži skup podataka, što nije iznenađujuće s obzirom na mutno pravno područje koje bi moglo doći s neovlaštenim skupovima podataka.

Iako nije pretvorena u komercijalnu aplikaciju, možete pronaći verziju aplikacije SoftVC VITS model na Google Collab-u koji je lakši za korištenje.

Dok se ne uspostave etičke i zakonske granice, moguće je da će se više aplikacija za kloniranje glasa pop-up—ne razlikuje se previše od aplikacije Drayk.it koja je tekstualni opis pretvorila u pjesme stilizirane prema izvođaču Drake. Kasnije je ugašen.

Neki drugi alati koji se koriste za stvaranje deepfake glazbe uključuju velike jezične modele poput ChatGPT, koji se može koristiti za pisanje tekstova u stilu poznatog umjetnika; i OpenAI-jev Jukebox i Googleov MusicLM, koji su generativni AI modeli koji mogu stvarati glazbu u sirovom audio obliku potpuno od nule.

Možete li čuti razliku?

Pjesma koju je stvorio anonimni korisnik pod nazivom Ghostwriter postala je viralna na TikToku u travnju 2023., ne malim dijelom jer je sadržavala stihove koje su pjevali umjetnici Drake i The Weeknd. Naravno, to nisu bili pravi glasovi umjetnika, već lažni.

Da vokal nije tako dobra kopija originala, možda ne bi bio hit. Uz malo kopanja, mogli ste prilično brzo saznati je li to prava stvar ili ne, ali koristeći samo svoje uši, mogli ste samo nagađati je li autentična.

Ako želiš identificirati sliku generiranu umjetnom inteligencijom postoji barem nekoliko vizualnih aberacija koje biste mogli potražiti. Što se tiče zvuka, znakovi poput zvuka niske vjernosti ili grešaka u zapisu ne znače mnogo jer su to kreativni izbori koji se cijelo vrijeme koriste u glazbenoj produkciji.

Ono što je još zanimljivije jest da se mnogima pjesma iskreno sviđa, čak i nakon što su otkrili da to nisu pravi glasovi Drakea ili The Weeknda. Obožavatelji su istaknuli da nije sve jednostavno generirano umjetnom inteligencijom, te da je pravo umijeće i rad uložen u pisanje tekstova, skladanje ritmova i spajanje cijele stvari.

Pjesma je dospjela na Spotify i YouTube prije nego što je sljedećih dana uklonjena, ali ne prije nego što su obožavatelji preuzeli pjesmu kao mp3. Još uvijek možete pronaći kopije pjesme na internetu ako tražite "Heart On My Sleeve, Drake ft. Vikend".

Uskoro će uočavanje razlike između glasovnih klonova generiranih umjetnom inteligencijom i pravog ljudskog glasa postati gotovo nemoguće. Imajući to na umu, ljudi se pitaju je li ovo uopće dobra upotreba AI tehnologije ili čak njezina legalna upotreba.

Problemi s Deepfake glazbom

S jedne strane, ljudi uživaju slušajući kombinacije svojih omiljenih izvođača koje su izradili obožavatelji i poštuju kreativnost koja ide u njihovu realizaciju. Ali mogućnost da imate vokalne klonove prvenstveno se oslanja na skupove podataka koji mogu, ali i ne moraju biti ovlašteni.

Bez dopuštenja, uzorci nečijeg glasa skupljaju se u skup podataka koji se zatim koristi za treniranje modela pretvorbe glasa pomoću umjetne inteligencije. Slično je problemu s kojim se suočava umjetnici koji žele ukloniti svoje slike iz skupova podataka za obuku koji se koriste za treniranje AI generatora slike kao što su Dall-E ili Midjourney.

Zakon o autorskim pravima također nije spreman nositi se s deepfake glazbom. Godine 2020. umjetnik Jay-Z nije uspio natjerati YouTube da ukloni AI-generirani zvuk njegovog repanja iz solilokvija Williama Shakespearea "To Be or Not to Be".

Kada se deepfake pjesma postavi na Spotify ili YouTube, također se postavlja pitanje tko zarađuje. Trebate li moći zaraditi na pjesmi koja gotovo točno kopira tuđi glas?

Holly Herndon jedna je umjetnica koja je pokušala stvoriti sustav za ljude koji joj daju naknadu u zamjenu za korištenje njezinog glasovnog modela za stvaranje originalnog djela. Dok drugi umjetnici poput Nicka Cavea imaju istupio protiv AI, pisanje:

Pjesme nastaju iz patnje, pod tim mislim da su utemeljene na složenoj, unutarnjoj ljudskoj borbi stvaranja i, koliko ja znam, algoritmi ne osjećaju.

Ponekad, Tekstu generiranom umjetnom inteligencijom može nedostajati kreativnosti sveukupno su još uvijek objavljeni na internetu. AI bi mogao rezultirati s mnogo loše glazbe u koju je uloženo vrlo malo truda.

Pronalaženje ravnoteže između glazbe i umjetne inteligencije

Deepfake glazba se stvara pomoću AI alata i AI modela koji su obučeni na neovlaštenim skupovima podataka. Neki su modeli otvorenog koda i slobodno im se može pristupiti, dok su drugi pokušaji upakirati ih u aplikaciju jednostavnu za korištenje.

Kako se sve više ljudi dočepa deepfake glazbenih modela ili aplikacija, vrijedi razmisliti o utjecaju na umjetnika. Dobivanje pristanka za skupove podataka za obuku i naknada za izvođača samo su neki od problema koji se nadvijaju nad AI glazbenom tehnologijom.