Korisnici obično pristupaju velikim jezičnim modelima (LLM) korištenjem korisničkog sučelja putem API-ja. Iako pruža nekoliko prednosti, korištenje API-ja također uvodi ograničenja, kao što je potreba za stalnim internetom veza, ograničene prilagodbe, mogući sigurnosni problemi i tvrtke koje ograničavaju mogućnosti modela putem a paywall.
S kvantiziranim LLM-ovima koji su sada dostupni na HuggingFaceu i ekosustavima umjetne inteligencije kao što su H20, Text Gen i GPT4All omogućujući vam učitavanje LLM utega na vaše računalo, sada imate opciju besplatnog, fleksibilnog i sigurnog AI.
Za početak, evo sedam najboljih lokalnih/izvanmrežnih LLM-ova koje možete koristiti upravo sada!
1. Hermes GPTQ
Najsuvremeniji jezični model koji je fino podešen korištenjem skupa podataka od 300.000 uputa Nous Researcha. Hermes se temelji na Metinom LlaMA2 LLM-u i fino je podešen korištenjem uglavnom sintetičkih GPT-4 izlaza.
Model |
Hermes 13b GPTQ |
Veličina modela |
7,26 GB |
Parametri |
13 milijardi |
Kvantizacija |
4-bitni |
Tip |
LlaMA2 |
Licenca |
GPL 3 |
Korištenje LlaMA2 kao osnovnog modela omogućuje Hermesu da udvostruči veličinu konteksta ili maksimalnu veličinu tokena od 4,096. Spajajući veličinu dugog konteksta i arhitekturu kodera, poznato je da Hermes daje duge odgovore i niske stope halucinacija. To Hermesa čini izvrsnim modelom za razne obrada prirodnog jezika (NLP) zadatke, poput pisanja koda, stvaranja sadržaja i chatbota.
Postoji nekoliko kvantizacija i verzija novog Hermes GPTQ. Preporučamo da prvo isprobate model Hermes-Llama2 13B-GPTQ, budući da je to najlakša verzija za implementaciju, a još uvijek ima izvrsne performanse.
2. Falcon Instruct GPTQ
Ova kvantizirana verzija Falcona temelji se na arhitekturi samo za dekoder fino podešenoj na vrhu TII-jevog neobrađenog modela Flacon-7b. Osnovni model Falcon obučen je korištenjem izvanrednih 1,5 trilijuna tokena prikupljenih putem javnog interneta. Kao model dekodera temeljen samo na uputama, licenciran pod Apacheom 2, Falcon Instruct savršen je za male tvrtke koje traže model koji će koristiti za prevođenje jezika i unos podataka.
Model |
Falcon-7B-Instruct |
Veličina modela |
7,58 GB |
Parametri |
7 milijardi |
Kvantizacija |
4-bitni |
Tip |
Sokol |
Licenca |
Apache 2.0 |
Međutim, ova verzija Falcona nije idealna za fino podešavanje i služi samo za zaključivanje. Ako želite fino podesiti Falcon, morat ćete koristiti neobrađeni model, koji može zahtijevati pristup hardveru za obuku na nivou poduzeća kao što je NVIDIA DGX ili AMD Instinct AI akceleratori.
3.GPT4ALL-J Groovy
GPT4All-J Groovy je model samo za dekoder koji je fino ugodio Nomic AI i licenciran pod Apache 2.0. GPT4ALL-J Groovy temelji se na izvornom modelu GPT-J, koji je poznat kao odličan u generiranju teksta iz upita. GPT4ALL -J Groovy je fino podešen kao model za chat, što je izvrsno za aplikacije za brzo i kreativno generiranje teksta. To čini GPT4All-J Groovy idealnim za kreatore sadržaja jer im pomaže u pisanju i kreativnim radovima, bilo da se radi o poeziji, glazbi ili pričama.
Model |
GPT4ALL-J Groovy |
Veličina modela |
3,53 GB |
Parametri |
7 milijardi |
Kvantizacija |
4-bitni |
Tip |
GPT-J |
Licenca |
Apache 2.0 |
Nažalost, osnovni model GPT-J bio je obučen na skupu podataka samo na engleskom jeziku, što znači da čak i ovaj fino podešeni model GPT4ALL-J može razgovarati i izvršavati aplikacije za generiranje teksta samo na engleskom jeziku.
4.WizardCoder-15B-GPTQ
Tražite model posebno fino podešen za kodiranje? Unatoč znatno manjoj veličini, poznato je da je WizardCoder jedan od najboljih modela kodiranja koji nadmašuje druge modele kao što su LlaMA-65B, InstructCodeT5+ i CodeGeeX. Ovaj je model obučen korištenjem metode Evol-Instruct specifične za kodiranje, koja automatski uređuje vaše upite kako bi bili učinkovitiji upit vezan uz kodiranje koji model može bolje razumjeti.
Model |
WizardCoder-15B-GPTQ |
Veličina modela |
7,58 GB |
Parametri |
15 milijardi |
Kvantizacija |
4-bitni |
Tip |
LlaMA |
Licenca |
bigcode-openrail-m |
Budući da je kvantiziran u 4-bitni model, WizardCoder se sada može koristiti na običnim osobnim računalima, gdje ga pojedinci mogu koristiti za eksperimentiranje i kao pomoćnika kodiranja za jednostavnije programe i skripte.
5. Čarobnjak Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ je kvantizirana verzija Wizard Vicune temeljena na modelu LlaMA. Za razliku od većine LLM-ova objavljenih javnosti, Wizard-Vicuna je necenzurirani model s uklonjenim usklađivanjem. To znači da model nema iste sigurnosne i moralne standarde kao većina modela.
Model |
Čarobnjak-Vicuna-30B-Necenzurirano-GPTQ |
Veličina modela |
16,94 GB |
Parametri |
30 milijardi |
Kvantizacija |
4-bitni |
Tip |
LlaMA |
Licenca |
GPL 3 |
Iako je moguće predstavljanje Problem kontrole poravnanja AI, posjedovanje necenzuriranog LLM-a također donosi ono najbolje od modela jer vam je dopušteno odgovarati bez ikakvih ograničenja. To također omogućuje korisnicima da dodaju svoje prilagođeno poravnanje o tome kako bi AI trebala djelovati ili odgovoriti na temelju danog upita.
6. Orca Mini-GPTQ
Želite eksperimentirati s modelom obučenim na jedinstvenoj metodi učenja? Orca Mini je neslužbeni model implementacije Microsoftovih istraživačkih radova Orca. Bio je obučen korištenjem metode učenja učitelj-učenik, gdje je skup podataka bio pun objašnjenja umjesto samo upita i odgovora. To bi, u teoriji, trebalo rezultirati pametnijim studentom, gdje model može razumjeti problem, a ne samo tražiti ulazne i izlazne parove kao što je to kako rade tipični LLM-ovi.
Model |
Orca Mini-GPTQ |
Veličina modela |
8,11 GB |
Parametri |
3 milijarde |
Kvantizacija |
4-bitni |
Tip |
LlaMA |
Licenca |
MIT |
Sa samo tri milijarde parametara, Orca Mini GPTQ lako se pokreće čak i na manje moćnim sustavima. Međutim, ovaj se model ne bi trebao koristiti za bilo što profesionalno jer generira lažne informacije, pristrane i uvredljive odgovore. Ovaj model treba koristiti za učenje i eksperimentiranje s Orcom i njezinim metodama.
7.LlaMA 2 Chat GPTQ
LlaMA 2 je nasljednik izvornog LlaMA LLM-a, koji je iznjedrio većinu modela na ovom popisu. LlaMA 2 je zbirka nekoliko LLM-ova, od kojih je svaki obučen pomoću 7-70 milijardi parametara. Sve u svemu, LlaMA 2 je prethodno obučen korištenjem 2 trilijuna tokena podataka preuzetih iz javno dostupnih skupova podataka o uputama.
Model |
Falcon-40B-Instruct-GPTQ |
Veličina modela |
7,26 GB |
Parametri |
3 milijarde |
Kvantizacija |
4-bitni |
Tip |
OpenLlaMA |
Licenca |
EULA (Meta licenca) |
LlaMA 2 namijenjena je za komercijalnu i istraživačku upotrebu. Kao takav, ovaj model najbolje je koristiti nakon finog podešavanja za bolju izvedbu na određenim zadacima. Ovaj specifičan GPTQ model chata LlaMA 2 je fino podešen i optimiziran za engleski dijalog, čineći ga savršen model za tvrtke i organizacije kao chatbot s malo ili bez dodatne obuke potreban. Prema uvjetima, tvrtke koje imaju manje od 700 milijuna korisnika mogu koristiti LlaMA 2 bez plaćanja naknade za licenciranje od Mete ili Microsofta.
Isprobajte lokalne modele velikih jezika danas
Neki od gore navedenih modela imaju nekoliko inačica u pogledu parametara. Općenito, verzije s višim parametrima daju bolje rezultate, ali zahtijevaju snažniji hardver, dok će verzije s nižim parametrima generirati rezultate niže kvalitete, ali mogu raditi na hardveru nižeg ranga. Ako niste sigurni može li vaše računalo pokrenuti model, prvo pokušajte s verzijom s nižim parametrima, a zatim nastavite dok ne osjetite da pad performansi više nije prihvatljiv.
Budući da kvantizirani modeli na ovom popisu zauzimaju samo nekoliko gigabajta prostora i platforme za implementaciju modela kao što su GPT4All i Text-Generation-WebUI može se jednostavno instalirati putem njihovih programa za instalaciju jednim klikom, isprobavanje nekoliko modela i verzija modela ne bi trebalo trajati puno vremena i truda.
Pa što čekaš? Isprobajte lokalni model već danas!