Ekonomija

Aleksa Gordić, tvorac YugoGPT za NIN: Definisani su dalji koraci za jezički model na srpskom jeziku

Nikola Vojnović | 17. januar 2024 | 14:02
Aleksa Gordić, tvorac YugoGPT za NIN:  Definisani su dalji koraci za jezički model na srpskom jeziku
NIN / Ustupljena fotografija

Aleksa Gordić, svetski priznati stručnjak za mašinsko učenje i veštačku inteligenciju, pokrenuo je projekat YugoGPT, koji je osvojio pažnju hiljada korisnika.

Gordić je nakon impresivne karijere u kompanijama poput Majkrosofta i Gugla odlučio da iskoristiti svoje bogato iskustvo kako bi stvorio jezički model zasnovan na veštačkoj inteligenciji, a prilagođen govornom području bivše Jugoslavije.

Uoči nove godine lansiran je generativni AI „YugoGPT“ prvi LLM (large language model) za naše govorno područje. Za jako kratko vreme, ovaj domaći rival „ChatGPT-u“ privukao je više hiljada korisnika, a kako je za NIN podelio njegov tvorac, Aleksa Gordić, dalji koraci za njega i njegov jezički model su uveliko definisani.

Gordić, koji je na svetskoj AI sceni dobro poznat, ali ne i u domaćoj javnosti, kaže da se za ovaj impresivan potez (samostalno kreiranje LLM-a za naše govorno područje) odlučio iz više razloga.

- Jedan je društvene, drugi praktične prirode: mi želimo modele sa lokalnim vrednostima i kulturom. Ako pitate ChatGPT, „kako da platim porez ove godine, on će automatski pretpostaviti da vas interesuju porezi u SAD. Drugi je, recimo, činjenica da mnoge kompanije nisu komforne sa slanjem podataka na 3rd party američke API-e zbog bezbednosti i privatnosti podataka. Oni žele da „vrte“ LLM-ove na svojim kompjuterima, objašnjava on.

Kako napominje, treća klasa razloga za stvaranje „YugoGPT“ je tehnička, tj. kada imate pristup paramterima koji opisuju model, imate daleko veću kontrolu nad time šta taj model može da uradi.

- Možete da ga kvantizujete i time ga napravite manjim. Možete da ga dodatno istrenirate na vašim privatnim podacima i naravite od njega eksperta za recimo, pomenute poreze. Fleksibilniji ste da ga kontrolišete šta ovaj model vama vraća kao rezultat, kaže Gordić.

Sam pribavio hardver, sam trenirao „YugoGPT“

Kako objašnjava, veći deo posla je obavio sam: sam je pribavio neophodan hardver kako bi pokrenuo program, a u treniranju mu je pomogao jedan istraživač iz komšiluka.

- Zbog moje reputacije i konkecija u AI svetu, samo na socijalnim platformama me prati preko 160.000 ljudi, nekoliko AI kompanija se ponudilo da me sponzorišu, pa sam tako dobio 16 grafičkih kartica na korišćenje od kompanije Together AI. Zauzvrat oni dobijaju jednog „power user-a“ poput mene koji može da im da razne savete kako da unaprede svoje sisteme i dobijaju organski marketing za svoje usluge, kaže on.

Što se treniranja samog modela tiče, oko podataka mu je pomogao istaknuti hrvatski istraživač Nikola Ljubešić, te je on sam morao da uradi minimalnu obradu jer Ljubešić godinama sakuplja podatke.

- Model koji sam koristio kao početnu tačku je Mistral 7B model. Razlog što sam ovo morao da uradim, umesto da treniram LLM ispočetka, je što na celom internetu ne postoji dovoljno podataka na jezicima koje sam koristio. Da se istrenira deo koji je optimalan potrebno je najmanje 140 milijardi podataka, a idealno preko bilion da bi se dobio zadovoljavajuć kvalitet.

Odgovarajući na pitanje kako se „YugoGPT“ poredi sa ChatGPT-jem ističe da su glavne prednosti, mogućnost da ovaj model naučimo našoj kulturi i vrednostima, bezbednost i privatnost podataka, veća efikasnost...

Dok sa druge strane ističe da je glavna mana to što je jako teško dostići kvalitet LLM-a koji ima kompanija koja vredi milijarde dolara, poput OpenAI i koja se ovim poslom bavi skoro deceniju.

- Ali ne i nemoguće, sa pravim resursima mislim da mogu ovo da izvedem“, ističe.

Kako Gordić dodaje, nedavno je osnovao i jedan startap Runa AI, gde planira da pomaže kompanijama i državama da rešavaju široku paletu problema koji su rešivi sa ovim jezičkim modelima na jezicima koji su njima bitni, ne samo na engleskom.

NIN / Ustupljena fotografija
NIN / Ustupljena fotografija

Konkretno, on nabraja sledeće probleme: Ispravljanje gramatike, prebacivanje iz ijekavice u ekavicu i obrnuto, zatim prepravku postojećeg teksta (da služi kao asistent za pisanje i generisanje sadržaja), pravljenje sažetka nekog dužeg teksta i pretraga svih internih dokumenata.

- Logičan prvi korak za mene kao nekoga ko potiče iz Srbije je bilo da adresiram probleme regiona, nakon toga idemo i na druga tržišta, najavljuje Gordić, koji kaže da je prvi sledeći korak nova iteracija, dosta moćnija, ovog modela za šta je neophodna značajna količina novca zarad pravljenja super-kompjutera, privlačenja AI talenata itd.

Kako kaže, da bi kompanije, srednja i mala preduzeća ili startapi mogli da iskorsite “Yugo GPT” u svoju korist pre svega moraju da po jedan imaju pristup relativno velikom broju grafičkih kartica i pod dva imaju talenat koji se razume u ovu tehnologiju.

- Druga opcija je da sarađuju sa nama koji ćemo ovo i sami raditi i cela suština naše kompanije će biti da pomažemo drugim kompanijama da iskoriste ove moćne alate da reše svoje probleme, kaže Gordić i zaključuje:

- Jezički modeli će bez sumnje zablistati u apsolutno svim mogućim industrijama – i to već vidimo na zapadu, ali i u Kini.