Arhitektura velikih jezičnih modela (LLM)
Transformatorska arhitektura: Temelj modernih LLM
Transformatorska arhitektura predstavlja temeljni proboj u području obrade prirodnog jezika i čini osnovu svih modernih velikih jezičnih modela (LLM). Za razliku od prethodnih pristupa temeljenih na rekurentnim (RNN) ili konvolucijskim (CNN) neuronskim mrežama, transformatori koriste tzv. mehanizam pažnje (attention), koji omogućuje učinkovito hvatanje dugoročnih ovisnosti u tekstu bez sekvencijalne obrade. Ovaj arhitektonski temelj ključan je za učinkovit proces treniranja jezičnih modela.
Ključna značajka transformatorske arhitekture je njena paralelizabilnost - svi tokeni ulazne sekvence mogu se obraditi istovremeno, što dramatično ubrzava treniranje i inferenciju. Standardni transformator sastoji se od enkodera (kodirajućeg dijela) i dekodera (dekodirajućeg dijela), pri čemu moderni LLM kao što je GPT koriste primarno arhitekturu samo s dekoderom (decoder-only), dok su modeli poput BERT-a samo s enkoderom (encoder-only). Modeli tipa T5 ili BART koriste kompletnu enkoder-dekoder arhitekturu.
Tehničke specifikacije transformatorskih modela
Moderni LLM kao što su GPT-4, Claude ili Llama 2 implementiraju duboke transformatorske arhitekture s desecima do stotinama slojeva. Svaki sloj (layer) obrađuje informacije putem multi-head attention mehanizama i feed-forward neuronskih mreža. Performanse modela u velikoj mjeri određuje broj parametara (težina), koji se kreće od jedinica milijardi kod manjih modela do stotina milijardi ili čak bilijuna kod najvećih sustava.
Mehanizmi samopažnje i njihova implementacija
Samopažnja (self-attention, ponekad nazvana i scaled dot-product attention) predstavlja ključnu komponentu transformatorske arhitekture. Ovaj mehanizam omogućuje modelu da procijeni odnose i ovisnosti između svih tokena u sekvenci i dinamički odredi na koje dijelove teksta se treba usredotočiti pri interpretaciji određene riječi ili fraze.
S tehničkog gledišta, samopažnja transformira svaki token u tri različita vektora: query (Q), key (K) i value (V). Naknadni izračun pažnje uključuje množenje matrica Q i K, skaliranje rezultata, primjenu softmax funkcije za dobivanje težina pažnje i konačno množenje s matricom V za dobivanje kontekstualno obogaćene reprezentacije. Matematički se ovaj proces može izraziti jednadžbom:
Attention(Q, K, V) = softmax(QKT / √dk)V
Multi-head attention
Moderni LLM koriste tzv. multi-head attention, što omogućuje modelu istovremeno praćenje različitih vrsta odnosa u tekstu. Na primjer, jedna glava pažnje (attention head) može pratiti sintaktičke odnose, dok se druga fokusira na semantičku sličnost ili koreferencijske odnose. Broj glava pažnje važan je hiperparametar, koji se obično kreće od 12 kod manjih modela do 96 ili više kod najvećih sustava. Svaka glava djeluje u nižoj dimenziji od izvornog vektora ugradnje (embedding), što osigurava računsku učinkovitost uz očuvanje ekspresivne sposobnosti modela.
Dimenzije ugradnje i reprezentacija tokena
Dimenzija ugradnje (embedding dimension) predstavlja ključni hiperparametar koji određuje veličinu vektorske reprezentacije pojedinačnih tokena u jezičnom modelu. U modernim LLM ova vrijednost se obično kreće od 768 kod manjih modela do 12288 ili više kod najvećih sustava. Veća dimenzija ugradnje omogućuje hvatanje finijih semantičkih nijansi i složenijih lingvističkih odnosa, ali istovremeno povećava računsku zahtjevnost i količinu parametara modela.
Proces pretvaranja tokena u ugradnje (embeddings) uključuje tablicu pretraživanja (lookup table), gdje svakom mogućem tokenu odgovara jedinstveni vektor ugradnje. Ove početne ugradnje dodatno su obogaćene informacijama o položaju putem tzv. položajnih ugradnji (positional embeddings), koje mogu biti implementirane ili kao parametri koji se uče ili pomoću determinističkih sinusoidalnih funkcija.
Kontekstualni kapacitet ugradnji
Važan aspekt ugradnji u LLM je njihov kontekstualni kapacitet, odnosno sposobnost čuvanja informacija o odnosima između tokena kroz duge sekvence. Moderni modeli kao što su GPT-4 ili Claude 3 Opus postižu kontekstualne prozore veličine od 32K do 128K tokena, što omogućuje obradu dugih dokumenata, složenih razgovora ili sofisticiranih uputa. Pravilna implementacija položajnih ugradnji ključna je za učinkovito skaliranje kontekstualnog prozora, pri čemu napredni modeli koriste tehnike kao što su RoPE (Rotary Position Embedding) ili ALiBi (Attention with Linear Biases) za poboljšanje performansi na dugim sekvencama.
Feed-forward neuronske mreže u LLM
Feed-forward neuronske mreže (FFN) čine drugu glavnu komponentu svakog transformatorskog sloja, slijedeći nakon mehanizma samopažnje. Dok pažnja hvata odnose između tokena, FFN obrađuje informacije za svaki token zasebno i primjenjuje nelinearne transformacije koje su ključne za ekspresivnu sposobnost modela.
Tipična implementacija FFN u transformatoru uključuje dvije linearne transformacije s aktivacijskom funkcijom (najčešće ReLU ili GELU) između njih. Matematički se ovaj proces može izraziti kao:
FFN(x) = Linear2(Activation(Linear1(x)))
Parametrizacija i optimizacija FFN
S gledišta arhitekture, ključni parametar FFN je tzv. skrivena dimenzija (hidden dimension), koja određuje veličinu međurezultata nakon prve linearne transformacije. Ova vrijednost je obično 4 puta veća od dimenzije ugradnje, što osigurava dovoljan kapacitet za hvatanje složenih obrazaca. U modernim arhitekturama kao što su PaLM ili Chinchilla eksperimentira se s alternativnim konfiguracijama, uključujući SwiGLU ili GeGLU aktivacije i mixtures-of-experts pristupe, koji dodatno povećavaju učinkovitost FFN komponenti.
Zanimljiv aspekt FFN komponenti je da čine većinu parametara modernih LLM - obično 60-70% svih težina. To ih čini primarnim kandidatima za optimizacijske tehnike kao što su pruning (uklanjanje nepotrebnih težina), kvantizacija ili aproksimacija niskog ranga u slučajevima kada je potrebno smanjiti memorijske zahtjeve modela.
Kvantizacija i druge tehnike optimizacije
Kvantizacija predstavlja ključnu tehniku optimizacije koja omogućuje smanjenje memorijskih zahtjeva LLM uz očuvanje većine njihovih sposobnosti. Princip se sastoji u pretvaranju parametara modela iz visoke preciznosti (obično 32-bitnih float vrijednosti) u nižu preciznost (16-bitna, 8-bitna ili čak 4-bitna reprezentacija). Pravilno implementirana kvantizacija može smanjiti veličinu modela do 8 puta uz minimalan utjecaj na kvalitetu odgovora.
Moderni pristupi kao što su GPTQ, AWQ ili QLoRA implementiraju sofisticirane kvantizacijske algoritme koji optimiziraju proces na temelju statističkih svojstava težina i njihove važnosti za točnost modela. Post-training kvantizacija (PTQ) primjenjuje kompresiju na već istrenirani model, dok quantization-aware training (QAT) integrira kvantizacijske aspekte izravno u proces treniranja.
Druge tehnike optimizacije
Osim kvantizacije, moderni LLM koriste niz drugih tehnika optimizacije:
Model pruning - sustavno uklanjanje manje važnih težina ili cijelih komponenti modela na temelju njihovog utjecaja na konačne performanse
Knowledge distillation - treniranje manjeg "student" modela tako da oponaša ponašanje većeg "teacher" modela
Low-rank adaptacija - prilagodba odabranih komponenti modela pomoću matrica niskog ranga, što omogućuje učinkovito fino podešavanje (fine-tuning) uz minimalne memorijske zahtjeve
Sparse attention - implementacija mehanizama pažnje koji ne moraju procjenjivati odnose između svih tokena, već se fokusiraju samo na potencijalno relevantne parove
Model sharding i distribuirana obrada
Model sharding predstavlja tehniku distribucije parametara i izračuna velikih jezičnih modela na više računskih uređaja (GPU/TPU), što omogućuje učinkovito treniranje i implementaciju modela koji su preveliki da bi stali u memoriju jednog akceleratora. Postoje četiri glavna pristupa shardingu, svaki s vlastitim prednostima i ograničenjima.
Tensor Parallelism dijeli pojedinačne matrice i tenzore na segmente koji se obrađuju istovremeno na različitim uređajima. Ovaj pristup minimizira komunikacijski overhead, ali zahtijeva brzu vezu između akceleratora.
Pipeline Parallelism distribuira cijele slojeve modela na različite uređaje koji obrađuju podatke sekvencijalno kao pipeline. Ovaj pristup učinkovito koristi memoriju, ali može dovesti do neuravnoteženog opterećenja uređaja.
Napredne strategije distribucije
3D Parallelism kombinira tensor i pipeline parallelism s data parallelism (obrada različitih batch uzoraka na različitim uređajima), što omogućuje maksimalno iskorištavanje dostupnih računskih resursa pri treniranju izuzetno velikih modela.
ZeRO (Zero Redundancy Optimizer) eliminira redundanciju u pohranjivanju stanja optimizatora, gradijenata i parametara modela na različitim GPU-ovima. ZeRO-3, najnaprednija varijanta, dijeli pojedinačne parametre modela tako da svaki GPU pohranjuje samo mali dio ukupnog modela, što omogućuje treniranje modela s više milijardi parametara čak i na relativno ograničenim hardverskim sustavima.
Implementacija učinkovitih strategija shardinga zahtijeva specijalizirane okvire kao što su DeepSpeed, Megatron-LM ili Mesh TensorFlow, koji automatiziraju složene aspekte distribucije i sinkronizacije. Ovi okviri često implementiraju dodatne optimizacije kao što su gradient checkpointing, mixed-precision training ili activation recomputation za daljnje poboljšanje učinkovitosti i smanjenje memorijskih zahtjeva.
Usporedba arhitektura modernih jezičnih modela
Arhitektonske razlike između modernih LLM igraju ključnu ulogu u njihovim sposobnostima, učinkovitosti i prikladnosti za različite primjene. Dok svi koriste transformatorski temelj, postoje značajne varijacije u implementaciji pojedinih komponenti koje utječu na njihove performanse i karakteristike.
GPT arhitektura (Generative Pre-trained Transformer) koristi pristup samo s dekoderom (decoder-only) s autoregresivnim generiranjem teksta, što je čini idealnom za generativne zadatke. Novije verzije kao što je GPT-4 implementiraju napredne tehnike kako na razini arhitekture (veći kontekstualni prozor, multi-modalni ulazi), tako i na razini treniranja (RLHF, konstitucionalni pristupi).
PaLM arhitektura (Pathways Language Model) od Googlea uvela je inovacije kao što su SwiGLU aktivacije, multi-query attention i skalirani RoPE, što je omogućilo učinkovitije skaliranje na stotine milijardi parametara. Gemini, nasljednik PaLM-a, dodatno je integrirao multimodalne sposobnosti izravno u arhitekturu modela.
Specijalizirane arhitekture i novi pristupi
Mješavine stručnjaka (MoE) kao što je Mixtral predstavljaju hibridni pristup, gdje svaki token obrađuje samo podskup specijaliziranih "stručnih" mreža. Ova tehnika omogućuje dramatično povećanje broja parametara modela uz zadržavanje slične računske zahtjevnosti tijekom inferencije.
Modeli prostora stanja (State-space models) kao što je Mamba predstavljaju potencijalnu alternativu transformatorima, koja kombinira prednosti rekurentnih i konvolucijskih pristupa s linearnom skalabilnošću s obzirom na duljinu sekvence. Ovi modeli su posebno obećavajući za obradu vrlo dugih konteksta (100K+ tokena).
Pri odabiru arhitekture za određenu primjenu potrebno je razmotriti kompromise između točnosti, računske učinkovitosti, memorijskih zahtjeva i specifičnih sposobnosti kao što su dugoročno pamćenje ili multimodalna obrada. Najnovija istraživanja usmjerena su na hibridne pristupe koji kombiniraju snage različitih arhitektura i tehnike kao što je retrieval-augmented generation, koje proširuju sposobnosti modela eksplicitnim pristupom vanjskim znanjima.