Kalbos modelių mokymo procesas
Mokymo duomenų rinkimas ir paruošimas
Mokymo duomenų kokybė ir įvairovė yra pagrindinis veiksnys, darantis įtaką kalbos modelių gebėjimams. Šiuolaikiniai LLM mokomi naudojant didžiulius tekstynus, apimančius šimtus terabaitų teksto iš įvairių šaltinių, įskaitant svetaines, knygas, mokslinius straipsnius, kodą ir specializuotas duomenų bazes. Kritinis duomenų paruošimo aspektas yra jų filtravimas ir valymas, apimantis dublikatų, žalingo turinio ir nekokybiškų tekstų pašalinimą.
Išankstinio apdorojimo procesas apima lingvistinį normalizavimą, tokenizavimą ir kitas transformacijas, kurios paruošia neapdorotą tekstą efektyviam mokymui. Šiuolaikiniai metodai naudoja sudėtingus algoritmus, tokius kaip C4 (Colossal Clean Crawled Corpus) žiniatinklio duomenims filtruoti arba BookCorpus2 literatūros kūriniams apdoroti. Pagrindinė tendencija taip pat yra kalbinės aprėpties diversifikavimas, kai naujausi modeliai, tokie kaip BLOOM ar XGLM, mokomi naudojant daugiakalbius duomenų rinkinius, apimančius šimtus kalbų.
Duomenų mišiniai ir kuravimas
Kritinis duomenų paruošimo aspektas yra jų „maišymas“ – tiksliai subalansuotų įvairių tipų turinio mišinių kūrimas. Tyrimai parodė, kad optimalūs duomenų mišiniai ženkliai veikia galutinio modelio gebėjimus, o didesnė kokybiškų tekstų dalis (pvz., mokslinių straipsnių ar techninės dokumentacijos) lemia geresnį samprotavimą ir faktinį tikslumą. Šiuolaikiniai metodai, tokie kaip Anthropic Constitutional AI ar Google UL2, naudoja sudėtingas duomenų kuravimo technikas ir dinaminį maišymą skirtingose mokymo fazėse.
Modelio išankstinis mokymas (pre-training)
Išankstinis mokymas yra pirmoji ir skaičiavimų požiūriu daugiausiai resursų reikalaujanti kalbos modelių mokymo fazė. Šios fazės metu modelis susiduria su didžiuliu kiekiu tekstinių duomenų, iš kurių mokosi pagrindinių lingvistinių žinių, faktinės informacijos ir bendrųjų samprotavimo gebėjimų. Išankstinis mokymas paprastai vyksta savarankiško mokymosi (self-supervised learning) forma, kai modelis prognozuoja trūkstamas ar sekančias teksto dalis be būtinybės naudoti aiškias anotacijas. Šį procesą iš esmės įtakoja didžiųjų kalbos modelių architektūra, visų pirma transformerių dizainas.
Techniniu požiūriu egzistuoja du pagrindiniai išankstinio mokymo metodai:
Autoregresinis modeliavimas (AR), naudojamas GPT stiliaus modeliuose, kur modelis prognozuoja sekantį žetoną remdamasis visais ankstesniais žetonais
Maskuotas kalbos modeliavimas (MLM), naudojamas BERT stiliaus modeliuose, kur atsitiktiniai žetonai tekste yra užmaskuojami, o modelis mokosi juos rekonstruoti
Mastelio keitimas ir skaičiavimais optimalus mokymas
Pagrindinė išankstinio mokymo tendencija yra „mastelio keitimo dėsnių“ (scaling laws) taikymas – empiriškai nustatytų ryšių tarp modelio dydžio, duomenų kiekio ir skaičiavimo laiko. „DeepMind“ („Chinchilla“) ir kitų organizacijų tyrimai parodė, kad optimalus santykis tarp parametrų skaičiaus ir mokymo žetonų kiekio yra maždaug 1:20. Šis atradimas lėmė perėjimą nuo „parametrais milžiniškų“ modelių prie „skaičiavimais optimalių“ metodų, kurie efektyviau paskirsto skaičiavimo išteklius.
Šiuolaikinis išankstinis mokymas naudoja pažangias technikas, tokias kaip gradientų kontroliniai taškai (gradient checkpointing) atminties poreikiams sumažinti, paskirstytąjį mokymą naudojant sistemas kaip DeepSpeed ar FSDP, ir ZeRO optimizatorių būsenų saugojimo pertekliui pašalinti. Didžiausių modelių, tokių kaip GPT-4 ar Claude Opus, išankstinio mokymo fazė, net naudojant tūkstančius GPU/TPU greitintuvų, trunka kelis mėnesius ir sunaudoja energijos milijonų dolerių vertės.
Praradimo funkcijos ir optimizavimo strategijos
Praradimo funkcijos yra matematinės formulės, kurios kiekybiškai įvertina skirtumą tarp modelio prognozių ir laukiamų rezultatų, taip suteikdamos signalą parametrų optimizavimui. Kalbos modelių kontekste pagrindinė praradimo funkcija yra kryžminės entropijos praradimas (cross-entropy loss), kuri baudžia modelį už mažą tikimybę, priskirtą teisingam žetonui. Autoregresiniuose modeliuose ši funkcija paprastai išreiškiama taip:
L = -Σ log P(xt | x<t)
kur P(xt | x<t) yra tikimybė, kurią modelis priskiria teisingam žetonui xt remdamasis visais ankstesniais žetonais.
Pažangios optimizavimo strategijos
Modelio parametrų optimizavimui pagal praradimo funkcijos gradientus naudojami sudėtingi algoritmai, kurie adaptyviai koreguoja mokymosi greitį (learning rate) ir kitus hiperparametrus:
AdamW – Adam algoritmo variantas su svorio mažinimo (weight decay) įgyvendinimu, kuris padeda išvengti persimokymo (overfitting)
Lion – naujausias optimizatorius, pasiekiantis geresnių rezultatų su mažesniu atminties poreikiu
Adafactor – optimizatorius, sukurtas specialiai modeliams su milijardais parametrų, kuris ženkliai sumažina atminties poreikius
Kritinis optimizavimo aspektas yra mokymosi greičio grafikas (learning rate schedule) – strategija laipsniškam mokymosi greičio koregavimui. Šiuolaikiniai metodai, tokie kaip kosinuso mažėjimas su įšilimu (cosine decay with warmup), įgyvendina pradinę laipsniško mokymosi greičio didinimo fazę, po kurios seka sistemingas jo mažinimas pagal kosinuso funkciją, kas užtikrina mokymo stabilumą ir konvergenciją į geresnius lokalius minimumus.
Modelio tikslinimas (fine-tuning)
Tikslinimas (fine-tuning) yra iš anksto apmokyto modelio adaptavimo procesas specifinėms užduotims ar sritims, atliekant papildomą mokymą naudojant tikslingai parinktus duomenų rinkinius. Ši fazė yra esminė transformuojant bendruosius kalbos gebėjimus į specializuotus įgūdžius, tokius kaip dialogas, instrukcijų vykdymas ar specifinės taikymo sritys.
Techniniu požiūriu tikslinimas apima visų arba pasirinktų modelio svorių koregavimą naudojant atgalinį sklidimą (backpropagation), tačiau su žymiai mažesniu mokymosi greičiu nei išankstinio mokymo metu, kas užtikrina, kad modelis „nepamirštų“ savo bendrųjų žinių. Šiuolaikiniai metodai naudoja daugybę technikų, kurios didina tikslinimo efektyvumą:
Efektyvūs tikslinimo metodai
LoRA (Low-Rank Adaptation) – technika, kuri vietoj visų parametrų koregavimo prideda mažus, mokomus žemo rango adapterius prie iš anksto apmokyto modelio svorių, kas dramatiškai sumažina atminties poreikius išlaikant daugumą pilno tikslinimo privalumų
QLoRA – kvantavimo ir LoRA derinys, leidžiantis tikslinti multimilijardinius modelius net naudojant vieną vartotojo lygio GPU
Instrukcijų tikslinimas (Instruction tuning) – specializuota tikslinimo forma, kai modelis mokomas naudojant specifinį formatą, apimantį instrukciją, kontekstą ir laukiamą atsakymą, kas žymiai pagerina jo gebėjimą vykdyti sudėtingas instrukcijas
Siekiant maksimalaus našumo, šiuolaikiniai metodai, tokie kaip Anthropic ar OpenAI, naudoja daugiapakopius tikslinimo procesus, kur modelis pereina specializuotų fazių seką (pavyzdžiui, pirmiausia bendras instrukcijų tikslinimas, po to dialogo tikslinimas ir galiausiai užduočiai specifinis adaptavimas), kas lemia apibendrinimo ir specializacijos derinį.
Mokymasis su žmogaus grįžtamuoju ryšiu (RLHF)
Sustiprinamasis mokymasis iš žmogaus grįžtamojo ryšio (Reinforcement Learning from Human Feedback, RLHF) yra proveržio technika, kuri dramatiškai pagerino kalbos modelių naudingumą, saugumą ir bendrą kokybę. Skirtingai nuo standartinio prižiūrimo mokymosi (supervised learning), RLHF naudoja žmonių vertintojų preferencijas iteratyviam modelio tobulinimui per sustiprinamąjį mokymąsi.
Pagrindinis RLHF įgyvendinimas apima tris pagrindines fazes:
Preferencijų duomenų rinkimas – žmonės anotuotojai vertina modelio sugeneruotų atsakymų poras ir nurodo, kuris iš jų geriau atitinka norimus kriterijus (naudingumą, saugumą, faktinį tikslumą ir kt.)
Atlygio modelio (reward model) mokymas – remiantis surinktomis preferencijomis, mokomas specializuotas modelis, kuris prognozuoja, kaip žmonės vertintų bet kokį atsakymą
Politikos optimizavimas naudojant RL – pagrindinis kalbos modelis (politika) optimizuojamas taip, kad maksimaliai padidintų laukiamą atlygį, prognozuojamą atlygio modelio, paprastai naudojant algoritmą, pvz., PPO (Proximal Policy Optimization)
Pažangios RLHF implementacijos
Šiuolaikinės RLHF implementacijos apima daugybę techninių patobulinimų ir plėtinių, kurie sprendžia pradinius apribojimus:
Tiesioginė preferencijų optimizacija (Direct Preference Optimization, DPO) – alternatyvus metodas, kuris pašalina poreikį turėti aiškų atlygio modelį ir RL mokymą, taip žymiai supaprastindamas ir stabilizuodamas procesą
Geriausio iš N atmetimo atranka (Best-of-N Rejection Sampling) – technika, kuri generuoja kelis kandidatus atsakymus ir pasirenka tą, kurio atlygio modelio įvertinimas yra aukščiausias, kas leidžia efektyvesnį optimizavimą
Iteratyvus RLHF – metodas, kuris pakartotinai taiko RLHF ciklus su palaipsniui tobulinamomis anotacijomis ir vertinimo kriterijais, kas lemia sistemingą modelio tobulinimą
RLHF įgyvendinimas reikalauja tvirtos infrastruktūros anotacijų rinkimui ir valdymui, sudėtingų mechanizmų atlygio modelio persimokymo prevencijai ir kruopštaus KL divergencijos baudos dizaino, kuris užtikrina, kad optimizuotas modelis per daug nenukryptų nuo pradinio pasiskirstymo, kas galėtų lemti degeneracinius atsakymus ar nepageidaujamus artefaktus.
Konstitucinis DI ir suderinimo technikos
Konstitucinis DI (Constitutional AI, CAI) yra pažangi sistema, skirta užtikrinti, kad kalbos modeliai veiktų laikydamiesi žmogiškųjų vertybių ir etikos principų. Skirtingai nuo standartinio RLHF, kuris remiasi pirmiausia anotuotojų preferencijomis, CAI aiškiai kodifikuoja pageidaujamą elgesį ir apribojimus per konstitucinių taisyklių ar principų rinkinį.
CAI įgyvendinimas apima vadinamąjį „raudonosios komandos“ (red-teaming) procesą, kai specializuoti tyrėjai sistemingai testuoja modelį siekdami identifikuoti potencialiai problemiškus atsakymus ar pažeidžiamumus. Nustatytos problemos vėliau sprendžiamos derinant technines intervencijas:
Pagrindinės suderinimo technikos
Konstitucinis DI (Constitutional AI) – procesas, kurio metu modelis pats kritikuoja ir peržiūri savo atsakymus remdamasis aiškiai apibrėžtais principais, kas sukuria duomenis tolimesniam mokymui
Proceso priežiūra (Process Supervision) – technika, kuri moko modelį ne tik remiantis galutiniais atsakymais, bet ir samprotavimo procesu, vedančiu prie jų, kas pagerina skaidrumą ir interpretuojamumą
Rekursyvus atlygio modeliavimas (Recursive Reward Modeling) – hierarchinis metodas, kai modeliai mokomi palaipsniui sudėtingesnių užduočių su specializuotų atlygio modelių priežiūra
Konteksto distiliavimas (Context Distillation) – technika, kuri distiliuoja sudėtingas instrukcijas ir saugumo nurodymus į modelio parametrus, kas pašalina poreikį turėti aiškias užklausas (prompts)
Šiuolaikiniai metodai, tokie kaip Anthropic Konstitucinis DI ar DeepMind Sparrow, derina šias technikas su griežta vertinimo sistema, kuri nuolat stebi modelį žalingumo, teisingumo, naudingumo ir šališkumo požiūriu. Šis aktyvaus ir pasyvaus suderinimo derinys užtikrina, kad modelis ne tik atmeta aiškiai žalingus prašymus, bet ir proaktyviai laikosi etiškai pageidaujamų trajektorijų net dviprasmiškose situacijose.
Kalbos modelių vertinimas ir lyginamoji analizė
Griežtas vertinimas yra kritinė kalbos modelių kūrimo dalis, teikianti objektyvias metrikas jų gebėjimams ir apribojimams įvertinti. Šiuolaikinės vertinimo sistemos naudoja daugiadimensį metodą, apimantį platų gebėjimų spektrą nuo pagrindinio kalbos supratimo iki pažangaus samprotavimo ir specifinių sričių žinių.
Standartiniai vertinimo etalonai (benchmarks) apima:
MMLU (Massive Multitask Language Understanding) – išsamus etalonas, apimantis 57 dalykus įvairiose srityse, nuo pagrindinės matematikos iki profesinės teisės ar medicinos
HumanEval ir APPS – etalonai programavimo gebėjimams vertinti, matuojantys tiek sugeneruoto kodo tikslumą, tiek gebėjimą spręsti algoritmines problemas
TruthfulQA – specializuotas etalonas, skirtas aptikti modelių tendenciją generuoti neteisingą ar klaidinančią informaciją
Pažangios vertinimo metodikos
Be standartinių etalonų, tyrimų organizacijos naudoja sudėtingas vertinimo metodikas:
Raudonoji komanda (Red teaming) – sistemingas modelio testavimas siekiant identifikuoti pažeidžiamumus ar potencialiai žalingus atsakymus
Priešiškas testavimas (Adversarial testing) – specializuotų įvesčių kūrimas, skirtų pralaužti saugumo mechanizmus ar sukelti faktines klaidas
Aklas vertinimas (Blind evaluation) – modelių palyginimas nežinant jų tapatybės, kas pašalina patvirtinimo šališkumą (confirmation bias)
Žmogaus vertinimas cikle (Human evaluation in the loop) – nuolatinis modelio atsakymų vertinimas realių vartotojų gamybinėje aplinkoje
Kritinis šiuolaikinio vertinimo aspektas taip pat yra jo įvairovė – modeliai vertinami naudojant duomenis, apimančius skirtingas kalbas, kultūrinius kontekstus ir demografines grupes, kas užtikrina, kad jų gebėjimai yra tvirti įvairiose populiacijose ir naudojimo srityse. Technikos, tokios kaip Dynabench ar HELM, naudoja dinamiškus, nuolat besivystančius vertinimo protokolus, kurie adaptyviai sprendžia nustatytas esamų etalonų silpnybes ir apribojimus.