Keelemudelite treenimisprotsess

Andmete kogumine ja ettevalmistamine

Treenimisandmete kvaliteet ja mitmekesisus on keelemudelite võimekust mõjutav põhiline tegur. Kaasaegseid LLM-e treenitakse massiivsetel korpustel, mis sisaldavad sadu terabaite teksti erinevatest allikatest, sealhulgas veebilehtedelt, raamatutest, teadusartiklitest, koodist ja spetsialiseeritud andmebaasidest. Andmete ettevalmistamise kriitiline aspekt on nende filtreerimine ja puhastamine, mis hõlmab duplikaatide, kahjuliku sisu ja madala kvaliteediga tekstide eemaldamist.

Eeltöötlusprotsess hõlmab keelelist normaliseerimist, tokeniseerimist ja muid teisendusi, mis valmistavad toorteksti ette tõhusaks treenimiseks. Kaasaegsed lähenemisviisid rakendavad keerukaid algoritme nagu C4 (Colossal Clean Crawled Corpus) veebiandmete filtreerimiseks või BookCorpus2 kirjandusteoste töötlemiseks. Oluline suundumus on ka keelelise katvuse mitmekesistamine, kus uusimaid mudeleid nagu BLOOM või XGLM treenitakse mitmekeelsetel andmekogumitel, mis katavad sadu keeli.

Andmesegud ja kureerimine

Andmete ettevalmistamise kriitiline aspekt on nende "segamine" – täpselt tasakaalustatud segude loomine erinevat tüüpi sisust. Uuringud on näidanud, et optimaalsed andmesegud mõjutavad oluliselt lõpliku mudeli võimekust, kusjuures kvaliteetsete tekstide (nt teadusartiklite või tehnilise dokumentatsiooni) suurem osakaal viib parema arutlusvõime ja faktilise täpsuseni. Kaasaegsed lähenemisviisid nagu Anthropic Constitutional AI või Google UL2 kasutavad keerukaid andmete kureerimise tehnikaid ja dünaamilist segamist treeningu erinevates etappides.

Mudeli eeltreenimine (pre-training)

Eeltreenimine on keelemudelite treenimise esimene ja arvutuslikult kõige nõudlikum etapp. Selles etapis puutub mudel kokku massiivse hulga tekstiandmetega, mille põhjal ta õpib põhilisi keelelisi teadmisi, faktilist teavet ja üldist arutlusvõimet. Eeltreenimine toimub tavaliselt isejuhendatud õppimise (self-supervised learning) vormis, kus mudel ennustab teksti puuduvaid või järgnevaid osi ilma selgesõnaliste annotatsioonideta. Seda protsessi mõjutab oluliselt suurte keelemudelite arhitektuur, eelkõige transformer-disain.

Tehnilisest seisukohast on eeltreenimiseks kaks peamist lähenemist:

Autoregressiivne modelleerimine (AR), mida kasutatakse GPT-stiilis mudelite puhul, kus mudel ennustab järgmist tokenit kõigi eelnevate tokenite põhjal

Maskeeritud keele modelleerimine (MLM), mida kasutatakse BERT-stiilis mudelite puhul, kus tekstis maskeeritakse juhuslikud tokenid ja mudel õpib neid rekonstrueerima

Skaleerimine ja arvutusoptimaalne treenimine

Eeltreenimise võtmetrendiks on "skaleerimisseaduste" (scaling laws) rakendamine – empiiriliselt tuletatud seosed mudeli suuruse, andmete hulga ja arvutusaja vahel. Uuringud DeepMindi (Chinchilla) ja teiste organisatsioonide poolt on tõestanud, et optimaalne suhe parameetrite arvu ja treeningtokenite hulga vahel on ligikaudu 1:20. See avastus viis üleminekuni "parameetriliselt tohututelt" mudelitelt "arvutusoptimaalsetele" lähenemistele, mis jaotavad arvutusressursse tõhusamalt.

Kaasaegne eeltreenimine rakendab täiustatud tehnikaid nagu gradient checkpointing mälunõudluse vähendamiseks, hajutatud treenimist raamistike nagu DeepSpeed või FSDP abil ning ZeRO optimeerijat liiasuse kõrvaldamiseks olekute salvestamisel. Suurimate mudelite nagu GPT-4 või Claude Opus puhul kestab eeltreenimise faas isegi tuhandete GPU/TPU kiirendite kasutamisel mitu kuud ja tarbib miljoneid dollareid väärt energiat.

Kaofunktsioonid ja optimeerimisstrateegiad

Kaofunktsioonid on matemaatilised valemid, mis kvantifitseerivad erinevust mudeli ennustuste ja oodatavate väljundite vahel, andes seeläbi signaali parameetrite optimeerimiseks. Keelemudelite kontekstis on põhiline kaofunktsioon rist-entroopia kao (cross-entropy loss), mis karistab mudelit õigele tokenile määratud madala tõenäosuse eest. Autoregressiivsete mudelite puhul väljendatakse seda funktsiooni tavaliselt järgmiselt:

L = -Σ log P(xt | x<t)

kus P(xt | x<t) on tõenäosus, mille mudel määrab õigele tokenile xt kõigi eelnevate tokenite põhjal.

Täiustatud optimeerimisstrateegiad

Mudeli parameetrite optimeerimiseks kaofunktsiooni gradientide põhjal kasutatakse keerukaid algoritme, mis kohandavad adaptiivselt õpisammu (learning rate) ja muid hüperparameetreid:

AdamW - Adami algoritmi variant kaalu vähendamise (weight decay) rakendamisega, mis aitab vältida üleõppimist (overfitting)

Lion - hiljutine optimeerija, mis saavutab paremaid tulemusi väiksema mälunõudlusega

Adafactor - spetsiaalselt miljardite parameetritega mudelite jaoks loodud optimeerija, mis vähendab oluliselt mälunõudlust

Optimeerimise kriitiline aspekt on õpisammu ajakava (learning rate schedule) – strateegia õppimiskiiruse järkjärguliseks kohandamiseks. Kaasaegsed lähenemisviisid nagu koosinuslangus soojendusega (cosine decay with warmup) rakendavad algfaasi, kus õpisammu järk-järgult suurendatakse, millele järgneb selle süstemaatiline vähendamine vastavalt koosinusfunktsioonile, mis tagab stabiilsuse treeningu ja konvergentsi paremate lokaalsete miinimumideni.

Mudeli peenhäälestamine (fine-tuning)

Peenhäälestamine (fine-tuning) on eeltreenitud mudeli kohandamise protsess konkreetsetele ülesannetele või domeenidele täiendava treeningu kaudu sihipäraselt valitud andmekogumitel. See faas on võtmetähtsusega üldiste keeleliste võimete muundamisel spetsialiseeritud oskusteks nagu dialoog, juhiste järgimine või spetsiifilised rakendusvaldkonnad.

Tehnilisest seisukohast hõlmab peenhäälestamine mudeli kõigi või valitud kaalude kohandamist tagasilevi (backpropagation) kaudu, kuid oluliselt madalama õpisammuga kui eeltreenimisel, mis tagab, et mudel ei unusta oma üldisi teadmisi. Kaasaegsed lähenemisviisid rakendavad mitmeid tehnikaid, mis suurendavad peenhäälestamise tõhusust:

Tõhusad peenhäälestamise meetodid

LoRA (Low-Rank Adaptation) - tehnika, mis kõigi parameetrite muutmise asemel lisab väikesed, õpitavad madala astmega adapterid eeltreenitud mudeli kaaludele, mis vähendab dramaatiliselt mälunõudlust, säilitades samal ajal enamiku täieliku peenhäälestamise eelistest

QLoRA - kvantimise ja LoRA kombinatsioon, mis võimaldab mitme miljardi parameetriga mudelite peenhäälestamist isegi ühel tarbijaklassi GPU-l

Juhiste häälestamine (Instruction tuning) - spetsialiseeritud peenhäälestamise vorm, kus mudelit treenitakse spetsiifilises vormingus, mis sisaldab juhist, konteksti ja oodatavat vastust, mis parandab oluliselt selle võimet järgida keerukaid juhiseid

Jõudluse maksimeerimiseks rakendavad kaasaegsed lähenemisviisid nagu Anthropic või OpenAI mitmeastmelisi peenhäälestamise protsesse, kus mudel läbib järjestikuseid spetsialiseeritud faase (näiteks esmalt üldine juhiste häälestamine, seejärel dialoogi häälestamine ja lõpuks ülesandespetsiifiline kohandamine), mis viib üldistamise ja spetsialiseerumise kombinatsioonini.

Inimtagasisidega õppimine (RLHF)

Inimtagasisidega kinnitusõpe (Reinforcement Learning from Human Feedback, RLHF) on murranguline tehnika, mis on dramaatiliselt parandanud kasulikkust, ohutust ja üldist kvaliteeti keelemudelite puhul. Erinevalt standardsest juhendatud õppimisest kasutab RLHF inimhindajate eelistusi mudeli iteratiivseks täiustamiseks kinnitusõppe kaudu.

RLHF-i põhiline rakendamine hõlmab kolme võtmefaasi:

Eelistuste andmete kogumine - inimannotaatorid hindavad mudeli genereeritud vastuste paare ja näitavad, kumb neist vastab paremini nõutavatele kriteeriumidele (kasulikkus, ohutus, faktiline täpsus jne)

Tasumudeli (reward model) treenimine - kogutud eelistuste põhjal treenitakse spetsialiseeritud mudel, mis ennustab, kuidas inimesed hindaksid mis tahes vastust

Poliitika optimeerimine RL abil - põhiline keelemudel (poliitika) optimeeritakse nii, et see maksimeeriks tasumudeli ennustatud oodatavat tasu, tavaliselt kasutades algoritmi nagu PPO (Proximal Policy Optimization)

Täiustatud RLHF rakendused

Kaasaegsed RLHF rakendused hõlmavad mitmeid tehnilisi täiustusi ja laiendusi, mis käsitlevad algseid piiranguid:

Otsene eelistuste optimeerimine (Direct Preference Optimization, DPO) - alternatiivne lähenemine, mis välistab vajaduse selgesõnalise tasumudeli ja RL treeningu järele, lihtsustades ja stabiliseerides seeläbi protsessi oluliselt

Parim-N-st tagasilükkamise valim (Best-of-N Rejection Sampling) - tehnika, mis genereerib mitu kandidaatvastust ja valib välja selle, millel on tasumudeli kõrgeim hinnang, mis võimaldab tõhusamat optimeerimist

Iteratiivne RLHF - lähenemine, mis rakendab korduvalt RLHF tsükleid järk-järgult täiustatud annotatsioonide ja hindamiskriteeriumidega, mis viib mudeli süstemaatilise paranemiseni

RLHF rakendamine nõuab tugevat infrastruktuuri annotatsioonide kogumiseks ja haldamiseks, keerukaid mehhanisme tasumudeli üleõppimise vältimiseks ning hoolikat KL-divergentsi karistuse kavandamist, mis tagab, et optimeeritud mudel ei kalduks liiga palju kõrvale algsest jaotusest, mis võiks viia degeneratiivsete vastuste või soovimatute artefaktideni.

Konstitutsiooniline AI ja joondamistehnikad

Konstitutsiooniline AI (CAI) on täiustatud raamistik tagamaks, et keelemudelid tegutseksid kooskõlas inimlike väärtuste ja eetiliste põhimõtetega. Erinevalt standardsest RLHF-ist, mis tugineb peamiselt annotaatorite eelistustele, kodifitseerib CAI selgesõnaliselt soovitud käitumise ja piirangud põhiseaduslike reeglite või põhimõtete kogumi kaudu.

CAI rakendamine hõlmab nn "red-teaming" protsessi, kus spetsialiseerunud teadlased testivad süstemaatiliselt mudelit eesmärgiga tuvastada potentsiaalselt problemaatilisi vastuseid või haavatavusi. Tuvastatud probleemidega tegeletakse seejärel tehniliste sekkumiste kombinatsiooni kaudu:

Võtmetähtsusega joondamistehnikad

Konstitutsiooniline AI - protsess, kus mudel ise kritiseerib ja vaatab üle oma vastuseid selgesõnaliselt määratletud põhimõtete alusel, mis loob andmeid edasiseks treeninguks

Protsessi järelevalve (Process Supervision) - tehnika, mis treenib mudelit mitte ainult lõplike vastuste, vaid ka nendeni viiva arutlusprotsessi alusel, mis parandab läbipaistvust ja tõlgendatavust

Rekursiivne tasu modelleerimine (Recursive Reward Modeling) - hierarhiline lähenemine, kus mudeleid treenitakse järk-järgult keerukamatel ülesannetel järelevalve all spetsialiseeritud tasumudelitega

Konteksti destilleerimine (Context Distillation) - tehnika, mis destilleerib keerukad juhised ja ohutusjuhised mudeli parameetritesse, mis välistab vajaduse selgesõnaliste viipade (prompt) järele

Kaasaegsed lähenemisviisid nagu Anthropicu Konstitutsiooniline AI või DeepMindi Sparrow kombineerivad neid tehnikaid range hindamisraamistikuga, mis pidevalt jälgib mudelit kahjulikkuse, tõesuse, kasulikkuse ja kallutatuse osas. See aktiivse ja passiivse joondamise kombinatsioon tagab, et mudel mitte ainult ei lükka tagasi selgelt kahjulikke päringuid, vaid järgib ka proaktiivselt eetiliselt eelistatud trajektoore isegi ambivalentseis olukordades.

Keelemudelite hindamine ja võrdlusanalüüs

Range hindamine on keelemudelite arendamise kriitiline osa, pakkudes objektiivseid mõõdikuid nende võimete ja piirangute hindamiseks. Kaasaegsed hindamisraamistikud rakendavad mitmemõõtmelist lähenemist, mis katab laia spektri võimeid alates põhilise keele mõistmisest kuni täiustatud arutlusvõime ja domeenispetsiifiliste teadmisteni.

Standardsed hindamise võrdlusanalüüsid hõlmavad:

MMLU (Massive Multitask Language Understanding) - põhjalik võrdlusanalüüs, mis katab 57 ainet erinevates valdkondades, alates põhimatemaatikast kuni kutseõiguse või meditsiinini

HumanEval ja APPS - võrdlusanalüüsid programmeerimisoskuste hindamiseks, mõõtes nii genereeritud koodi täpsust kui ka võimet lahendada algoritmilisi probleeme

TruthfulQA - spetsialiseeritud võrdlusanalüüs, mis keskendub mudelite kalduvuse tuvastamisele genereerida valesid või eksitavaid andmeid

Täiustatud hindamismetoodikad

Lisaks standardsetele võrdlusanalüüsidele rakendavad teadusorganisatsioonid keerukaid hindamismetoodikaid:

Red teaming - mudeli süstemaatiline testimine eesmärgiga tuvastada haavatavusi või potentsiaalselt kahjulikke vastuseid

Vastandlik testimine (Adversarial testing) - spetsialiseeritud sisendite loomine, mis on kavandatud turvamehhanismide murdmiseks või faktivigade esilekutsumiseks

Pimehindamine (Blind evaluation) - mudelite võrdlemine nende identiteeti teadmata, mis välistab kinnituskallutatuse (confirmation bias)

Inimhindamine tsüklis (Human evaluation in the loop) - mudeli vastuste pidev hindamine reaalsete kasutajate poolt tootmiskeskkonnas

Kaasaegse hindamise kriitiline aspekt on ka selle mitmekesisus - mudeleid hinnatakse andmetel, mis katavad erinevaid keeli, kultuurilisi kontekste ja demograafilisi rühmi, mis tagab, et nende võimed on robustsed erinevate populatsioonide ja kasutusviiside lõikes. Tehnikad nagu Dynabench või HELM rakendavad dünaamilisi, pidevalt arenevaid hindamisprotokolle, mis käsitlevad adaptiivselt olemasolevate võrdlusanalüüside tuvastatud nõrkusi ja piiranguid.

Explicaire'i meeskond
Explicaire'i tarkvaraekspertide meeskond

Selle artikli koostas Explicaire'i uurimis- ja arendusmeeskond, mis on spetsialiseerunud täiustatud tehnoloogiliste tarkvaralahenduste, sealhulgas tehisintellekti, rakendamisele ja integreerimisele äriprotsessidesse. Rohkem meie ettevõtte kohta.