Valodu modeļu apmācības process
Datu savākšana un sagatavošana apmācībai
Apmācības datu kvalitāte un daudzveidība ir fundamentāls faktors, kas ietekmē valodu modeļu spējas. Mūsdienu LLM tiek apmācīti, izmantojot masīvus korpusus, kas ietver simtiem terabaitu teksta no dažādiem avotiem, tostarp tīmekļa vietnēm, grāmatām, zinātniskiem rakstiem, koda un specializētām datubāzēm. Kritisks datu sagatavošanas aspekts ir to filtrēšana un tīrīšana, kas ietver dublikātu, kaitīga satura un zemas kvalitātes tekstu noņemšanu.
Priekšapstrādes process ietver lingvistisko normalizāciju, tokenizāciju un citas transformācijas, kas sagatavo neapstrādātu tekstu efektīvai apmācībai. Mūsdienu pieejas īsteno sarežģītus algoritmus, piemēram, C4 (Colossal Clean Crawled Corpus) tīmekļa datu filtrēšanai vai BookCorpus2 literāro darbu apstrādei. Galvenā tendence ir arī valodu pārklājuma dažādošana, kur jaunākie modeļi, piemēram, BLOOM vai XGLM, tiek apmācīti uz daudzvalodu datu kopām, kas aptver simtiem valodu.
Datu maisījumi un kurēšana
Kritisks datu sagatavošanas aspekts ir to "sajaukšana" - precīzi līdzsvarotu dažādu satura veidu maisījumu izveide. Pētījumi ir parādījuši, ka optimāli datu maisījumi ievērojami ietekmē gala modeļa spējas, turklāt lielāks kvalitatīvu tekstu (piemēram, zinātnisko rakstu vai tehniskās dokumentācijas) īpatsvars nodrošina labāku spriešanas spēju un faktisko precizitāti. Mūsdienu pieejas, piemēram, Anthropic Constitutional AI vai Google UL2, izmanto sarežģītas datu kurēšanas tehnikas un dinamisku sajaukšanu dažādās apmācības fāzēs.
Modeļa priekšapmācība (pre-training)
Priekšapmācība ir pirmā un skaitļošanas ziņā visprasīgākā valodu modeļu apmācības fāze. Šajā fāzē modelis tiek pakļauts milzīgam teksta datu apjomam, no kura tas apgūst pamata lingvistiskās zināšanas, faktiskās informācijas un vispārējās spriešanas spējas. Priekšapmācība parasti notiek pašvadītas mācīšanās (self-supervised learning) veidā, kur modelis prognozē trūkstošās vai nākamās teksta daļas bez nepieciešamības pēc skaidrām anotācijām. Šo procesu būtiski ietekmē lielo valodu modeļu (LLM) arhitektūra, galvenokārt transformer dizains.
No tehniskā viedokļa pastāv divas galvenās pieejas priekšapmācībai:
Autoregresīvā modelēšana (AR), ko izmanto GPT stila modeļos, kur modelis prognozē nākamo tokenu, pamatojoties uz visiem iepriekšējiem tokeniem
Maskētā valodas modelēšana (MLM), ko izmanto BERT stila modeļos, kur nejauši tokeni tekstā tiek maskēti, un modelis mācās tos rekonstruēt
Mērogošana un skaitļošanas ziņā optimāla apmācība
Galvenā tendence priekšapmācībā ir "mērogošanas likumu" (scaling laws) ieviešana - empīriski iegūtas attiecības starp modeļa lielumu, datu apjomu un skaitļošanas laiku. Pētījumi, ko veica DeepMind (Chinchilla) un citas organizācijas, ir pierādījuši, ka optimālā attiecība starp parametru skaitu un apmācības tokenu daudzumu ir aptuveni 1:20. Šis atklājums noveda pie pārejas no "parametriski milzīgiem" modeļiem uz "skaitļošanas ziņā optimālām" pieejām, kas efektīvāk sadala skaitļošanas resursus.
Mūsdienu priekšapmācībā tiek ieviestas uzlabotas tehnikas, piemēram, gradientu kontrolpunktu noteikšana (gradient checkpointing), lai samazinātu atmiņas prasības, izkliedētā apmācība, izmantojot tādus ietvarus kā DeepSpeed vai FSDP, un ZeRO optimizētājs, lai novērstu redundanci stāvokļu glabāšanā. Lielākajiem modeļiem, piemēram, GPT-4 vai Claude Opus, priekšapmācības fāze, pat izmantojot tūkstošiem GPU/TPU paātrinātāju, ilgst vairākus mēnešus un patērē enerģiju miljoniem dolāru vērtībā.
Zaudējumu funkcijas un optimizācijas stratēģijas
Zaudējumu funkcijas ir matemātiski formulējumi, kas kvantitatīvi nosaka atšķirību starp modeļa prognozēm un gaidāmajiem rezultātiem, tādējādi nodrošinot signālu parametru optimizācijai. Valodu modeļu kontekstā pamata zaudējumu funkcija ir krusteniskās entropijas zudums (cross-entropy loss), kas soda modeli par zemu varbūtību, kas piešķirta pareizajam tokenam. Autoregresīvajos modeļos šī funkcija parasti tiek izteikta kā:
L = -Σ log P(xt | x<t)
kur P(xt | x<t) ir varbūtība, ko modelis piešķir pareizajam tokenam xt, pamatojoties uz visiem iepriekšējiem tokeniem.
Uzlabotas optimizācijas stratēģijas
Lai optimizētu modeļa parametrus, pamatojoties uz zaudējumu funkcijas gradientiem, tiek izmantoti sarežģīti algoritmi, kas adaptīvi pielāgo mācīšanās ātrumu (learning rate) un citus hiperparametrus:
AdamW - Adam algoritma variants ar svara samazināšanas (weight decay) ieviešanu, kas palīdz novērst pārmērīgu pielāgošanos (overfitting)
Lion - nesens optimizētājs, kas sasniedz labākus rezultātus ar mazāku atmiņas patēriņu
Adafactor - optimizētājs, kas īpaši izstrādāts modeļiem ar miljardiem parametru, kas ievērojami samazina atmiņas prasības
Kritisks optimizācijas aspekts ir mācīšanās ātruma grafiks (learning rate schedule) - stratēģija pakāpeniskai mācīšanās ātruma pielāgošanai. Mūsdienu pieejas, piemēram, kosinusa samazināšana ar iesildīšanos (cosine decay with warmup), ievieš sākotnējo fāzi ar pakāpenisku mācīšanās ātruma palielināšanu, kam seko tā sistemātiska samazināšana atbilstoši kosinusa funkcijai, kas nodrošina apmācības stabilitāti un konverģenci uz labākiem lokālajiem minimumiem.
Modeļa precizēšana (fine-tuning)
Precizēšana (fine-tuning) ir process, kurā iepriekš apmācīts modelis tiek pielāgots specifiskiem uzdevumiem vai jomām, veicot papildu apmācību ar mērķtiecīgi atlasītām datu kopām. Šī fāze ir būtiska, lai pārveidotu vispārējās valodu spējas specializētās prasmēs, piemēram, dialogā, instrukciju izpildē vai specifiskās lietojumprogrammu jomās.
No tehniskā viedokļa precizēšana ietver visu vai atlasītu modeļa svaru pielāgošanu, izmantojot atpakaļejošu izplatīšanos (backpropagation), bet ar ievērojami zemāku mācīšanās ātrumu nekā priekšapmācības laikā, kas nodrošina, ka modelis neaizmirst savas vispārējās zināšanas. Mūsdienu pieejas ievieš vairākas tehnikas, kas palielina precizēšanas efektivitāti:
Efektīvas precizēšanas metodes
LoRA (Low-Rank Adaptation) - tehnika, kas visu parametru pielāgošanas vietā pievieno mazus, apmācāmus zema ranga adapterus iepriekš apmācītā modeļa svariem, kas dramatiski samazina atmiņas prasības, saglabājot lielāko daļu pilnas precizēšanas priekšrocību
QLoRA - kvantizācijas un LoRA kombinācija, kas ļauj precizēt daudzmiljardu parametru modeļus pat ar vienu patērētāja klases GPU
Instrukciju precizēšana (Instruction tuning) - specializēta precizēšanas forma, kur modelis tiek apmācīts specifiskā formātā, kas ietver instrukciju, kontekstu un gaidāmo atbildi, kas ievērojami uzlabo tā spēju sekot sarežģītām norādēm
Lai maksimizētu veiktspēju, mūsdienu pieejas, piemēram, Anthropic vai OpenAI, ievieš daudzpakāpju precizēšanas procesus, kur modelis iziet secīgu specializētu fāžu secību (piemēram, vispirms vispārēja instrukciju precizēšana, pēc tam dialoga precizēšana un visbeidzot uzdevumam specifiska pielāgošana), kas noved pie vispārināšanas un specializācijas kombinācijas.
Mācīšanās ar cilvēka atgriezenisko saiti (RLHF)
Pastiprinātā mācīšanās no cilvēka atgriezeniskās saites (Reinforcement Learning from Human Feedback - RLHF) ir revolucionāra tehnika, kas dramatiski uzlabojusi valodu modeļu lietderību, drošību un vispārējo kvalitāti. Atšķirībā no standarta uzraudzītās mācīšanās (supervised learning), RLHF izmanto cilvēku vērtētāju preferences, lai iteratīvi uzlabotu modeli, izmantojot pastiprināto mācīšanos (reinforcement learning).
Pamata RLHF ieviešana ietver trīs galvenās fāzes:
Preferenču datu vākšana - cilvēku anotētāji novērtē modeļa ģenerēto atbilžu pārus un norāda, kura no tām labāk atbilst noteiktajiem kritērijiem (lietderība, drošība, faktiskā precizitāte utt.)
Atlīdzības modeļa apmācība - pamatojoties uz savāktajām preferencēm, tiek apmācīts specializēts modelis, kas prognozē, kā cilvēki novērtētu jebkuru atbildi
Politikas optimizācija, izmantojot RL - pamata valodu modelis (politika) tiek optimizēts tā, lai maksimizētu gaidāmo atlīdzību, ko prognozē atlīdzības modelis, parasti izmantojot algoritmu, piemēram, PPO (Proximal Policy Optimization)
Uzlabotas RLHF implementācijas
Mūsdienu RLHF implementācijas ietver virkni tehnisku uzlabojumu un paplašinājumu, kas risina sākotnējos ierobežojumus:
Tiešā preferenču optimizācija (DPO) - alternatīva pieeja, kas novērš nepieciešamību pēc skaidra atlīdzības modeļa un RL apmācības, tādējādi ievērojami vienkāršojot un stabilizējot procesu
Best-of-N noraidīšanas izlase - tehnika, kas ģenerē vairākas kandidātatbildes un izvēlas to ar augstāko atlīdzības modeļa novērtējumu, kas ļauj efektīvāk optimizēt
Iteratīvā RLHF - pieeja, kas atkārtoti piemēro RLHF ciklus ar pakāpeniski uzlabotām anotācijām un vērtēšanas kritērijiem, kas noved pie sistemātiskas modeļa uzlabošanas
RLHF ieviešana prasa robustu infrastruktūru anotāciju vākšanai un pārvaldībai, sarežģītus mehānismus atlīdzības modeļa pārmērīgas pielāgošanās novēršanai un rūpīgu KL-diverģences soda dizainu, kas nodrošina, ka optimizētais modelis pārāk neatšķiras no sākotnējā sadalījuma, kas varētu novest pie deģeneratīvām atbildēm vai nevēlamiem artefaktiem.
Konstitucionālais MI un saskaņošanas tehnikas
Konstitucionālais MI (CAI) ir uzlabots ietvars, lai nodrošinātu, ka valodu modeļi darbojas saskaņā ar cilvēku vērtībām un ētikas principiem. Atšķirībā no standarta RLHF, kas galvenokārt balstās uz anotētāju preferencēm, CAI skaidri kodificē vēlamo uzvedību un ierobežojumus, izmantojot konstitucionālo noteikumu vai principu kopumu.
CAI ieviešana ietver tā saukto "sarkanās komandas" (red-teaming) procesu, kurā specializēti pētnieki sistemātiski testē modeli ar mērķi identificēt potenciāli problemātiskas atbildes vai ievainojamības. Konstatētās problēmas pēc tam tiek risinātas, izmantojot tehnisku intervences kombināciju:
Galvenās saskaņošanas tehnikas
Konstitucionālais MI - process, kurā modelis pats kritizē un pārskata savas atbildes, pamatojoties uz skaidri definētiem principiem, kas rada datus turpmākai apmācībai
Procesa uzraudzība - tehnika, kas apmāca modeli ne tikai pamatojoties uz gala atbildēm, bet arī uz spriešanas procesu, kas noved pie tām, kas uzlabo caurskatāmību un interpretējamību
Rekursīvā atlīdzības modelēšana - hierarhiska pieeja, kur modeļi tiek apmācīti uz pakāpeniski sarežģītākiem uzdevumiem ar specializētu atlīdzības modeļu uzraudzību
Konteksta destilācija - tehnika, kas destilē sarežģītas instrukcijas un drošības norādījumus modeļa parametros, kas novērš nepieciešamību pēc skaidriem pamudinājumiem (prompts)
Mūsdienu pieejas, piemēram, Anthropic Constitutional AI vai DeepMind Sparrow, apvieno šīs tehnikas ar stingru novērtēšanas ietvaru, kas nepārtraukti uzrauga modeli attiecībā uz kaitīgumu, patiesumu, lietderību un neobjektivitāti. Šī aktīvās un pasīvās saskaņošanas kombinācija nodrošina, ka modelis ne tikai noraida skaidri kaitīgus pieprasījumus, bet arī proaktīvi seko ētiski vēlamām trajektorijām pat ambivalentās situācijās.
Valodu modeļu novērtēšana un etalonuzdevumi
Stingra novērtēšana ir kritiska valodu modeļu izstrādes sastāvdaļa, nodrošinot objektīvus rādītājus to spēju un ierobežojumu novērtēšanai. Mūsdienu novērtēšanas ietvari īsteno daudzdimensiju pieeju, kas aptver plašu spēju spektru no pamata valodas izpratnes līdz progresīvai spriešanai un jomai specifiskām zināšanām.
Standarta novērtēšanas etalonuzdevumi ietver:
MMLU (Massive Multitask Language Understanding) - visaptverošs etalonuzdevums, kas aptver 57 priekšmetus dažādās jomās, sākot no pamata matemātikas līdz profesionālajām tiesībām vai medicīnai
HumanEval un APPS - etalonuzdevumi programmēšanas spēju novērtēšanai, mērot gan ģenerētā koda precizitāti, gan spēju risināt algoritmiskas problēmas
TruthfulQA - specializēts etalonuzdevums, kas vērsts uz modeļu tendences ģenerēt nepareizu vai maldinošu informāciju noteikšanu
Uzlabotas novērtēšanas metodoloģijas
Papildus standarta etalonuzdevumiem pētniecības organizācijas īsteno sarežģītas novērtēšanas metodoloģijas:
Sarkanās komandas testēšana (Red teaming) - sistemātiska modeļa testēšana ar mērķi identificēt ievainojamības vai potenciāli kaitīgas atbildes
Konkurences testēšana (Adversarial testing) - specializētu ievades datu radīšana, kas paredzēti, lai pārvarētu drošības mehānismus vai izraisītu faktiskas kļūdas
Aklā novērtēšana (Blind evaluation) - modeļu salīdzināšana, nezinot to identitāti, kas novērš apstiprinājuma neobjektivitāti (confirmation bias)
Cilvēka novērtēšana ciklā (Human evaluation in the loop) - nepārtraukta modeļa atbilžu novērtēšana, ko veic reāli lietotāji ražošanas vidē
Kritisks mūsdienu novērtēšanas aspekts ir arī tās daudzveidība - modeļi tiek novērtēti, izmantojot datus, kas aptver dažādas valodas, kultūras kontekstus un demogrāfiskās grupas, kas nodrošina, ka to spējas ir robustas dažādās populācijās un lietojumos. Tehnikas, piemēram, Dynabench vai HELM, īsteno dinamiskus, nepārtraukti attīstošus novērtēšanas protokolus, kas adaptīvi risina konstatētās vājās vietas un esošo etalonuzdevumu ierobežojumus.