Ailtireacht na Múnlaí Móra Teanga (LLManna)
- Ailtireacht an Trasfhoirmeora: Bunús na LLManna Nua-Aimseartha
- Meicníochtaí Féin-Aire agus a n-Impleachtú
- Toisí Leabaithe agus Léiriú na gComharthaí
- Líonraí Néaracha Beathú Chun Tosaigh i LLManna
- Cainníochtú agus Teicnící Optamaithe Eile
- Ilroinnt Múnla agus Próiseáil Dháilte
- Comparáid idir Ailtireachtaí na Múnlaí Teanga Nua-Aimseartha
Ailtireacht an Trasfhoirmeora: Bunús na LLManna Nua-Aimseartha
Léiríonn ailtireacht an Trasfhoirmeora dul chun cinn bunúsach i réimse na próiseála teanga nádúrtha agus is í bunús gach múnla mór teanga nua-aimseartha (LLM). Murab ionann agus cuir chuige roimhe seo bunaithe ar líonraí néaracha athfhillteacha (RNN) nó comhlúthacha (CNN), úsáideann trasfhoirmeoirí an rud ar a dtugtar meicníocht aire, a cheadaíonn spleáchais fhadtéarmacha sa téacs a ghabháil go héifeachtach gan próiseáil sheicheamhach. Tá an bunús ailtireachta seo ríthábhachtach don phróiseas éifeachtach oiliúna múnlaí teanga.
Príomhghné d'ailtireacht an trasfhoirmeora is ea a hin-chomhthreomhaireacht - is féidir gach comhartha sa seicheamh ionchuir a phróiseáil ag an am céanna, rud a luathaíonn go mór an oiliúint agus an infeiriú. Is éard atá i dtrasfhoirmeoir caighdeánach ná ionchódóir (cuid ionchódaithe) agus díchódóir (cuid díchódaithe), agus úsáideann LLManna nua-aimseartha mar GPT ailtireacht díchódóra amháin go príomha, cé go bhfuil múnlaí mar BERT bunaithe ar ionchódóir amháin. Úsáideann múnlaí cosúil le T5 nó BART ailtireacht iomlán ionchódóra-díchódóra.
Sonraíochtaí teicniúla na múnlaí trasfhoirmeora
Cuireann LLManna nua-aimseartha mar GPT-4, Claude nó Llama 2 ailtireachtaí doimhne trasfhoirmeora i bhfeidhm le na mílte go dtí na céadta sraitheanna. Próiseálann gach sraith faisnéis trí mheicníochtaí aire ilchinn agus líonraí néaracha beathú chun tosaigh. Cinntear feidhmíocht an mhúnla go mór mór ag líon na bparaiméadar (meáchain), a théann ó aonaid billiúin do mhúnlaí níos lú go dtí na céadta billiúin nó fiú trilliúin do na córais is mó.
Meicníochtaí Féin-Aire agus a n-Impleachtú
Is comhpháirt lárnach d'ailtireacht an trasfhoirmeora í an fhéin-aire (ar a dtugtar freisin aire scálaithe tultháirge poncúil uaireanta). Ligeann an mheicníocht seo don mhúnla na caidrimh agus na spleáchais idir gach comhartha sa seicheamh a mheas agus a chinneadh go dinimiciúil cé na codanna den téacs ar chóir díriú orthu agus focal nó frása ar leith á léirmhíniú.
Ó thaobh na teicneolaíochta de, athraíonn an fhéin-aire gach comhartha ina thrí veicteoir dhifriúla: iarratas (Q), eochair (K), agus luach (V). Áirítear leis an ríomh aire ina dhiaidh sin iolrú maitrísí Q agus K, an toradh a scálú, feidhm softmax a chur i bhfeidhm chun meáchain aire a fháil, agus ar deireadh iolrú leis an maitrís V chun léiriú comhthéacs-saibhrithe a fháil. Go matamaiticiúil, is féidir an próiseas seo a chur in iúl leis an gcothromóid:
Aire(Q, K, V) = softmax(QKT / √dk)V
Aird ilcheann
Úsáideann LLManna nua-aimseartha an rud ar a dtugtar aird ilcheann, a ligeann don mhúnla cineálacha éagsúla caidrimh sa téacs a rianú ag an am céanna. Mar shampla, féadfaidh ceann aire amháin caidrimh chomhréireacha a rianú, agus díríonn ceann eile ar chosúlacht shéimeantach nó ar chaidrimh chomhthagartha. Is hipearpharaiméadar tábhachtach é líon na gceann aire, a bhíonn de ghnáth idir 12 do mhúnlaí níos lú agus 96 nó níos mó do na córais is mó. Oibríonn gach ceann i dtoise níos ísle ná an veicteoir leabaithe bunaidh, rud a chinntíonn éifeachtúlacht ríomhaireachtúil agus cumas léiritheach an mhúnla á chaomhnú.
Toisí Leabaithe agus Léiriú na gComharthaí
Is hipearpharaiméadar lárnach í an toise leabaithe a chinneann méid an léirithe veicteora ar chomharthaí aonair sa mhúnla teanga. I LLManna nua-aimseartha, bíonn an luach seo de ghnáth idir 768 do mhúnlaí níos lú agus 12288 nó níos mó do na córais is mó. Ligeann toise leabaithe níos mó do nuances séimeantacha níos míne agus caidrimh theangeolaíocha níos casta a ghabháil, ach ag an am céanna méadaíonn sé an déine ríomhaireachtúil agus líon na bparaiméadar sa mhúnla.
Áirítear leis an bpróiseas chun comharthaí a thiontú go leabuithe tábla cuardaigh, áit a bhfreagraíonn veicteoir leabaithe uathúil do gach comhartha féideartha. Saibhrítear na leabuithe tosaigh seo tuilleadh le faisnéis suímh trí leabuithe suímh mar a thugtar orthu, ar féidir iad a chur i bhfeidhm mar pharaiméadair infhoghlama nó trí fheidhmeanna síneasóideacha deitéarmaineacha a úsáid.
Acmhainn chomhthéacsúil na leabuithe
Gné thábhachtach de leabuithe i LLManna is ea a n-acmhainn chomhthéacsúil, is é sin an cumas faisnéis a choinneáil faoi chaidrimh idir comharthaí thar sheichimh fhada. Sroicheann múnlaí nua-aimseartha mar GPT-4 nó Claude 3 Opus fuinneoga comhthéacs de mhéid 32K go 128K comhartha, rud a cheadaíonn próiseáil doiciméad fada, comhráite casta nó treoracha sofaisticiúla. Tá cur i bhfeidhm ceart leabuithe suímh ríthábhachtach chun an fhuinneog chomhthéacs a scálú go héifeachtach, agus úsáideann múnlaí ardleibhéil teicnící mar RoPE (Rotary Position Embedding) nó ALiBi (Attention with Linear Biases) chun feidhmíocht ar sheichimh fhada a fheabhsú.
Líonraí Néaracha Beathú Chun Tosaigh i LLManna
Is iad líonraí néaracha beathú chun tosaigh (FFN) an dara príomh-chomhpháirt de gach sraith trasfhoirmeora, tar éis na meicníochta féin-aire. Cé go ngabhann an aire caidrimh idir comharthaí, próiseálann FFN faisnéis do gach comhartha ar leithligh agus cuireann sé claochluithe neamhlíneacha i bhfeidhm atá ríthábhachtach do chumas léiritheach an mhúnla.
Áirítear le cur i bhfeidhm tipiciúil FFN i dtrasfhoirmeoir dhá chlaochlú líneach le feidhm gníomhachtaithe (ReLU nó GELU de ghnáth) eatarthu. Go matamaiticiúil, is féidir an próiseas seo a chur in iúl mar:
FFN(x) = Líneach2(Gníomhachtú(Líneach1(x)))
Paraiméadrú agus optamú FFN
Ó thaobh na hailtireachta de, is é an paraiméadar lárnach FFN an toise fholaithe mar a thugtar air, a chinneann méid an idirthortha tar éis an chéad chlaochlaithe línigh. Is iondúil go mbíonn an luach seo 4 huaire níos mó ná an toise leabaithe, rud a chinntíonn acmhainn leordhóthanach chun patrúin chasta a ghabháil. In ailtireachtaí nua-aimseartha mar PaLM nó Chinchilla, déantar turgnamh le cumraíochtaí malartacha, lena n-áirítear gníomhachtaithe SwiGLU nó GeGLU agus cuir chuige mixtures-of-experts, a mhéadaíonn tuilleadh éifeachtúlacht na gcomhpháirteanna FFN.
Gné spéisiúil de chomhpháirteanna FFN is ea go gcruthaíonn siad formhór na bparaiméadar i LLManna nua-aimseartha - de ghnáth 60-70% de na meáchain go léir. Fágann sé sin gurb iad na príomh-iarrthóirí iad do theicnící optamaithe mar bhearradh (meáchain neamhriachtanacha a bhaint), cainníochtú nó comhfhogasú ísealchéime i gcásanna ina bhfuil gá le riachtanais chuimhne an mhúnla a laghdú.
Cainníochtú agus Teicnící Optamaithe Eile
Is teicníc optamaithe lárnach é cainníochtú a ligeann do riachtanais chuimhne LLManna a laghdú agus an chuid is mó dá gcumas á gcoimeád. Is é an prionsabal ná paraiméadair an mhúnla a thiontú ó ardchruinneas (luachanna snámhphointe 32-giotán de ghnáth) go cruinneas níos ísle (léiriú 16-giotán, 8-giotán nó fiú 4-giotán). Is féidir le cainníochtú atá curtha i bhfeidhm i gceart méid an mhúnla a laghdú suas le 8 n-uaire le tionchar íosta ar cháilíocht na bhfreagraí.
Cuireann cuir chuige nua-aimseartha mar GPTQ, AWQ nó QLoRA algartaim chainníochtaithe sofaisticiúla i bhfeidhm a optamaíonn an próiseas bunaithe ar airíonna staitistiúla na meáchan agus a dtábhacht do chruinneas an mhúnla. Cuireann cainníochtú iar-oiliúna (PTQ) comhbhrú i bhfeidhm ar mhúnla atá oilte cheana féin, agus comhtháthaíonn oiliúint feasach ar chainníochtú (QAT) gnéithe cainníochtaithe go díreach isteach sa phróiseas oiliúna.
Teicnící optamaithe eile
Chomh maith le cainníochtú, úsáideann LLManna nua-aimseartha roinnt teicnící optamaithe eile:
Bearradh múnla - meáchain nach bhfuil chomh tábhachtach sin nó comhpháirteanna iomlána den mhúnla a bhaint go córasach bunaithe ar a dtionchar ar an bhfeidhmíocht deiridh
Driogadh eolais - múnla "dalta" níos lú a oiliúint chun aithris a dhéanamh ar iompar múnla "múinteora" níos mó
Oiriúnú ísealchéime - comhpháirteanna roghnaithe den mhúnla a choigeartú ag úsáid maitrísí ísealchéime, rud a cheadaíonn mionchoigeartú éifeachtach le riachtanais chuimhne íosta
Aird thanaí - meicníochtaí aire a chur i bhfeidhm nach gá dóibh caidrimh idir gach comhartha a mheas, ach a dhíríonn ar phéirí a d'fhéadfadh a bheith ábhartha amháin
Ilroinnt Múnla agus Próiseáil Dháilte
Is teicníc í ilroinnt múnla chun paraiméadair agus ríomhanna múnlaí móra teanga a dháileadh ar ilghléasanna ríomhaireachta (GPU/TPU), rud a cheadaíonn oiliúint agus imscaradh éifeachtach múnlaí atá ró-mhór le luí i gcuimhne luasaire amháin. Tá ceithre phríomhchur chuige ann maidir le hilroinnt, gach ceann acu lena bhuntáistí agus a theorainneacha féin.
Roinneann Comhthreomhaireacht Teinseora maitrísí agus teinseoirí aonair ina míreanna a phróiseáiltear ag an am céanna ar ghléasanna éagsúla. Laghdaíonn an cur chuige seo forchostas cumarsáide, ach teastaíonn idirnascadh ardluais idir na luasairí.
Dáileann Comhthreomhaireacht Píblíne sraitheanna iomlána den mhúnla ar ghléasanna éagsúla, a phróiseálann sonraí go seicheamhach mar phíblíne. Úsáideann an cur chuige seo cuimhne go héifeachtach, ach d'fhéadfadh ualach neamhchothromaithe a bheith mar thoradh air ar na gléasanna.
Straitéisí dáilte ardleibhéil
Comhcheanglaíonn Comhthreomhaireacht 3D comhthreomhaireacht teinseora agus píblíne le comhthreomhaireacht sonraí (samplaí baisce éagsúla a phróiseáil ar ghléasanna éagsúla), rud a cheadaíonn úsáid uasta acmhainní ríomhaireachta atá ar fáil agus múnlaí an-mhóra á n-oiliúint.
Cuireann ZeRO (Zero Redundancy Optimizer) deireadh le hiomarcaíocht i stóráil staideanna optamaitheora, grádán agus paraiméadar múnla thar GPUanna. Roinneann ZeRO-3, an leagan is forbartha, paraiméadair aonair an mhúnla ionas nach stórálann gach GPU ach cuid bheag den mhúnla iomlán, rud a cheadaíonn oiliúint múnlaí ilmhibhilliúin fiú ar chórais chrua-earraí réasúnta teoranta.
Teastaíonn creataí speisialaithe mar DeepSpeed, Megatron-LM nó Mesh TensorFlow chun straitéisí éifeachtacha ilroinnte a chur i bhfeidhm, a uathoibríonn gnéithe casta an dáilte agus an tsioncronaithe. Is minic a chuireann na creataí seo optamuithe breise i bhfeidhm mar sheicphointeáil grádáin, oiliúint ilchruinnis nó athríomh gníomhachtaithe chun éifeachtúlacht a fheabhsú tuilleadh agus riachtanais chuimhne a laghdú.
Comparáid idir Ailtireachtaí na Múnlaí Teanga Nua-Aimseartha
Tá ról lárnach ag difríochtaí ailtireachta idir LLManna nua-aimseartha ina gcumas, ina n-éifeachtúlacht agus ina n-oiriúnacht d'fheidhmchláir éagsúla. Cé go n-úsáideann siad go léir bunús trasfhoirmeora, tá éagsúlachtaí suntasacha ann maidir le cur i bhfeidhm comhpháirteanna aonair, a théann i bhfeidhm ar a bhfeidhmíocht agus ar a saintréithe.
Úsáideann ailtireacht GPT (Generative Pre-trained Transformer) cur chuige díchódóra amháin le giniúint téacs uath-aischéimnitheach, rud a fhágann go bhfuil sí oiriúnach do thascanna giniúna. Cuireann leaganacha níos nuaí mar GPT-4 teicnící ardleibhéil i bhfeidhm ar leibhéal na hailtireachta (fuinneog chomhthéacs níos mó, ionchuir ilmhódacha) agus ar leibhéal na hoiliúna (RLHF, cuir chuige bunreachtúla).
Thug ailtireacht PaLM (Pathways Language Model) ó Google nuálaíochtaí isteach mar ghníomhachtaithe SwiGLU, aird il-iarratais agus RoPE scálaithe, rud a cheadaigh scálú níos éifeachtaí go dtí na céadta billiúin paraiméadar. Chomhtháthaigh Gemini, comharba PaLM, cumais ilmhódacha go díreach isteach in ailtireacht an mhúnla.
Ailtireachtaí speisialaithe agus cuir chuige nua
Léiríonn Meascáin saineolaithe (MoE) mar Mixtral cur chuige hibrideach, áit nach bpróiseálann ach fo-thacar de líonraí "saineolaithe" speisialaithe gach comhartha. Ligeann an teicníc seo líon na bparaiméadar sa mhúnla a mhéadú go mór agus déine ríomhaireachtúil chomhchosúil á coinneáil le linn infeirithe.
Léiríonn múnlaí staid-spáis mar Mamba rogha eile fhéideartha ar thrasfhoirmeoirí, a chomhcheanglaíonn buntáistí cuir chuige athfhillteacha agus comhlúthacha le hinscálaitheacht líneach maidir le fad an tseichimh. Tá na múnlaí seo an-geallta go háirithe chun comhthéacsanna an-fhada (100K+ comhartha) a phróiseáil.
Agus ailtireacht á roghnú d'fheidhmchlár ar leith, ní mór comhréitigh idir cruinneas, éifeachtúlacht ríomhaireachtúil, riachtanais chuimhne agus cumais shonracha mar chuimhne fhadtéarmach nó próiseáil ilmhódach a mheas. Díríonn an taighde is déanaí ar chuir chuige hibrideacha a chomhcheanglaíonn láidreachtaí ailtireachtaí éagsúla agus teicnící mar ghiniúint aisghabháil-mhéadaithe, a leathnaíonn cumais na múnlaí le rochtain fhollasach ar eolas seachtrach.