Loomuliku keele töötlemine AI-vestlustes

Tokeniseerimine ja selle rakendamine LLM-ides

Tokeniseerimine on NLP-s fundamentaalne protsess, mille käigus sisendtekst jaotatakse põhiühikuteks (tokeniteks), mida keelemudel töötleb. Erinevalt intuitiivsest eeldusest ei ole tokenid tingimata terved sõnad, vaid võivad olla sõnaosad, üksikud tähemärgid või isegi baidiosad. See paindlikkus võimaldab tõhusalt esitada laia valikut keeli ja erisümboleid, säilitades samal ajal mõistliku sõnastiku suuruse.

Kaasaegsed LLM-id rakendavad peamiselt kolme tüüpi tokeniseerimisalgoritme:

Byte-Pair Encoding (BPE) - iteratiivne algoritm, mis alustab üksikute tähemärkidega ja liidab järk-järgult kõige sagedasemad paarid uuteks tokeniteks, luues nii statistiliselt optimaalse sõnastiku, mis sisaldab nii sagedasi terveid sõnu kui ka komponente haruldasemate väljendite jaoks.

Tokeniseerimise rakendamine reaalsetes süsteemides

WordPiece - BPE variant, mida kasutatakse näiteks BERT-mudelites, mis eelistab sagedasemaid sõnaosi ja rakendab spetsiaalset eesliitesüsteemi (tavaliselt ##) sõnade jätkumise tähistamiseks.

SentencePiece - otsast-otsani tokeniseerimissüsteem, mis välistab teksti eeltöötluse, nagu sõnade segmenteerimine või normaliseerimine, muutes selle ideaalseks mitmekeelsete mudelite ja selgete sõnapiirideta keelte jaoks.

Kaasaegsete vestlusrobotite kontekstis mõjutab tokeniseerimine oluliselt nende praktilist kasutamist. GPT-4 ja Claude kasutavad patenteeritud BPE rakendusi sõnastiku suurusega 100 000+ tokenit, mis võimaldab tavalise teksti tõhusat tihendamist (tavaliselt 4-5 tähemärki tokeni kohta). Tehniliseks väljakutseks jääb mitmekeelsete tekstide, koodi ja spetsialiseeritud märkuste, nagu matemaatilised sümbolid või keemilised valemid, tõhus tokeniseerimine. Uusimad mudelid, nagu Gemini või BLOOM, rakendavad täiustatud tokeniseerijaid, mis on optimeeritud nende segamodaalsete sisendite jaoks.

Manustused ja semantika esitus

Manustused (embeddings) on kaasaegsete NLP-süsteemide võtmekomponent – need on sõnade, fraaside või tervete dokumentide tihedad vektor-esitused n-mõõtmelises ruumis, kus semantiliselt sarnased elemendid paiknevad üksteise lähedal. Need numbrilised esitused võimaldavad keelemudelitel tõhusalt töötada teksti tähenduse ja seostega.

LLM-ide kontekstis eristame mitut tüüpi manustusi:

Tokeni manustused - üksikute tokenite põhi esitused, tavaliselt vektoritena suurusega 768–8192 dimensiooni, sõltuvalt mudeli suurusest.

Positsioonilised manustused - vektorid, mis kodeerivad tokeni positsiooni järjestuses, mis on kriitilise tähtsusega süntaktiliste suhete säilitamiseks.

Segmendi/tüübi manustused - täiendavad esitused, mis tähistavad tokeni rolli või päritolu (nt kas see pärineb kasutaja sisendist või mudeli vastusest).

Kaasaegsed manustussüsteemid ja nende rakendused

Lisaks LLM-ide sisemistele manustustele on olemas spetsialiseeritud manustusmudelid nagu text-embedding-ada-002 (OpenAI) või E5 (Microsoft), mis on optimeeritud konkreetsete ülesannete jaoks, nagu otsing, klastrite moodustamine või teabeotsing (retrieval). Need mudelid rakendavad täiustatud tehnikaid, nagu kontrastõpe (contrastive learning), kus manustusi treenitakse nii, et maksimeerida asjakohaste paaride sarnasust ja minimeerida mitteseotud tekstide sarnasust.

Manustustehnoloogiate kriitiline rakendus kaasaegsetes vestlusrobotites on RAG (Retrieval-Augmented Generation), kus kasutaja päringu manustusi kasutatakse asjakohaste dokumentide või teadmiste semantiliseks otsimiseks, mis seejärel rikastavad vastuse genereerimise konteksti. See lähenemine parandab dramaatiliselt AI-süsteemide pakutava teabe faktilist täpsust ja ajakohasust.

Uusimad uuringud keskenduvad mitmemodaalsetele manustustele, mis integreerivad teksti-, visuaal- ja muid modaalsusi ühtsesse vektorruumi, võimaldades keerukat modaalidevahelist otsingut ja arutluskäiku. Süsteemid nagu CLIP või Flamingo demonstreerivad, kuidas need ühtsed esitused saavad tõhusalt siduda mõisteid erinevat tüüpi andmete vahel.

Kontekstuaalne mõistmine ja analüüs

Kontekstuaalne mõistmine on kaasaegsete keelemudelite fundamentaalne võime, mis võimaldab tõlgendada ja analüüsida teksti, võttes arvesse selle laiemat konteksti. Erinevalt klassikalistest NLP lähenemistest, mis tavaliselt töötlesid teksti lausete või lühikeste lõikude kaupa, töötavad kaasaegsed LLM-id laiendatud kontekstiga, mis hõlmab tuhandeid kuni kümneid tuhandeid tokeneid.

See protsess hõlmab mitut võtmetasandi analüüsi:

Süntaktiline analüüs - teksti grammatilise struktuuri kaudne mõistmine, sealhulgas sõnade, fraaside ja lausete vaheliste sõltuvuste tuvastamine.

Semantiline analüüs - teksti tähenduse tõlgendamine, sealhulgas polüseemsete väljendite tähenduse eristamine konteksti põhjal ja kaudsete seoste tuvastamine mõistete vahel.

Diskursuse analüüs - pikemate tekstijärjestuste struktuuri ja sidususe mõistmine, sealhulgas argumentatsioonimustrite, narratiivsete elementide ja temaatiliste üleminekute tuvastamine.

Kontekstuaalse mõistmise rakendamine vestlusrobotites

Kaasaegsete vestlusrobotite kontekstis on kriitilise tähtsusega võime säilitada ja pidevalt ajakohastada nn "vestluse olekut" (conversation state) – dialoogi kulgemise esitust, mis sisaldab võtmeteavet, kasutaja eelistusi ja asjakohaseid detaile eelmistest interaktsioonidest. Kui vanemad süsteemid rakendasid selgesõnalisi olekujälgimise komponente, siis kaasaegsed otsast-otsani LLM-id kasutavad nn kontekstipõhist õpet (in-context learning), kus kogu vestluse ajalugu esitatakse sisendi osana.

See lähenemine võimaldab keerukaid nähtusi nagu null- või väheshaavalõpe (zero/few-shot learning), kus mudel suudab oma käitumist kohandada mõne vähese näite põhjal, mis on esitatud konteksti osana. Kriitiliseks väljakutseks jääb pikkade kontekstide tõhus haldamine, eriti reaalajas rakendustes. Tehnikaid nagu libisevad aknad (sliding windows) või vestlusajaloo hierarhiline tihendamine rakendatakse mõistmise täpsuse ja arvutusliku tõhususe tasakaalustamiseks.

Uusimad mudelid nagu Claude või GPT-4 demonstreerivad täiustatud kontekstuaalseid võimeid, sealhulgas metamõistmist (võime reflekteerida ja kommenteerida enda tõlgendusi), dokumentidevahelist arutluskäiku (seoste loomine erinevate dokumentide vahel kontekstis) ja laiendatud mälu (konsistentsuse säilitamine väga pikkade interaktsioonide vältel). Need võimed on võtmetähtsusega keerukate rakenduste jaoks nagu koostöökirjutamine, laiendatud tõrkeotsing või mitmeetapiline uurimisabi.

Kavatsuse tuvastamine ja olemite eraldamine

Kavatsuse tuvastamine (intent recognition) ja olemite eraldamine (entity extraction) on kaasaegsete AI-vestlusrobotite kasutajasisendite töötlemise torujuhtme võtmekomponendid. Need tehnikad võimaldavad muuta struktureerimata teksti struktureeritud andmeteks, mida saab tõhusalt kasutada täpsete ja kontekstipõhiselt asjakohaste vastuste genereerimiseks.

Kavatsuse tuvastamine on kasutaja sisendi peamise kavatsuse või eesmärgi tuvastamise protsess. Kui traditsioonilised vestlusrobotid kasutasid reeglipõhiseid süsteeme või spetsialiseeritud klassifikaatoreid, siis kaasaegsed LLM-id rakendavad kaudset kavatsuse tuvastamist osana oma otsast-otsani töötlusest. Need süsteemid suudavad ära tunda kümneid kuni sadu erinevaid kavatsusi, alates informatiivsetest päringutest ja instrumentaalsetest taotlustest kuni emotsionaalsete või sotsiaalsete interaktsioonideni.

Täiustatud struktureeritud andmete eraldamine

Olemite eraldamine (mõnikord nimetatud ka nimega olemite tuvastamine - Named Entity Recognition - NER) on teksti võtmeinformatsioonielementide tuvastamise ja klassifitseerimise protsess, näiteks:

- Isikud, organisatsioonid ja asukohad

- Ajaandmed ja kuupäevad

- Mõõtmised, väärtused ja spetsiifilised identifikaatorid

- Valdkonnaspetsiifilised olemid (nt sümptomid meditsiinilises kontekstis või tehnilised spetsifikatsioonid IT-toes)

Selle tehnoloogia kaasaegsed rakendused ületavad pelgalt olemite tuvastamise ja hõlmavad keerukaid võimeid nagu:

Olemite linkimine - tuvastatud olemite sidumine konkreetsete kirjetega teadmusbaasis

Kordusviidete lahendamine (Coreference resolution) - sama olemi erinevate viidete tuvastamine kogu tekstis

Atribuutide eraldamine - olemitega seotud omaduste ja tunnuste tuvastamine

Seoste eraldamine - erinevate olemite vaheliste seoste tuvastamine tekstis

Kõige arenenumates rakendustes, nagu GPT-4 või Claude, on need võimed integreeritud ühtsesse arutlussüsteemi, mis suudab paindlikult lülituda kaudse ja selgesõnalise struktureeritud töötlemise vahel vastavalt ülesande vajadusele. See integratsioon võimaldab kombineerida struktureeritud töötlemise täpsust otsast-otsani generatiivsete lähenemiste paindlikkuse ja üldistusvõimega.

Vastuste genereerimine ja dekodeerimine

Vastuste genereerimine on AI-vestlusrobotite keeletöötluse torujuhtme viimane ja võib-olla kõige kriitilisem etapp. See protsess muudab mudeli sisemised esitused sidusaks, kasulikuks ja kontekstipõhiselt sobivaks tekstiks. Selle protsessi keskmes on nn dekodeerimine – algoritm, mis konstrueerib järk-järgult väljundjärjestuse tokeni haaval, kasutades keelemudeli õpitud tõenäosusjaotusi.

Põhilised dekodeerimismeetodid hõlmavad:

Ahne dekodeerimine (Greedy decoding) - lihtne lähenemine, mis valib igal sammul suurima tõenäosusega tokeni, mis viib deterministlike, kuid sageli monotoonsete või ennustatavate vastusteni.

Kiireotsing (Beam search) - algoritm, mis säilitab mitu kõige tõenäolisemat kandidaatjärjestust (kiirt) ja laiendab igal sammul kõiki võimalusi, võimaldades vastuse globaalsemat optimeerimist.

Täiustatud valimitehnikad vastuste genereerimiseks

Kaasaegsed LLM-id rakendavad keerukamaid dekodeerimisstrateegiaid, mis tasakaalustavad determinismi ja loovust:

Temperatuuri valim (Temperature sampling) - tehnika, mis kohandab tõenäosusjaotuse "julgust", kus kõrgem temperatuur viib mitmekesisemate ja loovamate vastusteni, samas kui madalam temperatuur soosib ennustatavust ja faktilist täpsust.

Top-k valim (Top-k sampling) - meetod, mis piirab valikut k kõige tõenäolisema tokeniga, mis välistab ebatõenäolised trajektoorid, säilitades samal ajal teatud varieeruvuse.

Tuumikvalim (Nucleus (top-p) sampling) - keerukas lähenemine, mis kohandab dünaamiliselt kandidaattokenite arvu nii, et nende kumulatiivne tõenäosus saavutaks läve p, kohandades tõhusalt valimibasseini suurust vastavalt mudeli kindlusele.

Genereerimise kriitiline aspekt on ka järeltöötlus, mis võib hõlmata:

- Grammatiliste vigade või soovimatute artefaktide tuvastamine ja parandamine

- Turvafiltrite rakendamine potentsiaalselt problemaatilise sisu kõrvaldamiseks

- Vastuste vormindamine ja struktureerimine vastavalt soovitud väljundile (nt JSON, markdown, HTML)

- Vastuste täiendamine lisateabe või metaandmetega

Reaalajas rakendustes rakendatakse voopõhist dekodeerimist (stream-based decoding), kus tokenid edastatakse kasutajale järk-järgult, niipea kui need on genereeritud, mis parandab oluliselt süsteemi tajutavat reageerimisvõimet, eriti pikemate vastuste puhul.

Valimitehnikad ja vastuste mitmekesisus

Valimitehnikad (sampling techniques) on keerukad algoritmid, mis muudavad keelemudelite genereeritud tõenäosusjaotused konkreetseteks soovitud omadustega tokenijärjestusteks. Nende rakendamine mõjutab oluliselt genereeritud vastuste iseloomu ja on AI-vestlusrobotite kasutajakogemuse kriitiline aspekt.

Kuigi deterministlikud meetodid nagu ahne dekodeerimine või kiireotsing on optimaalsed ülesannete jaoks, mis nõuavad täpsust ja järjepidevust (nt faktilised vastused või formaalne suhtlus), on valimipõhised lähenemised hädavajalikud loominguliste rakenduste, loomuliku vestluse ja olukordade jaoks, kus soovitakse teatud määral ettearvamatust.

Täiustatud parameetrilised valimitehnikad

Kaasaegsed rakendused kasutavad erinevate valimistrateegiate ja nende parameetrite kombinatsiooni:

Mitmeastmeline valim (Multi-stage sampling) - kaskaadne lähenemine, mis rakendab erinevaid valimimeetodeid genereerimise eri etappides, näiteks tuumikvalim loominguliste osade jaoks ja deterministlikumad meetodid faktilise teabe jaoks.

Tüüpiline valim (Typical sampling) - meetod, mis eelistab tüüpilise (keskmise) üllatusväärtusega (surprisal) tokeneid, mis välistab nii liiga tavalised kui ka liiga ebatõenäolised trajektoorid.

Mirostat - adaptiivne algoritm, mis kohandab dünaamiliselt valimiparameetreid eesmärgiga säilitada genereeritud teksti konstantne perpleksus, mis viib stabiilsema kvaliteedini erinevates kontekstides.

Kontrastiivne otsing (Contrastive search) - lähenemine, mis tasakaalustab tõenäosust ja mitmekesisust degeneratsioonikaristuse (degeneration penalty) abil, karistades sarnaste kontekstide kordumist.

Nende tehnikate rakendamise kriitiline aspekt on nende dünaamiline kohandamine vastavalt kontekstile, domeenile ja kasutaja eelistustele. Kõige arenenumad süsteemid nagu Claude või GPT-4 rakendavad metavalimistrateegiaid, mis kohandavad automaatselt valimiparameetreid tuvastatud sisutüübi, nõutava formaalsuse või ülesande loomingulise vs. faktilise orientatsiooni alusel.

Kasutajale orienteeritud rakenduste jaoks on oluline ka võimalus valimiparameetreid selgesõnaliselt kontrollida, mis võimaldab genereerimist kohandada vastavalt konkreetsetele nõuetele. Selliste kontrollide rakendamine nõuab tasakaalu paindlikkuse ja liidese keerukuse vahel, mis tavaliselt realiseeritakse kõrgetasemeliste abstraktsioonide kaudu, nagu "loovus", selle asemel, et otse manipuleerida tehniliste parameetritega nagu temperatuur või top-p.

Suhtluse pragmaatilised aspektid

Suhtluspragmaatika – uurimus sellest, kuidas kontekst mõjutab keele tähendust ja tõlgendamist – on üks keerukamaid valdkondi NLP-s. Kaasaegsed vestlusrobotid rakendavad keerukaid mehhanisme pragmaatiliste aspektide tabamiseks, mis võimaldab neil genereerida sotsiaalselt sobivaid, kontekstitundlikke ja kommunikatiivselt tõhusaid vastuseid.

Täiustatud süsteemides rakendatavad peamised pragmaatilised nähtused hõlmavad:

Diskursuse haldamine - võime säilitada sidusust ja progressi pikkades vestlustes, sealhulgas sobivad üleminekud teemade vahel, dialoogi suuna muutuste signaliseerimine ja sobivad algus-/lõpujärjestused.

Registritundlikkus - vastuste formaalsuse taseme, tehnilise keerukuse ja stiililiste aspektide kohandamine vastavalt kontekstile, domeenile ja kasutaja omadustele.

Implikatuuride käsitlemine - võime järeldada väljaütlemata tähendusi ja kavatsusi, mis ületavad teksti sõnasõnalist tõlgendust (nt retooriliste küsimuste, iroonia või kaudsete taotluste äratundmine).

Suhtluse sotsiaalsed ja kultuurilised aspektid

Pragmaatiliste võimete täiustatud rakendused hõlmavad ka:

Viisakuse modelleerimine - spetsiifiliste viisakusstrateegiate rakendamine, sealhulgas näo säilitamise mehhanismid (face-saving), positiivsuse kalle (positivity bias) ja sobiv otsesuse määr vastavalt kultuurilistele ja sotsiaalsetele normidele.

Kultuuriline kohanemine - võime kohandada suhtlusstiili, viiteid ja näiteid vastavalt kultuurilisele kontekstile, mis hõlmab lokaliseeritud idioome, kultuuriliselt asjakohaseid analoogiaid ja austust spetsiifiliste tabude või tundlikkuste vastu.

Tooni ja sentimentide joondamine - vastuste emotsionaalse tooni dünaamiline kohandamine sobiva sotsiaalse dünaamika loomiseks, sealhulgas empaatia emotsionaalselt laetud olukordades või entusiasm positiivsete interaktsioonide korral.

Nende võimete rakendamine ühendab tavaliselt kaudse õppimise treeningandmetest selgesõnaliste joondamistehnikatega nagu RLHF. Kriitiliseks väljakutseks jääb tasakaal universaalsete suhtluspõhimõtete ja spetsiifiliste kultuuriliste või individuaalsete eelistuste vahel, mis nõuab keerukaid metapragmaatilisi võimeid – teadlikkust sellest, millal ja kuidas kohandada suhtlusstrateegiaid vastavalt konkreetsele kontekstile.

Kõige arenenumad süsteemid nagu Claude või GPT-4 demonstreerivad esilekerkivaid pragmaatilisi võimeid, mis ületavad selgesõnalist treeningut, sealhulgas mitme osapoolega dialoogi haldamine, keskmise kuni pikaajalise isikupärastamise ja adaptiivsed suhtlusstrateegiad, mis arenevad interaktsiooni käigus nii selgesõnalise kui ka kaudse tagasiside põhjal.

Explicaire'i meeskond
Explicaire'i tarkvaraekspertide meeskond

Selle artikli koostas Explicaire'i uurimis- ja arendusmeeskond, mis on spetsialiseerunud täiustatud tehnoloogiliste tarkvaralahenduste, sealhulgas tehisintellekti, rakendamisele ja integreerimisele äriprotsessidesse. Rohkem meie ettevõtte kohta.