Pokalbių dirbtinio intelekto kūrimas ir istorija
Pokalbių DI pradžia (1960–1980)
Pokalbių dirbtinio intelekto istorija siekia stebėtinai tolimą praeitį, konkrečiai XX amžiaus 60-uosius metus, kai buvo sukurtos pirmosios eksperimentinės sistemos, imituojančios žmogaus pokalbį. Šie ankstyvieji bandymai padėjo konceptualius pagrindus šiuolaikiniams DI pokalbiams.
ELIZA (1966) – pirmasis pokalbių robotas istorijoje
Pirmasis svarbus etapas buvo programa ELIZA, kurią 1966 m. MIT sukūrė Josephas Weizenbaumas. ELIZA imitavo psichoterapeutą, taikantį Rogerio terapiją, ir veikė remdamasi paprastais, bet stebėtinai veiksmingais principais:
- Raktinių žodžių ir frazių atpažinimas vartotojo įvestyje
- Vartotojo sakinių performulavimas į klausimus (pvz., „Jaučiuosi blogai“ → „Kodėl jaučiatės blogai?“)
- Bendrinių atsakymų naudojimas neatpažinus įvesties („Papasakokite man apie tai daugiau“)
Nepaisant savo paprastumo, ELIZA sukėlė tai, kas vėliau buvo pavadinta „ELIZA efektu“ – žmonių polinkį kompiuterinėms programoms priskirti daugiau intelekto ir supratimo, nei jos iš tikrųjų turi.
PARRY (1972) – paranojiško paciento imitacija
Kitas svarbus žingsnis buvo programa PARRY, kurią sukūrė psichiatras Kennethas Colby. PARRY imitavo paranojiško šizofreniko elgesį ir buvo sudėtingesnė nei ELIZA – ji turėjo emocinių būsenų modelį, kuris darė įtaką jos atsakymams. Turingo teste, kur psichiatrų buvo paprašyta atskirti tikrus pacientus nuo PARRY imitacijos, jie pasiekė tik 48 % sėkmės rodiklį – praktiškai atsitiktinumo lygį.
Šios ankstyvosios sistemos buvo technologiškai primityvios, palyginti su šiuolaikiniais standartais, tačiau jos nustatė pagrindinį tikslą, kuris išlieka iki šiol: sukurti kompiuterinę programą, galinčią prasmingai bendrauti taip, kad jos nebūtų galima atskirti nuo žmogaus.
Taisyklėmis pagrįstų pokalbių robotų era (1980–2010)
Vėlesniais dešimtmečiais pokalbių sistemų kūrimas tęsėsi daugiausia taisyklėmis pagrįstų sistemų keliu, kurios tapo vis sudėtingesnės, tačiau išlaikė pagrindinį aiškiai apibrėžtų taisyklių ir reakcijų principą.
Svarbiausi taisyklėmis pagrįstos eros etapai
- ALICE (1995) – Artificial Linguistic Internet Computer Entity, sukurta Richardo Wallace'o, pristatė AIML (Artificial Intelligence Markup Language) kalbą pokalbių šablonams apibrėžti
- Jabberwacky (1988–2005) – Rowano Carpenterio sistema, kuri bandė imituoti natūralų žmogaus pokalbį ir mokytis iš sąveikų
- SmarterChild (2000) – populiarus pokalbių robotas AOL Instant Messenger ir MSN Messenger platformose, kuris derino pokalbio galimybes su praktinėmis funkcijomis, tokiomis kaip orų prognozės ar naujienos
Plėtra į komercinę sferą
XX a. 90-aisiais ir XXI a. pirmajame dešimtmetyje pokalbių robotai pradėjo atsirasti komercinėje aplinkoje, ypač šiose srityse:
- Klientų aptarnavimas ir palaikymas svetainėse
- Interaktyviosios balso atsakymo sistemos (IVR) skambučių centruose
- Virtualūs asistentai pranešimų siuntimo platformose
- Mokymo sistemos ir vadovėliai
Nors šios sistemos vis dar buvo pagrįstos taisyklėmis ir dažnai kėlė nusivylimą vartotojams sudėtingesnėse sąveikose, jos buvo svarbus žingsnis normalizuojant pokalbių sąveiką tarp žmonių ir kompiuterių bei sukūrė protingesnių sprendimų paklausą.
Statistinių modelių atsiradimas (2010–2017)
XXI amžiaus antrojo dešimtmečio pradžia atnešė reikšmingą pokytį požiūryje į pokalbių agentų kūrimą. Taisyklėmis pagrįstos sistemos pradėjo užleisti vietą statistiniams modeliams, pagrįstiems mašininiu mokymusi, kurie siūlė didesnį lankstumą ir gebėjimą prisitaikyti.
Giliojo mokymosi revoliucija
Apie 2010 metus dirbtinio intelekto sritis pradėjo išgyventi giliojo mokymosi revoliuciją, kuri turėjo tiesioginį poveikį ir pokalbių robotų kūrimui:
- Neuroninių tinklų našumo pagerėjimas dėl naujų architektūrų ir algoritmų
- Didelių duomenų rinkinių prieinamumas pokalbių modeliams mokyti
- Pažanga natūraliosios kalbos apdorojimo (NLP) srityje
- Techninės įrangos, ypač GPU, skaičiavimo galios padidėjimas
Svarbiausios šios eros sistemos
- IBM Watson (2011) – nors tai nebuvo pirmiausia pokalbių robotas, jo pergalė televizijos viktorinoje „Jeopardy!“ pademonstravo pažangius natūraliosios kalbos apdorojimo gebėjimus
- Apple Siri (2011) – asmeninis asistentas, integruotas į iOS, kuris derino kalbos atpažinimą su pokalbio galimybėmis
- Microsoft Cortana (2014) – Microsoft asmeninis asistentas su integracijomis į Windows ir Microsoft paslaugas
- Amazon Alexa (2014) – balso asistentas, orientuotas į išmaniuosius namus ir integraciją su Amazon ekosistema
- Google Assistant (2016) – pokalbių asistentas su integracija į Google paiešką ir paslaugas
Technologinė pažanga NLP srityje
Šiuo laikotarpiu įvyko reikšmingas poslinkis pagrindinėse natūraliosios kalbos apdorojimo technologijose:
- Žodžių įterpimas (Word embeddings) – Word2Vec (2013) ir GloVe (2014) technikos leido žodžius atvaizduoti vektorinėje erdvėje, kur panašūs žodžiai yra reprezentuojami artimais vektoriais
- Rekurentiniai neuroniniai tinklai (RNN) – architektūros, tokios kaip LSTM ir GRU, pasiūlė geresnį sekų duomenų, įskaitant tekstą, apdorojimą
- Sekos į seką (Sequence-to-sequence) modeliai – leido mokyti sistemas, kurios įvesties seką paverčia išvesties seka, o tai yra labai svarbu pokalbių DI
Nors šios sistemos buvo reikšmingas žingsnis į priekį, palyginti su ankstesne karta, jos vis dar turėjo apribojimų, tokių kaip nesugebėjimas išlaikyti ilgalaikio pokalbio konteksto, problemos generuojant nuoseklius atsakymus, ilgesnius nei keli sakiniai, ir ribotas semantinių niuansų supratimas.
Transformerių revoliucija (2017–2020)
2017 metai atnešė proveržį, kuris iš esmės pakeitė natūraliosios kalbos apdorojimo sritį ir padėjo pagrindus dabartinei DI pokalbių kartai. Šis proveržis buvo Transformer architektūra, pristatyta Google tyrėjų straipsnyje Attention Is All You Need.
Transformer architektūra
Transformer architektūra pristatė keletą esminių naujovių:
- Dėmesio mechanizmas (attention mechanism) – leidžia modeliui selektyviai sutelkti dėmesį į svarbias įvesties sekos dalis
- Lygiagretus apdorojimas – skirtingai nei rekurentiniai tinklai, leidžia efektyviai lygiagretinti skaičiavimus
- Gebėjimas užfiksuoti ilgalaikes priklausomybes – efektyvesnis ilgų teksto sekų apdorojimas
- Mastelio keitimas – architektūra, kuri pasirodė esanti ypač gerai keičiamo mastelio didėjant modelio dydžiui ir duomenų kiekiui
Transformeriais pagrįsti kūrimo etapai
Transformer architektūra greitai paskatino modelių kūrimą, kurie palaipsniui plėtė NLP srities galimybių ribas:
- BERT (2018) – Bidirectional Encoder Representations from Transformers, sukurtas Google, kuris pasiekė proveržio rezultatų natūraliosios kalbos supratimo srityje
- GPT (2018) – Generative Pre-trained Transformer, pirmoji OpenAI versija, demonstruojanti gebėjimą generuoti nuoseklų tekstą
- GPT-2 (2019) – žymiai didesnis modelis (1,5 milijardo parametrų), kuris pademonstravo stebinančius gebėjimus generuoti rišlų ir kontekstui tinkamą tekstą
- T5 (2019) – Text-to-Text Transfer Transformer iš Google, suvienijantis įvairias NLP užduotis į vieną formatą
- Meena (2020) – Google pokalbių modelis, specialiai skirtas atvirosios srities pokalbiams
- Blender (2020) – Facebook (dabar Meta) pokalbių modelis, orientuotas į empatiją ir asmenybę
Poveikis pokalbių DI
Transformeriais pagrįsti modeliai atnešė keletą esminių patobulinimų pokalbių DI:
- Žymiai geresnis konteksto supratimas ir atsakymų nuoseklumas
- Gebėjimas generuoti ilgesnius ir rišlesnius tekstus
- Pagerintas stiliaus ir tono išlaikymas pokalbio metu
- Geresnis gebėjimas prisitaikyti prie naujų temų ir sričių
Šis laikotarpis buvo tiltas tarp statistinių modelių su ribotomis pokalbio galimybėmis ir dabartinių didžiųjų kalbos modelių, kurie siūlo kokybiškai naują pokalbio patirties lygį.
Didžiųjų kalbos modelių era (2020–dabar)
Nuo 2020 m. stebime sprogstamą didžiųjų kalbos modelių (LLM) plėtrą, kuri pakėlė DI pokalbių galimybes į lygį, anksčiau laikytą nepasiekiamu. Šiai erai būdingas spartus inovacijų tempas ir laipsniškas perėjimas nuo mokslinių tyrimų prototipų prie plačiai prieinamų produktų.
Proveržio modeliai dabartinėje eroje
- GPT-3 (2020) – su 175 milijardais parametrų reiškė precedento neturintį šuolį dydžio ir galimybių srityje, demonstruodamas atsirandančius gebėjimus, tokius kaip mokymasis iš kelių pavyzdžių (few-shot learning)
- ChatGPT (2022) – optimizuota GPT modelio versija pokalbiams, tapusi pirmuoju masiškai naudojamu DI pokalbių robotu, turinčiu daugiau nei 100 milijonų vartotojų
- GPT-4 (2023) – multimodalinį modelis, galintis dirbti su tekstu ir vaizdais, su žymiai pagerintomis sudėtingo mąstymo ir specializuotų sričių galimybėmis
- Claude (2023) – Anthropic modelių šeima, orientuota į saugumą, tikslumą ir gebėjimą vykdyti sudėtingas instrukcijas
- Gemini (2023) – Google multimodalinį modelis, apimantis tekstą, vaizdą ir garsą
- Llama 2 (2023) – Meta atvirojo kodo modelis, kuris pažangias pokalbio galimybes padarė prieinamas platesnei kūrėjų bendruomenei
- GPT-4 Turbo (2023) – patobulinta GPT-4 versija su optimizuotu greičiu ir našumu komerciniam naudojimui
- Claude 2 (2024) – naujos kartos Claude modelis su pagerintu konteksto supratimu ir padidintu saugumu
- Mistral 7B (2023) – kompaktiškas atvirojo kodo modelis, orientuotas į efektyvumą ir greitą diegimą realiuoju laiku
- Llama 3 (2024) – nauja Meta modelio versija, siūlanti pažangias pokalbio galimybes ir pagerintą mokymo optimizavimą
- Gemini 2 (2024) – Gemini modelio tęsinys su papildomais patobulinimais multimodalinės integracijos ir sudėtingo mąstymo srityse
- GPT-4.5 (2025) – novatoriškas tarpinis etapas tarp GPT-4 ir būsimos GPT-5 kartos, kuris suteikia pagerintą greitį, efektyvumą ir tikslumą sprendžiant sudėtingas užduotis
- Gemini 2.5 (2025) – kita Google multimodalinio modelio iteracija, kuri toliau tobulina teksto, vaizdo ir garso integraciją su geresniu konteksto supratimu
- Grok – naujai kuriamas modelis, kuris derina pokalbių DI su prieiga prie realaus laiko duomenų, orientuotas į personalizuotą sąveiką ir naudojantis socialinius duomenis
Svarbiausios technologinės naujovės
Dabartinę erą skatina kelios esminės technologinės naujovės:
- Mastelio keitimas – dramatiškas modelių dydžio ir mokymo duomenų apimties padidinimas
- RLHF (Sustiprinamasis mokymasis iš žmogaus grįžtamojo ryšio) – technika, naudojanti žmogaus grįžtamąjį ryšį modeliams derinti siekiant saugumo ir naudingumo
- Valdymas pagal instrukcijas (instruction tuning) – specializuotas modelių derinimas, kad jie vykdytų nurodymus
- Multimodalinė integracija – gebėjimas vienu metu dirbti su tekstu, vaizdais ir kitomis modalumomis
- Specializuotos technikos haliucinacijoms mažinti – metodai faktiniam tikslumui ir patikimumui pagerinti
Socialinis poveikis ir pritaikymas
Dabartiniai DI pokalbiai turi precedento neturintį socialinį poveikį ir pritaikymo lygį:
- Masinis naudojimas asmeniniam produktyvumui, švietimui ir kūrybiniam darbui
- Integracija į verslo procesus ir produktus
- Plėtra į visas sritis nuo sveikatos apsaugos iki teisinių paslaugų
- Naujų produktų ir paslaugų kategorijų, pagrįstų LLM, atsiradimas
- Diskusijos apie šios technologijos etines, teisines ir socialines pasekmes
Ši era reiškia esminį pokytį žmonių ir kompiuterių sąveikoje, kur natūralia kalba pagrįsta pokalbių sąsaja pradeda pakeisti tradicines grafines vartotojo sąsajas vis didesniame skaičiuje programų ir kontekstų. Norėdami gauti išsamią apžvalgą, ką gali dabartiniai modeliai, apsilankykite pagrindinės šiuolaikinių DI pokalbių galimybės.
Ateities DI pokalbių kūrimo tendencijos
Remdamiesi dabartinėmis tendencijomis ir tyrimais, galime nustatyti kelias kryptis, kuriomis tikėtina vystysis DI pokalbiai ateinančiais metais. Šios tendencijos rodo tolesnį gebėjimų gilinimą ir taikymo sričių plėtrą.
Technologinės tendencijos
- Multimodalinė integracija – gilesnis teksto, vaizdo, garso ir kitų modalumų susiejimas natūralesnei komunikacijai
- Pažangi personalizacija – DI pokalbių pritaikymas prie individualių vartotojo pageidavimų, žinių ir bendravimo stiliaus
- Didesnis konteksto langas – gebėjimas dirbti su ilgesne pokalbio istorija ir sudėtingesniais dokumentais
- Skaičiavimo sąnaudų mažinimas – modelių optimizavimas efektyvesniam veikimui įvairiuose įrenginiuose
- Specializuoti modeliai – DI pokalbiai, optimizuoti konkrečioms sritims ir užduotims
- Hibridinė architektūra – generatyvinių modelių derinimas su paieškos sistemomis (retrieval systems) tikslesniems faktiniams atsakymams gauti
Taikymo tendencijos
- DI agentai – autonomiškesnės sistemos, galinčios atlikti sudėtingas užduotis ir veiksmų sekas
- Gilesnė integracija į darbo procesus – DI pokalbiai kaip asistentai profesiniuose kontekstuose
- Švietimo programos – personalizuoti DI korepetitoriai, pritaikyti įvairioms amžiaus grupėms ir dalykams
- Kūrybinis bendradarbiavimas – DI pokalbiai kaip partneriai meninėje ir kūrybinėje veikloje
- Terapinės ir palaikomosios programos – sistemos psichinei paramai ir pagalbai krizinėse situacijose
Etiniai ir reguliavimo aspektai
Ateities plėtrą vis labiau formuos etiniai ir reguliavimo veiksniai:
- Didėjantis dėmesys DI sistemų skaidrumui ir paaiškinamumui
- Standartų kūrimas DI pokalbių testavimui ir sertifikavimui
- Privatumo ir duomenų saugumo problemų sprendimas pokalbių sistemose
- Mechanizmų kūrimas piktnaudžiavimo prevencijai ir žalingų rezultatų mažinimui
- Prisitaikymas prie besiformuojančių reguliavimo sistemų įvairiose jurisdikcijose
Tikėtina, kad toliau vystantis technologijoms stebėsime laipsnišką DI pokalbių integraciją į kasdienį gyvenimą ir darbą, kur jie tarnaus kaip pagrindinė sąsaja tarp žmonių ir skaitmeninių sistemų. Ši transformacija vyks palaipsniui, skirtingu greičiu įvairiuose kontekstuose ir sektoriuose, tačiau vystymosi kryptis link natūralesnės, kontekstą suprantančios ir multimodalinės komunikacijos yra akivaizdi.
Taip pat ir mes, Explicaire įmonėje, remiamės turtinga patirtimi su pažangiais kalbos modeliais, tokiais kaip Google Bison 2, GPT-3.5 ir kitomis to meto technologijomis. Šie įrankiai pradžioje leido mums kurti mūsų produktų pagrindus ir plėtoti jų išmaniąsias funkcijas. Tačiau laikui bėgant nuolat stebėjome dirbtinio intelekto srities vystymąsi ir pritaikėme savo sprendimus naujesniems, galingesniems modeliams. Dėl to šiandien naudojame moderniausias prieinamas technologijas, kurios užtikrina didesnį tikslumą, greitį ir lankstumą. Mūsų gebėjimas greitai reaguoti į technologinius pokyčius leidžia mums išlaikyti savo produktus lyderiaujančiose pozicijose ir užtikrinti maksimalią vertę mūsų klientams.