Hizkuntza-eredu handi

testwikitik
Nabigaziora joan Bilaketara joan

Hizkuntza-eredu handiak[1] (HEH edo LLM, Txantiloi:Lang-en) milaka miloi parametro dituzten sare neuronaletan (gehienbat transformer[2]-ak) oinarritutako hizkuntza-ereduak dira, oro har, hizkuntza-ulermena eta sormena lortzeko duten gaitasunagatik ezagunak. Gaitasun hauek eskuratzeko, entrenamenduan datu-kopuru erraldoiak eta ikasketa-teknika ezberdinak erabiltzen dituzte.

Hizkuntza eredu handiak entrenatzeko erabiltzen den konputazio-lanaren gorakada azkarra. HEH itxi onenen entrenamendu-kostuak eredu irekiko onenen entrenamendu-kostuak baino askoz ere handiagoak dirudite. GPT-4 eta antzeko ereduen entrenamendu-kostua ez da publikoki ezagutzen; beraz, estimazio bat baino ez da. Datuak Epoch-enak dira 2023an, eta grafikoa Stanfordeko Unibertsitateko AI index-ekoa da 2024an.[3]

Hizkuntza-eredu autorregresibo gisa, sarrerako testu bat hartu eta hurrengo token edo hitza zein izan daitekeen aurreikusten dute, behin eta berriz.

Esaldi batean hurrengo hitza iragartzea bezalako zeregin sinpleetan trebatuta egon arren, horrekin batera giza hizkuntzaren sintaxiaren eta semantikaren zati handi bat ikasteko gaitasuna ere lortzen dute. Gainera, hizkuntza-eredu handiek munduari buruzko ezagutza orokorra ere badutela erakusten dute, eta entrenamenduan zehar gertaera ugariri buruz ikasteko gai direla. Hala ere, entrenamendua corpuseko testuaren gainean egiten denez, horrenganako menpekotasun handia dute gero, hau da, corpuseko testuak dituen zehaztasun-ezak eta alborapenak heredatzen dituzte.

Adibide aipagarriak dira OpenAIren GPT ereduak (adibidez, GPT-3.5 eta GPT-4, ChatGPT txatbotean erabiltzen direnak), Google-ren PaLM (Bard-en erabilia) eta Meta-ren LLaMa, baita BLOOM, Ernie 3.0 Titan eta Anthropic-en Claude 3 ere.

2024ko Informatikari Euskaldunen Bilkuraren barruan sei hizkuntza-eredu handi jarri zuten lehian euskarazko elkarrizketetan. Helburua EHUko Hitz zentroan garatzen den Latxa eredua «sistema komertzial hoberenen kontra» lehian jartzea izan zen, eta horra ondorioetako bat: GPT-4o eredu ezagunaren parean geratu zen ia. Dema horretan ikusi zen euskaraz «hobekien» zekien sistema Claude Sonnet 3.5 sistema komertziala zela, bigarren GPT-4o sistema geratu zen, eta haren «ia parean» geratu zen Latxa. Beherago geratu zen Gemini Flash 1.5, eta «askoz beherago» Command R+ eta LLama 3.1. Azken hori Latxa eredu berriaren «oinarria» da.[4][5][6]

Propietateak

Aurre entrenamendu datu multzoak

HEHak testu-datu multzo handietan aldez aurretik trebatzen dira. Gehien erabiltzen diren testu-datu multzo batzuk Common Crawl, The Pile, MassiveText,​ Wikipedia eta GitHub dira. Datu multzoek 15.000.000 milioi hitz arteko tamaina heldu ziren 2024an. Baliabide urri dituen hizkuntza izanik, euskarazko testu-corpus handienen tamaina milaka aldiz txikiago izaten da; esate baterako EusCrawl corpusa (288 milioi hitz). Hala ere bada berri on bat, euskarazko corpus ·txiki horiek" ingelesezko corpus itzel batekin batera entrenatuz gero, lortzen den eredua gauza da euskaraz modu duinean egiteko eta gauza da ingelesezko corpus handiaren ezagutza orokorra euskaraz erabiltzeko ere. Horrela, HiTZ zentroak 2024ko urtarrilean garatu zuen Latxa ereduan LLaMA 2 ereduko corpusa (2 bilioi hitz) erabili zuten eta euskarazko EusCrawl corpusa (288 milioi hitz, 6 mila aldiz txikiagoa) gehitu zioten.[7]

Bestalde, izugarria da ikustea zelan hazten diren testu-corpusen tamaina. Esate baterako, lehen aipatutako LLaMA 2 ereduko corpusak 2 bilioi hitz zeuzkan 2023ko uztailean, eta urtebete geroago, 2024ko uztailean, LLaMA 3 eredu berriko corpusak 15,7 bilioi hitz zeuzkan. Urtebeteko epean entrenamendu-corpusaren tamaina ia zortzi aldiz handiagoa zen. Noski, HiTZ Zentroak corpus libre handiago hori erabili du Latxaren bertsio hobe bat sortzeko.[7]

Eskalatzeko legeak

Oro har, HEH bat lau parametrorekin deskriba daiteke: ereduaren tamaina, prestakuntza-datuen multzoaren tamaina, prestakuntza-kostua eta entrenamenduaren ondorengo errendimendua. Lau aldagai horietako bakoitza zehatz-mehatz defini daiteke zenbaki erreal batean, eta enpirikoki lege estatistiko sinpleen bidez erlazionatuta aurkitzen da, "eskala-legeak" izenekoak.

Garai baterako modu autorregresiboan trebatutako HEHentzako eskalatze-lege partikular batek ("Chinchilla eskala"), ikaskuntza-tasa logaritmikoko programazio batekin, hau dio:


{C=C0NDL=ANα+BDβ+L0

aldagaiak hauek dira:

C eredua entrenatzearen kostua da, FLOPetan.
N ereduko parametro kopurua da.
D entrenamendu multzoko token kopurua da.
L token bakoitzeko (nats / token) batez besteko log probabilitate-galera negatiboa da, probako datu multzoan trebatutako HEHak lortutakoa.

eta parametro estatistikoak hauek dira:

C0=6, hau da, parametro bakoitzeko 6 FLOP kostatzen da token batean entrenatzea. Kontuan izan prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP kostatzen diren token bat ondorioztatzeko.
α=0.34,β=0.28,A=406.4,B=410.7,L0=1.69

Gaitasun emergenteak

Normalean eredu txikien antzekoen errendimenduan oinarritutako hainbat zereginetan eredu handien errendimendua estrapola dezakeen arren, batzuetan eredu handiek "fase-aldaketako etena" izaten dute, non ereduak bat-batean ezagutzen ez diren gaitasun handiak eskuratzen dituen. Hauek "gaitasun emergenteak" izenez ezagutzen dira eta azterketa sakonen gai izan dira. Ikertzaileek adierazi dute gaitasun horiek "ezin direla aurreikusi eredu txikiagoen errendimendua estrapolatuz bakarrik". Gaitasun horiek programatuta edo diseinatuta aurkitu beharrean, kasu batzuetan HEHa publikoki zabaldu ondoren aurkitzen dira. Ehunka trebetasun aurkitu dira. Adibideak honako hauek dira: urrats anitzeko aritmetika, unibertsitate-mailako azterketak gainditzea, hitz baten esanahia identifikatzea, pentsamendu-katea, Nazioarteko Alfabeto Fonetikoa deskodetzea eta abar. [8]

Aluzinazioak

HEH-sortzaileek beren aurre-entrenamendu datuek justifikatzen ez duten egiazko aldarrikapenak ziurtasunez baieztatzen dituztela ikusi da, "aluzinazioa" deitu izan den fenomenoa da hori.[9]

Arkitektura

Hizkuntza-eredu handiek transformer izeneko arkitektura erabili dute gehienbat, 2018az geroztik, datu sekuentzialetarako ikaskuntza sakoneko teknika estandarra bihurtu da (lehen, LSTM bezalako arkitektura errepikakorrak ziren ohikoenak).

Tokenizazioa

HEHak funtzio matematikoak dira, eta hauen sarrera eta irteera zenbakien zerrendak dira. Ondorioz, hitzak zenbaki bihurtu behar dira.

Orokorrean, HEH batek tokenizatzaile bat erabiltzen du. Tokenizatzailea testuen eta zenbaki osoen zerrenden arteko mapak egiten dituen funtzio bijektibo bat da. Tokenizatzailea normalean aurreentrenamentu-datu multzo osora egokitzen da eta gero izoztu egiten da HEHa entrenatu aurretik. Aukera arrunt bat byte bikoteen kodeketa da.

Tokenizatzaileen beste ezaugarri bat testu-konpresioa da, eta horrek konputazioa aurrezten du. "Non dago" bezalako hitz edo esaldi arruntak token batean kodetu daitezke, 7 karaktere izan beharrean. OpenAI GPT-ek tokenizer bat erabiltzen dute, eta token bat 4 karaktere ingururekin osatzen da, edo 0,75 hitz ingururekin, ingelesezko testu arruntean.[10] Ingelesezko testu ezohikoa ezin da hain erraz aurreikusi, beraz, gutxiago konprimitu ahalko da, beraz, token gehiago behar ditu kodetzeko.

Tokenizatzaile batek ezin ditu zenbaki oso arbitrarioak sortu. Normalean {0,1,2,...,V1} barneko zenbaki osoak soilik ateratzen dituzte, V hiztegiaren tamainari deritzo.

Tokenizatzaile batzuk testu arbitrarioak kudeatzeko gai dira (normalean Unicode-n zuzenean funtzionatuz), baina beste batzuk ez. Kodetzerik gabeko testua topatzen denean, tokenizagailu batek "testu ezezaguna" adierazten duen token berezi bat sortuko luke (askotan 0). Hau [UNK] bezala idatzi ohi da, BERT dokumentuan bezala.

Askotan erabiltzen den beste token berezi bat [PAD] da, "betegarria" egiteko. Hau erabiltzen da normalean HEHak aldi berean testu-loteetan erabiltzen direlako, eta testu horiek ez dira luzera berdinean kodetzen. HEHek, oro har, sarrera zerrenda ez-irregularra izatea eskatzen dutenez, kodetutako testu laburragoak bete behar dira luzeagoaren luzerarekin bat etorri arte.

Irteera

HEH baten irteera bere hiztegiaren gaineko probabilitate banaketa da. Hau normalean honela ezartzen da:

  • Testu bat jasotzean, HEH gehienak bektore bat sortzen du yV non V bere hiztegiaren tamaina den.
  • y bektorea softmax funtzio batetik pasatzen da softmax(y)) lortzeko.

Prozesuan, y bektoreari logit bektore ez normalizatua deitzen zaio, eta softmax(y) bektoreari probabilitate-bektorea. softmax(y) bektoreak V sarrera dituenez, guztiak ez-negatiboak, eta 1era batuta, {0,1,2,...,V1} probabilitate-banaketa gisa interpreta dezakegu, hau da, probabilitate banaketa bat da HEHaren hiztegian.

Entrenamendua

HEH gehienak aurre-entrenamendu generatiboa erabiliz entrenatzen dira, hau da, testu-token prestakuntza-datu multzo bat emanda, ereduak datu-multzoko tokenak aurreikusten ditu. Bi aurre-entrenamendu generatibo estilo orokor daude:[11]

  • Autorregresiboa: "Izokia jatea" bezalako testu-segmentu bat emanda, ereduak hurrengo tokenak aurreikusten ditu, "gustatzen zait" adibidez.
  • Maskaratua: "Txokolatezko [MASKARA] [MASKARA] gustatzen zait" bezalako testu-segmentu bat emanda, ereduak maskaratutako tokenak aurreikusten ditu, adibidez "izozkia jatea".

HEHak datuen banaketaren ulermena erakusten duten bestelako zereginetan entrenatu daitezke.

Normalean, HEHak galera-funtzio zehatz bat minimizatzeko entrenatzen dira: token bakoitzeko batez besteko log probabilitate negatiboa (entropia gurutzatua ere deitzen zaio) adibidez. Eredu autorregresibo batek, "Izozkia jatea gustatzen" emanda, probabilitate-banaketa bat aurreikusten badu Pr(|Izozkia jatea gustatzen) orduan token honen log probabilitate negatiboa logPr(zait |Izozkia jatea gustatzen) izango da.

Entrenamenduan zehar, erregularizazio-galera ere erabiltzen da entrenamendua egonkortzeko. Hala ere, erregularizazio-galera hau ez da proba eta ebaluazioan erabiltzen. Ebaluazio-irizpide gehiago ere badaude entropia gurutzatutik haratago.

HEHak milaka milioi hitzen dimentsioa duten corpus linguistikoetan eratzen dira.

GPT-1, OpenAI-ren aurreentrenatutako lehen transformer-eredua, 2018an BookCorpus-en entrenatu zen, hau 985 milioi hitzez osatzen da. Urte berean, BERT BookCorpus eta ingelesezko wikipediaren konbinazio batean entrenatu zen, 3.300 milioi hitz guztira.Harrezkero, HEHrako prestakuntza-corpusak handitu egin dira, eta billoi bat tokenetara iritsi dira.

Entrenamendu kostua

HEHak konputazionalki oso garestiak dira entrenatzereko garaian. 2020ko ikerketa batek 1.500 milioi parametroko eredua entrenatzearen kostua 1.6 milioi dolarrekoa dela kalkulatu zuen. Softwarearen eta hardwarearen aurrerapenek kostua nabarmen murriztu dute, 2023ko paper batean aurreikusi zen 72.300 orduko A100-GPU kostua duela 12.000 milioi parametro-eredu bat entrenatzeko. Kalkulatzen da GPT-3 bat behin bakarrik entrenatzea, 175.000 milioi parametrorekin, 4,6 milioi dolar behar direla.Horretarako RTX 8000 bakar batek 665 urte beharko lituzke bukatzeko.[12]

Transformerretan oinarritutako HEHetarako, parametro bakoitzeko 6 FLOP kostatzen da token batean entrenatzea. Kontuan izan behar da prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP artean kostatzen den token batean ondorioztatzeko.

Ingurumen kostuari dagokionez, HEH baten entrenamenduak kostu energetikoa oso altua du. Eredu bat entrenatzeak bidaiari batek New York-etik San Frantziskorako hegaldi batean bezainbesteko karbono-isuria egiten da.[13]​ GPT-3-ren kasuan, kalkulatzen da 1.200 MWh konsumitzen dela, 500 tona CO2 isuri baino gehiago sortuz. Kostu horiek areagotu egiten dira ereduek parametro gehiago dituezten heinean. Prestakuntza-ziklo bakoitzak ehunka edo milaka CPU eta GPUren dedikazio esklusiboa eskatzen du, hauek karga konputazional handia onartzen dute, datu kopuru handiak gordetzeaz eta mugitzeaz gain. Horrek guztiak energia-kontsumo handia eragiten du, eta bero kantitate handiak sortzen ditu.

Kostu horiek murrizteko, irtenbide posible bat eredu txikiagoak erabiltzea da. Hauek eredu handi baten antzera funtziona dezaket, eta 100 dolar inguruko kostua dute entrenatzean. Eredu txiki baten adibidea Alpaca eredua da, Stanfordeko Unibertsitateko ikertzaileek Meta AI-ren LLaMA izeneko ereduan garatua. Hau nahikoa arina da eta mahaigaineko ordenagailu batean exekuta daiteke.

Ondorengo zereginetarako aplikazioa (downstream tasks)

2018 eta 2020 artean, hizkuntza naturalaren prozesatzeko (NLP) HEH bat prestatzeko metodo estandarra ataza zehatz baterako eredua doitzea izan zen, zeregin espezifikoko prestakuntza osagarri batekin. Ondoren, aurkitu zen HEH indartsuagoek, GPT-3 adibidez, zereginak prestakuntza gehigarririk gabe ebatzi ditzaketela "prompting" tekniken bidez, zeinetan konpondu beharreko arazoa testu-mezu gisa aurkezten zaiola ereduari, agian testu-adibide batzuekin, antzeko arazoak eta haien konponbideak emanez.

Fine-tuning

Fine-tuning aldez aurretik trebatutako hizkuntza-eredu bat aldatzeko praktika da (modu gainbegiratuan) zeregin zehatz batean trebatuz (adibidez, sentimenduen analisian, entitate izendapenaren errekonozimendua edo gramatika etiketatzea).[14] Ikaskuntza transferitzeko modu bat da. Normalean, hizkuntza-ereduaren azken geruza nahi den zereginaren emaitzekin lotzen duten pisu multzo berri bat sartzeaz oinarritzen da. Hizkuntza-ereduaren jatorrizko pisuak "izoztu" daitezke, eta, beraz, irteerarekin lotzen dituen pisu-geruza berria bakarrik ikasten da entrenamenduan. Jatorrizko pisuen eguneratze txikiak eginez ere lortzen da.

Ebaluazioa

Perplexitatea

Hizkuntza-eredu baten errendimenduaren neurririk erabiliena testu-corpus jakin batean duen perplexitatea da. Perplexitatea eredu batek datu-multzo baten edukia zenbateraino iragar dezakeen neurtzen du; ereduak datu multzoa iragartzen duenaren probabilitatea zenbat eta handiago, orduan eta perplexitate txikiagoa izango du. Matematikoki, perplexitatea token bakoitzeko batez besteko log probabilitate negatiboaren esponentzial gisa definitzen da: log(Perplexity)=1Ni=1Nlog(Pr(tokeni|context for tokeni)) hemen N testu-corpuseko token kopurua da, eta "i tokenaren testuingurua" erabilitako HEH motaren araberakoa da. HEH autorregresiboa bada, "i tokenaren testuingurua" i tokenaren aurretik agertzen den testu-segmentua da. HEHa maskaratuta badago, "i tokenaren testuingurua" i tokenaren inguruko testu-segmentua da.[15]

Hizkuntza-ereduak beren prestakuntza-datuetara gehiegi moldatu daitezkeenez, ereduak normalean ikusten ez diren datuen proba-multzo batean perplexitatearen arabera ebaluatzen dira. Horrek erronka bereziak ditu hizkuntza eredu handiak ebaluatzeko.

Hizkuntza-eredu handien zerrenda

Prestakuntza-kostuen zutaberako, 1 petaFLOP-egun = 1 petaFLOP/sec × 1 egun = 8,64E19 FLOP. Gainera, modeloaren handienaren kostua bakarrik dago idatzita.

Izena Argiratze data

Txantiloi:Efn

Gara-tzailea Parametro kopurua (mila milioika) Txantiloi:Efn Corpusaren tamaina Entrena-mendu-kostua (peta

FLOP-egun)

Lizentzia

Txantiloi:Efn

Oharrak
GTP-1 2018ko ekaina OpenAI Txantiloi:Sort 1[16] Txantiloi:Bai[17] Lehen GPT modeloa, dekodetzaile hutsezko transformerra. 30 egunez 8 P600 GPUtan entrenatua.
BERT 2018ko urria Google Txantiloi:Sort[18] 3,3 mila milioi hitz[18] Txantiloi:Sort[19] Txantiloi:Bai[20] Hizkuntza-eredu goiztiar eta eragin handikoa.[21] Kodifikatzailea besterik ez, eta, beraz, ez dago eraikita elkarizketan erabilia edo sortzailea izateko . Entrenamenduak 4 egun iraun zuen 64 TPUv2 txipekin.
T5 2019ko urria Google 11[22] 34 mila milioi token[22] Txantiloi:Bai[23] Googleren proiektu askotarako oinarrizko eredua, esate baterako, Irudia.[24]
XLNet 2019ko ekaina Google Txantiloi:Sort[25] Txantiloi:Sort mila milioi hitz 330 Txantiloi:Bai[26] BERTen alternatiba bat; kodetzaile gisa soilik diseinatua. 512 TPU v3 txipetan entrenatua 5,5 egunetan.
GTP-2 2019ko otsaila OpenAI Txantiloi:Sort 40 GB (~Txantiloi:Sort mila milioi token)[27][28] 28[29] Txantiloi:Bai[30] 32 TPUv3-txipetan entrenatuta astebetez.[29]
GPT-3 2020ko maiatza OpenAI Txantiloi:Sort[31] Txantiloi:Sort token[28] 3640 Txantiloi:Ez GPT-3 aldaera findu bat, GPT-3.5 izenekoa, publikoaren eskura jarri zen ChatGPT izeneko web interfaze baten bidez 2022an.
GPT-Neo 2021eko martxoa EleutherAI Txantiloi:Sort[32] 825 GiB Txantiloi:Bai[33] EleutherAIk liberatu zituen doako GPT-3 alternatiben artean lehena. GPT-Neok proba batzuetan tamaina bereko GPT-3 eredu bat gainditu zuen, baina GPT-3 handiena baino nabarmen okerragoa izan zen.
GPT-J 2021eko ekaina EleutherAI Txantiloi:Sort[34] 825 GiB[34] 200 Txantiloi:Bai GPT-3 estiloko hizkuntza-eredua
Megatron-Turing NLG 2021eko urria[35] Microsoft eta Nvidia Txantiloi:Sort Txantiloi:Sort token 38.000[36] Txantiloi:Ez Hiru hilabetez entrenatua A100 motako 2.000 GPU baino gehiagotan NVIDIA Selene Superkonputagailuan, 3 milioi GPU ordu baino gehiagotan.[36]
Ernie 3.0 Titan 2021eko urria Baidu Txantiloi:Sort[37] 4 Tb Txantiloi:Ez Txinerarako HEHa. Ernie Bot izeneko bot-ak eredu hau du oinarri.
Claude[38] 2021eko urria Anthropic Txantiloi:Sort[39] Txantiloi:Sort token[39] Txantiloi:Arrakasta partzial Elkarrizketetan nahi den portaerarako ongi doitua .
GLaM (hizkuntza-eredu orokorra) 2021eko urria Google Txantiloi:Sort Txantiloi:Sort token 5.600 Txantiloi:Ez Eredu berezia (aditu-konbinazioa), garestiagoa da entrenatzeko, baina merkeagoa inferentzia exekutatzeko, GPT-3rekin alderatuta.
Gopher 2021eko urria DeepMind Txantiloi:Sort[40] Txantiloi:Sort token[41] 5.833[42] Txantiloi:Ez Ondoren, Chinchilla eredurako garatu zen.
LaMDA (Elkarrizketa hizkuntza ereduak) 2022ko urtarrila Google Txantiloi:Sort 1.56T hitz, Txantiloi:Sort token[41] 4.110 Txantiloi:Ez Elkarrizketetan erantzunak sortzeko espezializatua.
GPT-NeoX 2022ko otsaila EleutherAI Txantiloi:Sort 825 GiB[34] 740 Txantiloi:Bai Megatron arkitekturan oinarritua
Chinchilla 2022ko martxoa DeepMind Txantiloi:Sort Txantiloi:Sort token[41] 6.805[42] Txantiloi:Ez Parametro gutxiko eredua, datu gehiagotan entrenatua. Sparrow botean erabilia. Sarritan aipatua bere eskala neuronalaren legearengatik.
PaLM (Pathways Language Model, Pathways hizkuntza-eredua) 2022ko apirila Google Txantiloi:Sort Txantiloi:Sort token Txantiloi:Sort[42] Txantiloi:Ez Entrenatua ~60 egunetan, ~6000 TPU v4 txipetan.[42] 2024ko urrian, argitaratutako transformer trinko handiena zen
OPT (Open Pretained

Transformer)

2022ko Maiatza Meta Txantiloi:Sort[43] Txantiloi:Sort token[44] 310 Txantiloi:Arrakasta partzialTxantiloi:Efn GPT-3 arkitektura, Megatronetik hartutako egokitzapen batzuekin. Modu bakarrean, taldeak idatzitako prestakuntza koadernoa argitaratu zuten.[45]
YaLM 100B 2022ko ekaina Yandex Txantiloi:Sort[46] 1,7 Tuberkulosia[46] Txantiloi:Bai Eredu anglo-errusiarra, Microsoften Megatron-LMan oinarritua.
Minerva 2022ko ekaina Google Txantiloi:Sort Eduki matematikan iragazitako web orrien eta arXiv aurre-inprimaketa-zerbitzarira bidalitako dokumentuen 38,5B token Txantiloi:Ez "Gai matematiko eta zientifikoak urratsez urratseko arrazoiketa erabiliz" ebazteko.[47] PaLM ereduetatik abiatua, datu matematiko eta zientifikoekin findua.
BLOOM 2022ko uztaila Lankidetza handia, Hugging Face buru zela Txantiloi:Sort[48] Txantiloi:Sort token (1.6TB)[49] Txantiloi:Arrakasta partzial Funtsean, GPT-3, baina corpus eleanitz batekin entrenatua (% 30 ingelesez, programazio-lengoaiak alde batera utzita)
Galactica 2022ko azaroa Meta Txantiloi:Sort Txantiloi:Sort token[50] ezezaguna Txantiloi:Arrakasta partzial Entrenatua testu zientifikoetarako eta modalitateetarako.
AlexaTM (Irakasle-Ereduak) 2022ko azaroa Amazon Txantiloi:Sort[51] Txantiloi:Sort[52] Txantiloi:Ez[53] Sekuentziatik-sekuentziara arkitekturakoa baina bi noranzkoetan
Neuro-sama 2022ko abendua Independ. Ezezaguna Ezezaguna Txantiloi:Ez Twitchen zuzenean transmititzeko diseinatutako hizkuntza-eredua.
Llama (Large Language Model Meta AI, Meta AI Hizkuntza Eredu Handia) 2023ko otsaila Meta AI Txantiloi:Sort Txantiloi:Sort 6.300[54] Txantiloi:Arrakasta partzialTxantiloi:Efn Corpusak 20 hizkuntza ditu. "Gainentrenatua" (Chinchillako eskalatze-legearekin alderatuta) parametro gutxiagorekin errendimendu hobea lortzeko.
GPT-4 2023ko martxoa OpenAI Ezezaguna (Zurrumurruen arabera: 1.760)[55] Ezezaguna Ezezaguna Txantiloi:Ez ChatGPT Plus-eko erabiltzaileentzat eskuragarri eta hainbat produktutan erabilia.
Chameleon 2024ko ekaina Meta AI Txantiloi:Sort[56] Txantiloi:Sort
Cerebras-GPT 2023ko martxoa Cerebras Txantiloi:Sort[57] 270 Txantiloi:Bai Chinchillaren formularekin entrenatua.
Falcon 2023ko martxoa Technology Innovation Institute Txantiloi:Sort[58] Bilioi bat token, RefineWeb-etik hartuta (corpusetik iragazitako web testua) eta zenbait "corpus ondu".[59] 2.800[54] Txantiloi:Bai[60]
BloombergGPT 2023ko martxoa Bloomberg L.P. Txantiloi:Sort 363 mila milioi token zuen datu multzoa Bloomberg-eko datu-iturrietan oinarrituta, gehi 345 mila milioi token helburu orokorreko datu-multzotatik Txantiloi:Ez Jabedun iturritako finantza-datuetan trebatua, finantza-zereginetarako.
PanGu-Σ 2023ko martxoa Huawei Txantiloi:Sort 329 mila milioi token Txantiloi:Ez
OpenAssistant 2023ko martxoa LAION Txantiloi:Sort 1,5 bilioi token Txantiloi:Bai Crowdsourcing-eko datu irekietan trebatua
Jurascli-2[61] 2023ko martxoa AI21 Labs Ezezaguna Ezezaguna Txantiloi:Ez Eleaniztuna[62]
PALM 2 (Pathways Language Model 2) 2023ko maiatza Google Txantiloi:Sort[63] Txantiloi:Sort token[63] Txantiloi:Sort[54] Txantiloi:Ez Bard chatboten erabili zuten (Gemini).[64]
Llama 2 2023ko uztaila Meta AI Txantiloi:Sort[65] Txantiloi:Sort token[65] Txantiloi:Sort Txantiloi:Arrakasta partzial 1,7 milioi A100-ordu.[66]
Claude 2 2023ko uztaila Anthropic Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Claude txatborean erabiltzen da.[67]
Granitoa 13b 2023ko uztaila IBM Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez IBM Watsonx-en erabilia.[68]
Mistral 7B 2023ko iraila Mistral AI Txantiloi:Sort[69] Ezezaguna Txantiloi:Bai
Claude 2.1 2023ko azaroa Anthropic Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Claude txabotean erabiltzen da. 200.000 tokeneko edo ~500 orrialdeko testuinguru-leihoa du.[70]
Grok-1[71] 2023ko azaroa x.AI 314 Ezezaguna Ezezaguna Txantiloi:Bai Grok txatbotean erabiltzen da. Grok-1ek 8.192 tokeneko testuinguru-luzera du eta X-rako (Twitter) atzipena du.[72]
Gemini 1.0 2023ko abendua Google DeepMind Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Eredu multimodala, hiru tamainatan dator. Izen bereko chatbotean erabilia.[73]
Mixtrala 8x7B 2023ko abendua Mistral AI 46,7 Ezezaguna Ezezaguna Txantiloi:Bai GPT-3.5 eta Llama 2 70B gainditzen ditu proba askotan.[74] Aditu-konbinazioa eredua, 12.900 milioi parametro token bidez aktibatuak.[75]
Phi-2 2023ko abendua Microsoft 2,7 1.4T token 419[76] Txantiloi:Bai "Kalitatezko testuliburuetako" datu erreal eta sintetikoetan trebatua, 14 egunez A100 motako 96 GPU etan.[76]
Latxa 2024ko urtarrila HiTZ zentroa 70[77] Llama 2-ren 2 mila milioi token

+ euskarazko 288 milioi hitz[78]

Txantiloi:Bai Euskararako eredua da. Baliabide urri dituen hizkuntza izanik LLaMA ereduetan oinarritzen da eta euskarazko EusCrawl corpusa (288 milioi hitz) gehitu da.[79][77]
Mixtral 8x22B 2024ko apirila Mistral AI 141 Ezezaguna Ezezaguna Txantiloi:Bai [80]
Gemini 1.5 2024ko otsaila Google DeepMind Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Eredu multimodala, Aditu-konbinazioko (Mixture of experts, MoE) arkitekturan oinarritua. Milioi bat tokenetik gorako testuinguruaren leihoa .[81]
Gemini Ultra 2024ko otsaila Google DeepMind Ezezaguna Ezezaguna Ezezaguna
Gemma 2024ko otsaila Google DeepMind 7 6T token Ezezaguna Txantiloi:Arrakasta partzial[82]
Claude 3 2024ko martxoa Anthropic Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Hiru modelo ditu: Haiku, Sonnet eta Opus.[83]
Nova 2024ko urria Rubik's AI Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Hiru modelok osatzen dute: Nova-Instant, Nova-Air, eta Nova-Pro.
DBRX 2024ko martxoa Databricks eta Mosaic ML Txantiloi:Sort 12T token Txantiloi:Bai Entrenamenduak 10 milioi dolarreko kostua izan zuen.
Fugaku-HEH 2024ko maiatza Fujitsu, Tokioko Teknologia Institutua, etab. Txantiloi:Sort 380 B token CPUtan bakarrik entrenatutako inoizko eredurik handiena, Fugakun.[84]
Phi-3 2024ko apirila Microsoft 14[85] 4.8T token Txantiloi:Bai Microsoftek "hizkuntza-eredu txiki" gisa komertzializatzen ditu.[86]
Granite Code Models 2024ko maiatza IBM Ezezaguna Ezezaguna Ezezaguna Txantiloi:Bai
Qwen2 2024ko ekaina Alibaba Cloud 72[87] 3T token Hainbat tamaina, txikiena 0.5 B-koa izanik.
Nemotron-4 2024ko ekaina Nvidia Txantiloi:Sort 9T token Txantiloi:Sort Txantiloi:Bai Epoch baterako entrenatua. H100 motako 6.144 GPUtan entrenatua 2023ko abendutik 2024ko maiatzera.[88][89]
Llama 3.1 2024ko uztaila Meta AI 405 15.6 T token Txantiloi:Sort Txantiloi:Arrakasta partzial 405B bertsioak 31 milioi ordu behar izan zituen H100-80GB makina batean, 3,8E25 FLOPetan.[90]
Llama-eus-8B 2024ko iraila Orai NLP Teknologiak 15.6 T + 0.5 T tokenLlama3.1-8B-ko corpusa + ZelaiHandi corpusa[91] Txantiloi:Arrakasta partzial [92][93]
DeepSeek V3 2024ko abendua DeepSeek 671 14.8T token Txantiloi:Sort0 Txantiloi:Bai 2.788M ordu H800 GPUs makina batean.[94]
Amazon Nova 2024ko abendua Amazon Ezezaguna Ezezaguna Ezezaguna Txantiloi:Ez Hiru eredu ditu: Nova Micro, Nova Lite, eta Nova Pro[95]
DeepSeek R1 2025eko urtarrila DeepSeek 671 Ezezaguna Ezezaguna Txantiloi:Bai Aurre-entrenamendurik gabe. V3-Base oinarriaren gainean.[96]
Qwen2.5 2025eko urtarrila Alibaba 72 18T token Ezezaguna Txantiloi:Arrakasta partzial [97]
MiniMax-Text-01 2025eko urtarrila Minimax 456 4.7T token Ezezaguna Txantiloi:Arrakasta partzial [98]

Erreferentziak

Txantiloi:Erreferentzia zerrenda


Ikus, gainera

Kanpo estekak

Txantiloi:Autoritate kontrola Txantiloi:Adimen artifizial sortzailea

  1. Txantiloi:Erreferentzia
  2. Txantiloi:Erreferentzia
  3. Txantiloi:Erreferentzia
  4. Txantiloi:Erreferentzia
  5. Txantiloi:Erreferentzia
  6. Txantiloi:Erreferentzia
  7. 7,0 7,1 Txantiloi:Erreferentzia
  8. Txantiloi:Erreferentzia
  9. Txantiloi:Erreferentzia
  10. Txantiloi:Erreferentzia
  11. Txantiloi:Erreferentzia
  12. Txantiloi:Erreferentzia
  13. Txantiloi:Erreferentzia
  14. Txantiloi:Cite book
  15. Txantiloi:Erreferentzia
  16. Txantiloi:Cite web
  17. Txantiloi:Cite web
  18. 18,0 18,1 Txantiloi:Cite arXiv
  19. Txantiloi:Cite web
  20. Txantiloi:Cite web
  21. Txantiloi:Cite aldizkari
  22. 22,0 22,1 Txantiloi:Cite aldizkari
  23. Txantiloi:Citation
  24. Txantiloi:Cite web
  25. Txantiloi:Cite web
  26. Txantiloi:Cite web
  27. Txantiloi:Cite web
  28. 28,0 28,1 Txantiloi:Cite web
  29. 29,0 29,1 Txantiloi:Cite web
  30. Txantiloi:Cite web
  31. Txantiloi:Cite web
  32. Txantiloi:Cite web
  33. Txantiloi:Erreferentzia
  34. 34,0 34,1 34,2 Txantiloi:Erreferentzia
  35. Txantiloi:Cite web
  36. 36,0 36,1 Txantiloi:Erreferentzia
  37. Txantiloi:Cite arXiv
  38. Txantiloi:Cite web
  39. 39,0 39,1 Txantiloi:Cite arXiv
  40. Txantiloi:Cite web
  41. 41,0 41,1 41,2 Txantiloi:Cite arXiv
  42. 42,0 42,1 42,2 42,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Txantiloi:Webarchive
  43. Txantiloi:Cite web
  44. Txantiloi:Cite arXiv
  45. Txantiloi:Cite web
  46. 46,0 46,1 Txantiloi:Citation
  47. Txantiloi:Cite web
  48. Txantiloi:Cite journal
  49. Txantiloi:Cite web
  50. Txantiloi:Cite arXiv
  51. Txantiloi:Cite web
  52. Txantiloi:Cite arXiv
  53. Txantiloi:Cite web
  54. 54,0 54,1 54,2 Txantiloi:Cite web
  55. Txantiloi:Cite web
  56. Txantiloi:Cite news
  57. Txantiloi:Cite web
  58. Txantiloi:Cite web
  59. Txantiloi:Cite web
  60. UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Txantiloi:Webarchive, 31 May 2023
  61. Txantiloi:Cite web
  62. Txantiloi:Cite web
  63. 63,0 63,1 Txantiloi:Cite web
  64. Txantiloi:Cite web
  65. 65,0 65,1 Txantiloi:Cite web
  66. Txantiloi:Cite web
  67. Txantiloi:Cite web
  68. Txantiloi:Cite web
  69. Txantiloi:Cite web
  70. Txantiloi:Cite web
  71. Txantiloi:Erreferentzia
  72. Txantiloi:Cite web
  73. Txantiloi:Cite web
  74. Txantiloi:Cite web
  75. Txantiloi:Cite web
  76. 76,0 76,1 Txantiloi:Cite web
  77. 77,0 77,1 Txantiloi:Erreferentzia
  78. Txantiloi:Erreferentzia
  79. Txantiloi:Erreferentzia
  80. Txantiloi:Cite web
  81. Txantiloi:Cite web
  82. Txantiloi:Cite web
  83. Txantiloi:Cite web
  84. Txantiloi:Cite web
  85. Txantiloi:Cite web
  86. Txantiloi:Cite web
  87. Txantiloi:Cite web
  88. Txantiloi:Cite web
  89. Txantiloi:Cite web
  90. Txantiloi:Cite web
  91. Txantiloi:Erreferentzia
  92. Txantiloi:Erreferentzia
  93. Txantiloi:Erreferentzia
  94. Txantiloi:Citation
  95. Txantiloi:Citation
  96. Txantiloi:Erreferentzia
  97. Qwen; Yang, An; Yang, Baosong; Zhang, Beichen; Hui, Binyuan; Zheng, Bo; Yu, Bowen; Li, Chengyuan; Liu, Dayiheng (2025-01-03), Qwen2.5 Technical Report, arXiv, doi:10.48550/arXiv.2412.15115, arXiv:2412.15115
  98. MiniMax; Li, Aonian; Gong, Bangwei; Yang, Bo; Shan, Boji; Liu, Chang; Zhu, Cheng; Zhang, Chunhao; Guo, Congchao (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention, arXiv, doi:10.48550/arXiv.2501.08313, arXiv:2501.08313