Eredu sortzaile

testwikitik
Nabigaziora joan Bilaketara joan

Eredu sortzaile

Eredu sortzailea, entrenamenduko datu multzo batean oinarrituta antzeko datu berriak sortzeko erabiltzen den eredu estatistikoa da. Eredu hauen helburu nagusia sarrerako datuen probabilitate-banaketa ikastea da, datuen berezko egitura ikasteko. Horrela, lagin berriak sor daitezke, adibidez, argazkiak edo testua.[1][2]

Beraz, ereduaren funtzionamendua gainbegiratu gabeko ikaskuntzan oinarritzen da. X datu multzo bat emanda, multzo horretako instantzia bakoitzaren banaketa P(x) bezala defini daiteke. Horrek adierazten du ereduak x instantzia sortzeko probabilitatea edo, eredua emanda, x instantzia lortzeko probabilitatea.

Eredu hauen ohiko erabilera laguntza gisa erabiltzea da, beste zeregin nagusi baten atal txikiagoak lortzeko. Esate baterako, laguntzaile birtualak, itzulpen automatikoa, datuen simulazioa jokaera desbedinengan edo pasahitz egokien sorkuntza. Halaber, beste ereduen entrenamendua hobetzeko erabiltzen dira, adibidez, indargarri bidezko ikaskuntzan datu gehigarriak sortuz.

Eredu sortzaile mota batzuk hauek dira:

Eredu horiek emaitza errealistak sortzeko gaitasuna partekatzen dute datu-multzoaren azpiko probabilitateetan oinarritzen direlako. Horrek erabilgarri bihurtzen ditu hainbat aplikaziotan, baita edukia sailkatzeko eta eredu konplexuak identifikatzeko ere.

Gainbegiratu gabeko ikaskuntzan dagoen arazo nagusienetariko bat ereduen ebaluazioan datza, hau da, ereduaren kalitatea neurtzea. Gehienetan erabiltzen den estandarra log-likelihood-a izan da, baina eredu gehienen kasuetan konputazionalki ezinezkoa da. Horregatik, ezaugarrietara bideratutako hurbilketa bat gailentzen da. Hurbilketa hauen artean ereduen sorkuntzen irudikatzea indibidualki ebaluatzeko edo ereduen parametroen interpretazioak nabarmentzen dira.[3]

Entrenamendua

Eredu sortzaileen entrenamendua hurrengo eran adierazitako datu multzoen bidez egiten da:

X=x1,x2,,xn

Helburua, P(xθ) dentsitate funtzioa lortzea da, non θ ereduaren parametro multzoa errepresentatzeko balio duen entrenamenduan, jasotako datuen egiantza maximizatzea da helburua. Egiantza hurrengo eran definitzen da:

L(θX)=P(Xθ)=i=1nP(xiθ).

Kalkuluak sinplifikatzeko log-egiantza (log-likelihood) erabiltzen da, eta logaritmoen propietateei esker hurrengo eran adieraz daiteke:

logL(θX)=i=1nlogP(xiθ).

Entrenamenduaren helburua θ^ parametro multzo optimoa aurkitzea da, non log-egiantza maximoa den. Beraz:

θ^=argmaxθlogL(θX).

Optimizazio prozesu hau teknika desberdinen bitartez egin daiteke, eta eredu bakoitzaren araberakoa izango da; esate baterako, gradiente bidez edo galtze funtzio baten laguntzaz.

Eredu diskriminatiboekiko alderapena

Eredu diskriminatiboa eta eredu sortzailea.

Eredu sortzaileak, batez ere, datuak sailkatzeaz gain, datuak nola sortzen diren modelatzeko gai dira. Honek barneratzen du, besteak beste, jatorrizko datuen antzeko lagin berriak sortzea, anomalien detekzioa edo gainbegiratu gabeko ikaskuntzaren kasuan ezkutuko patroiak aurkitzea. Hala ere, eredu horiek mugak dituzte; izan ere, baterako banaketa osoa modelatzea suposizio eta konplexutasun konputazional asko eska dezake, eta horrek zehaztasun gutxiago ekar dezake sailkapen espezifikoko zereginetan. Bestalde, eredu diskriminatzaileek ez dituzte jasaten arazo horiek; izan ere, sarreraren eta irteeraren arteko baldintzapeko harremanean arreta jartzen dute, errendimendua optimizatuz, datuen egitura osoa modelatu gabe zehaztasunez sailkatzeko.

Eredu sortzaileek x sarreren eta y klaseen baterako banaketa p(x,y) modelatzeko balio dute, hau da, klase bakoitzerako datuak sortzeko erabiltzen dira. Bayesen teorema erabiltzen dute p(y|x) baldintzapeko probabilitatea kalkulatzeko, p(x|y)eta p(y)oinarri hartuta. Eredu horiek malguagoak dira datu berriak sor ditzaketelako, baina datu gehiago behar izaten dituzte sailkapen-lanetarako. Adibide gisa Naive Bayes eta sormen-sare aurkariak (GANak) daude.

Bestalde, eredu diskriminatzaileak baldintzapeko banaketa ikastera bideratzen dira zuzenean p(y|x), hau da, x ezaugarriak kontuan hartuta klaseak nola bereizi. Ikuspegi hori sailkapen-zereginetarako erabilia izan da, klaseen arteko erabaki-mugarik (decision boundary) onena bilatzeko duen erreztasunagatik, baina ezin dute datu berririk sortu. Eredu diskriminatzaileen adibide dira erregresio logistikoa, euskarri bektorialeko makinak (SVM) eta sare neuronalak.

Aplikazioak

Argazki sorkuntza

Eredu sortzaileak erabil daitezke arte edo argazkien sorkuntzan, batez ere, sare sortzaile aurkariak eta bariazio autokodetzaileak (variational autoencoder). Lehenengoaren funtzionamendua bi sareen konbinazioan datza, sare sortzaile bat erabiltzen da argazkiak sortzeko ausazko zaratarekin eta sare diskriminatzailea erabiltzen da konprobatzeko sortutako irudien egiantza. Bigarrena, sare neuronal bakarrean oinarrituta dago, baina bi zatiz osatuta: encoder eta decoder. Encoder-a entrenatzen da argazkien dimentsioa ahalik eta gehien murriztuz informazio galera minimizatuz, ondoren, decoder-a errepresentazio horietan oinarritzen da dimentsioa handituz eta argazki berriak sortzen.

Dena den, eredu hauek bereziki erabiliak dira estilo errealista batekin, adibidez, gizaki aurpegiak sortzeko edo argazkien bereizmena hobetzeko.

Bideo sorkuntza

Bideo sorkuntzaren eginkizunak irudien sorkuntza ez ezik, denbora dinamika txertatzearen arazoa ere dakar. Beraz, ikusizko eduki estatikoa sortzeaz gain, ereduak ulertu behar du nola aldatzen diren irudiak denboran zehar. Irudien sorrerarekin bezala sarrerako datuak hainbat motatakoak izan daitezke: testu deskribapenak, hasierako irudi sorta batzuk edo beste bideo sekuentzia bat. Eredu hauek entrenatzeko irudi sekuentziak eta bideoak erabili ohi dira. Eredu hauen zuzenezko aplikazioak efektu bereziak edo Deepfake-ak izan daitezke.[4]

Testu sorkuntza

Hizkuntza eredu handiak entrenatzeko erabiltzen den konputazio-lanaren gorakada azkarra. HEH itxi onenen entrenamendu-kostuak eredu irekiko onenen entrenamendu-kostuak baino askoz ere handiagoak dirudite. GPT-4 eta antzeko ereduen entrenamendu-kostua ez da publikoki ezagutzen; beraz, estimazio bat baino ez da. Datuak Epoch-enak dira 2023an, eta grafikoa Stanfordeko Unibertsitateko AI index-ekoa da 2024an.[5]

Eredu sortzaileek ikasketa automatikoan oinarritutako teknikak erabiltzen dituzte testua modu koherente eta arinean sortzeko. Eredu hauek sortzeko, liburu, artikulu, web orrialde edo edozein idatzizko eduki erabiltzen dira entrenamendurako, horrela, ereduak patroiak, egitura linguistikoak eta hitzen, esaldien edo paragrafoen arteko erlazioak ikasiz.

Hizkuntza-eredu bat testu-sorgailuen muina da. Eredu mota hauek aurretik hitz multzo bat emanda, hurrengo hitza edo hitz sekuentzia iragartzeko entrenatzen dira. Horrek esan nahi du ereduak testua sortzen duenean, aurreko testuinguruaren arabera jarraitu beharko lukeen hitz probableena iragartzen duela.

2024ko Informatikari Euskaldunen Bilkuraren barruan sei hizkuntza-eredu handi jarri zuten lehian euskarazko elkarrizketetan. Helburua EHUko Hitz zentroan garatzen den Latxa eredua «sistema komertzial hoberenen kontra» lehian jartzea izan zen, eta horra ondorioetako bat: GPT-4o eredu ezagunaren parean geratu zen ia. Dema horretan ikusi zen euskaraz «hobekien» zekien sistema Claude Sonnet 3.5 sistema komertziala zela, bigarren GPT-4o sistema geratu zen, eta haren «ia parean» geratu zen Latxa. Beherago geratu zen Gemini Flash 1.5, eta «askoz beherago» Command R+ eta LLama 3.1. Azken hori Latxa eredu berriaren «oinarria» da.[6][7]

Musika eta soinu sorkuntza

Kasu honetan entrenamendurako erabilitako musika eta soinuetan erreperatuz, patroi musikal edo akustikoak ikasi eta lortutako ereduak gai dira musika, soinu-efektuak, ingurumen-soinuak eta giza ahotsak edo ahots sintetizatuak sortzeko. Entrenamenduan teknika desberdinak erabiltzen dira, ohikoenak hurrengoak izanik: sare sortzaile aurkarien aldaera espezifikoak Transformer-ak edo sare neuronal errekurrenteak.[8]

Erronkak eta mugak

Ez dago oraindik zehaztuta lortutako emaitzen kalitate ebaluazioa egiteko teknika orokorrik, zaila baita errealismoa modu objektiboan neurtzea. Era berean, ereduak entrenamendu datuetan agertzen diren alborapenak ikasteko eta erreplikatzeko gai dira. Horrek ereduen erabilerari buruzko kezka etikoak sorrarazten ditu.[3]

Entrenamenduan bereziki ematen diren arazo nabarmena gehiegizko egokitzapena da (overfitting). Arazo hau normalean entrenamenduko datu multzoa handia ez denean gertatzen da eta eragin negatiboa du ereduen orokortzean, hau da, entrenamenduan ikusi gabeko datu berriekin lan egin behar denean.

Ohiko eredu sortzaileen eremuan badira aukera gehiago zeregin berezi batzuetan ohiko ereduak baino emaitza hobeak lortzen dituztenak. Irudien sorketan hedapen-ereduek sare sortzaile aurkariek sortzen dituzten ereduen emaitza hobeak lortzen dituzte bereizmen handiko argazkien sorreran. Era berean, eredu multimodalek aukera berriak zabaldu dituzte adimen artifizialak lagundutako sormen prozesuan, izan ere, eduki bisualaren sorrera ahalarazi dute testua izanda sarrerako datu bakarra.

Erreferentziak

Txantiloi:Erreferentzia zerrenda

Kanpo estekak

Txantiloi:Autoritate kontrola

  1. Txantiloi:Erreferentzia
  2. LAMB, Alex. A brief introduction to generative models. arXiv preprint arXiv:2103.00265, 2021.
  3. 3,0 3,1 Txantiloi:Erreferentzia
  4. Txantiloi:Erreferentzia
  5. Txantiloi:Erreferentzia
  6. Txantiloi:Erreferentzia
  7. Txantiloi:Erreferentzia
  8. KULKARNI, Rajat, et al. Survey on deep learning in music using GAN. Int. J. Eng. Res. Technol, 2019, vol. 8, no 9, p. 646-648.