Aldagai anitzeko banaketa normal

testwikitik
imported>Lainobeltz (Kategoria:Batezbestekoak eta zentro-neurriak gehitua HotCat bitartez)(r)en berrikusketa, ordua: 12:33, 10 azaroa 2022
(ezb) ←Berrikuspen zaharragoa | Oraingo berrikuspena ikusi (ezb) | Berrikuspen berriagoa→ (ezb)
Nabigaziora joan Bilaketara joan

Probabilitatean eta estatistikan, aldagai anitzeko banaketa normalaaldagai anitzeko banaketa gaussarra ere deitua— dimentsio bakarreko banaketa normalaren dimentsio handiagoetara orokortzea da.

Definizioa

Notazioa

X=[X1,,Xn]T dimentsioko ausazko bektore bat baldin bada n aldagai anitzeko banaketa normal normalarekin, orduan idazten dugu:

X 𝒩(μ,Σ)

edo X n dimentsioaren bektorea dela esan nahi badugu, orduan, erabiliko dugu:

X𝒩n(μ,Σ)

Ausazko bektorea, X=[X1,,Xn]T, aldagai anitzeko banaketa normalari jarraitzen dio baldintza baliokide hauek betetzen baditu:

  • Edozein konbinazio lineal Y=a1X1++anXn normal banatuta dago.
  • Ausazko bektore bat dago, Z=[Z1,,Zm]T, eta bere osagaiak estandar normalaren arabera banatutako ausazko aldagai independenteak dira, bektore bat, μ=[μ1,,μn]T, eta matrize bat, n×mA, hala nola X=AZ+μ .
  • Bektore bat dago, μ, eta matrize erdidefinitu positibo simetriko bat, Σ; beraz, funtzio ezaugarria X da
ϕX(u;μ,Σ)=exp(iμu12uΣu).

Σ matrize ez-singular bat bada, orduan, banaketa dentsitate-funtzio honen bidez deskriba daiteke:

fX(x1,,xn)=1(2π)n/2|Σ|1/2exp(12(𝐱μ)Σ1(𝐱μ))

non |Σ|-k Σ matrizearen determinantea adierazten duen. Kontuan har nola goiko ekuazioa banaketa normalera murrizten den baldin eta Σ eskalar bat bada (hau da, 1x1 matrizea).

Bektorea, μ egoera hauetan, X-ren itxaropena da, eta Σ=AAT matrizea Xj osagaien kobariantza matrizea da.

Kobariantza matrizea singularra izan daitekeela ulertzea garrantzitsua da (nahiz eta goiko formulak horrela deskribatzen ez duen, zeinarentzat Σ1 definituta dagoen).

Egoera hori maiz agertzen da estatistiketan; adibidez, erregresio linealeko problema arruntetan hondar bektorearen banaketan. Kontuan har, oro har, Xi-ak ez direla, orokorrean, independenteak, Z aldagai arrunten bilduma batera A transformazio lineala aplikatzearen emaitza gisa ikus baitaiteke.

Banaketa funtzioa

Banaketa funtzioa F(x) definitzen da ausazko Xbektore baten balio guztiak x-ri dagozkion bektorearenak baino txikiagoak edo berdinak izateko probabilitatea bezala. Hala ere, F-k formularik ez badu ere, zenbakizko zenbatespena ahalbidetzen duten algoritmo batzuk daude[1].

Kontrako adibide bat

Izan ere, bi ausazko aldagaik, X eta Y, bakoitzak banaketa normal bat jarraitu arren, ez du esan nahi bikoteak (X , Y) banaketa normal bateratua jarraitzen duenik. Adibide sinple bat ematen da X Normala (0,1), Y=X |X|bada>1 eta Y=X |X|bada<1 . Hori ausazko bi aldagai baino gehiagotan ere egia da[2].

Normalki banatua eta independentzia

X eta Y normal banatuta eta independenteak badira, haien banaketa bateratua ere normal banatuta dago; hau da, bikoteak (X , Y ) aldagai biko banaketa bat izan behar du. Nolanahi ere, normal banatutako ausazko aldagai pare bat ez du zertan independentea izan behar elkarrekin kontuan hartzerakoan.

Aldagai biko egoera

Bi dimentsioen egoera partikularrean, dentsitate-funtzioa (0, 0 batebestekoarekin) da:

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)(x2σx2+y2σy22ρxy(σxσy)))

non X eta Y arteko korrelazio-koefizientea ρ den. Egoera honetan:

Σ=[σx2ρσxσyρσxσyσy2].

Eraldaketa afina

Y=c+BX, izan ere, X 𝒩(μ,Σ),-ren eraldaketa afina bada. non c M×1 konstanteen bektorea den eta B den M×N matrizea, orduan, Y-k aldagai anitzeko banaketa normala du c+Bμitxaropenarekin eta BΣBTbariantzarekin, hau da, Y𝒩(c+Bμ,BΣBT). Bereziki, Xi-renedozein azpimultzok banaketa marjinal bat du, aldagai anitzeko normala ere badena.

Hori ikusteko, kontuan har honako adibide hau: (X1,X2,X4)Tazpimultzoa ateratzeko, erabili

B=[100000010000000100]

nahi diren elementuak zuzenean ateratzen dituena.

Z=bX banaketaren beste ondorio bat izango litzateke b bektorea X-ren luzera berekoa dela, eta puntuak biderketa bektoriala adierazten du, eta dimentsio bakarreko banaketa gaussarra izango litzateke Z𝒩(bμ,bTΣb)rekin. Emaitza hau erabiliz lortzen da:

B=[b1b2bn000000]

eta produktuaren lehen osagaia soilik kontuan hartuta (B-ren lehen lerroa b bektorea da). Kontuan har nola Σ-ren definizio positiboak gurutzatutako produktuaren bariantza positiboa izan behar dela esan nahi duen.

Interpretazio geometrikoa

Aldagai anitzeko banaketa normal baten ekidensitate-kurbak elipsoideak dira (hau da, hiperesferen transformazio linealak) batezbestekoan zentratuta[3]. Elipsoideen ardatz nagusien norabideak Σ kobariantza matrizearen bektore propioek ematen dituzte. Ardatz nagusien karratuen luzera erlatiboak dagozkien bektore propioek ematen dituzte.

Σ=UΛUT=UΛ1/2(UΛ1/2)T deskonposizio espektral bat bada, non U-ren zutabeak unitate-bektore propioak diren eta Λ balio propioen matrize diagonal bat den, orduan, dugu:

X N(μ,Σ)X μ+UΛ1/2N(0,I)X μ+UN(0,Λ).

Era berean, U biraketa-matrize bat izan dadin hauta daiteke N(0,Λ)-n ardatz bat alderantziz egiteak eraginik izango ez duena baina, zutabe bat irauliz, U' -ren determinatzailearen zeinua aldatuko duena. N(μ,Σ) banaketa da, hain zuzen, N(0,I) Λ1/2-tik eskalatua, U-rekin biratua eta μ-tik itzulia.

Alderantziz, μ-ren edozein aukerak U maila osoko matrizea, eta Λi balio diagonal positiboak bide ematen dio banaketa normal ez singular bati. Edozein Λi zero bada eta U karratua bada, UΛUT-ren kobariantza matrizea singularra da. Geometrikoki, horrek esan nahi du kurba elipsoide bakoitza infinitu mehea dela eta bolumen nulua duela n dimentsioko espazioan, betiere, gutxienez ardatz nagusietako batek luzera nulua badu.

Korrelazioak eta independentzia

Oro har, ausazko aldagaiak korrelaziorik gabekoak izan daitezke, baina oso menpekoak izan daitezke. Baina, ausazko bektore batek aldagai anitzeko banaketa normala badu, korrelaziorik gabeko bere osagaietako bi edo gehiago independenteak dira.

Baina ez da egia (bereizita, marjinalki) normal banatuta eta korrelaziorik gabeko bi ausazko aldagai independenteak direnik. Normalki banatuta dauden bi ausazko aldagai baliteke elkarrekin ez egotea. Erlazionatu gabe baina independenteak ez diren banatzen diren bi aldagairen adibide bat ikusteko, ikus: Normalki banatuak eta korrelazionatuak ez dira independentzia suposatzen .

Momentu gorenak

X -ren k-garren ordenako momentu estandarra honela definitzen da

μ1,,N(X) =def μr1,,rN(X) =def E[j=1NXjrj]

non r1+r2++rN=k.

k ordenako momentu zentralak honela ematen dira:

(a) k bakoitia bada, μ1,,N(Xμ)=0.

(b) k bikoitia bada, k-rekin, orduan, k=2λ

μ1,,2λ(Xμ)=(σijσkσXZ)

non batura multzoen xedapen guztien gainean hartzen den {1,,2λ} λ bikotetan (ordenatu gabeak). Hau da, k-garren bat badugu (=2λ=6) une nagusia λ=3 kobariantzaren produktuak gehituko ditugu (-μ notazioa irakurgarritasunagatik alde batera utzi da):

E[X1X2X3X4X5X6]=E[X1X2]E[X3X4]E[X5X6]+E[X1X2]E[X3X5]E[X4X6]+E[X1X2]E[X3X6]E[X4X5]+E[X1X3]E[X2X4]E[X5X6]+E[X1X3]E[X2X5]E[X4X6]+E[X1X3]E[X2X6]E[X4X5]+E[X1X4]E[X2X3]E[X5X6]+E[X1X4]E[X2X5]E[X3X6]+E[X1X4]E[X2X6]E[X3X5]+E[X1X5]E[X2X3]E[X4X6]+E[X1X5]E[X2X4]E[X3X6]+E[X1X5]E[X2X6]E[X3X4]+E[X1X6]E[X2X3]E[X4X5]+E[X1X6]E[X2X4]E[X3X5]+E[X1X6]E[X2X5]E[X3X4].

Horrek sorrarazten du (2λ1)!/(2λ1(λ1)!) terminoak baturan (15 goiko kasuan), bakoitzaren produktua λ (3 kasu honetan) kobariantza izanik. Laugarren ordenako mementuetarako (lau aldagai), hiru termino daude. Seigarren ordenako momentuetarako, 3 × 5 = 15 termino daude, eta zortzigarren ordenako momentuetarako 3 × 5 × 7 = 105 termino dira.

Ondoren, kobariantzak [1,,2λ] zerrendako terminoak, izan ere, batzuk r1zerrendari dagozkion terminoekin ordezkatuz zehazten dira, orduan r2 biak, etab... Hau argitzeko, kontuan har hurrengo laugarren ordenako momentu zentralaren kasua:

E[Xi4]=3σii2
E[Xi3Xj]=3σiiσij
E[Xi2Xj2]=σiiσjj+2(σij)2
E[Xi2XjXk]=σiiσjk+2σijσik
E[XiXjXkXn]=σijσkn+σikσjn+σinσjk.

non σij Xi Y Xj-ren kobariantza den. Goiko metodoaren ideia da lehen kasu orokorra aurkitzen dugula da k-garrena mementorako, non k aldagai desberdinak X - E[XiXjXkXn] dauden, eta, gero, modu egokian sinplifikatu daitezke. E[Xi2XkXn] baduzu, gero, Xi=Xj izan dadila, eta hortik σii=σi2 dator.

Banaketa baldintzatuak

μ eta Σ honela banatzen badira:

μ=[μ1μ2] [q×1(Nq)×1]neurriekin
Σ=[Σ11Σ12Σ21Σ22] neurriekin [q×qq×(Nq)(Nq)×q(Nq)×(Nq)]

orduan, x1-ren banaketa x2=a baldintzatuta, aldagai anitzeko normala da (X1|X2=a)N(μ¯,Σ) non

μ¯=μ1+Σ12Σ221(aμ2)

eta kobariantza matrizea

Σ=Σ11Σ12Σ221Σ21.

Matrize hori Σ22-ren Schur-en osagarria da Σ-en. Horrek esan nahi du baldintzapeko kobariantza-matrizea kalkulatzeko kobariantza-matrize globala alderantzikatu egiten dela, baldintzatzen den aldagaiei dagozkien errenkadak eta zutabeak alde batera uzten direla eta, ondoren, berriro alderantzikatzen dela baldintzapeko kobariantza-matrizea lortzeko.

Kontuan har jakina dela x2=a bariantza aldatzen duela, nahiz eta bariantza berria ez den a balio zehatzaren araberakoa; agian, harrigarriagoa dena, batezbestekoa Σ12Σ221(aμ2)-tik aldatzen da; Konparatu hori ezagutzen ez den a balioaren egoerarekin; kasu horretan, x1-ek banaketa gisaizango luke:

Nq(μ1,Σ11)

Σ12Σ221 matrizea erregresio-koefizienteen matrize bezala ezagutzen da.

Baldintzazko itxaropena aldagai bikoa

Bada

(X1X2)𝒩((00),(1ρρ1))

gero

E(X1|X2>z)=ρϕ(z)Φ(z)

non azken ratio horri alderantzizko Mills ratioa deitu ohi zaio.

Fisher-en informazio matrizea

Fisher Information Matrix-ek (FIM) formulazio berezi bat hartzen du banaketa normal baterako. FMI-ren elementua (m,n) XN(μ(θ),Σ(θ))-rentzako da:

m,n=μθmΣ1μθn+12tr(Σ1ΣθmΣ1Σθn)

non

  • μθm=[μ1θmμ2θmμNθm]
  • μθm=(μθm)=[μ1θmμ2θmμNθm]
  • Σθm=[Σ1,1θmΣ1,2θmΣ1,NθmΣ2,1θmΣ2,2θmΣ2,NθmΣN,1θmΣN,2θmΣN,Nθm]
  • tr matrize baten aztarna funtzioa da.

Kullback-Leibler dibergentzia

Kullback-Leiblerren dibergentzia N0N(μ0,Σ0) a N1N(μ1,Σ1) da:

DKL(N0N1)=12(loge(detΣ1detΣ0)+tr(Σ11Σ0)+(μ1μ0)Σ11(μ1μ0)N).

Logaritmoa e oinarriarekin hartu behar da bi terminoetan (logaritmo neperiarrak); logaritmoari jarraituz, dentsitate-funtzioaren faktore biak diren adierazpenen logaritmo naturalak daude, edo, bestela, modu naturalean sortzen dira. Goiko dibergentzia nat-etan neurtzen da. Goiko adierazpena loge 2 artean zatituz biten dibergentziari bide ematen zaio.

Parametroen estimazioa

Aldagai anitzeko banaketa normal baten kobariantza matrizearen probabilitate maximoaren estimatzailearen deribazioa da, agian harrigarriro, sotila eta dotorea. Ikus kobariantza matrizeen estimazioa.

Laburbilduz, N dimentsioko aldagai anitzeko normal baten probabilitate-dentsitate-funtzioa da:

f(x)=(2π)N/2det(Σ)1/2exp(12(xμ)TΣ1(xμ))

eta kobariantza matrizearen MV estimatzailea n behaketetako lagin baterako da:

Σ^=1ni=1n(XiX)(XiX)T

laginaren kobariantza matrizea besterik ez dena. Hau Itxaropena duen estimatzaile alboratuarena da:

E[Σ^]=n1nΣ.

Laginaren kobariantza alboragabea da:

Σ^=1n1i=1n(XiX)(XiX)T.

Entropia

Aldagai anitzeko banaketa normalaren entropia diferentziala[4] da:

h(f)=f(x)lnf(x)dx=12(N+Nln(2π)+ln|Σ|)=12ln{(2πe)N|Σ|}

non |Σ| den Σ kobariantza matrizearen determinatzailea.

Aldagai anitzeko normaltasun-probak

Aldagai anitzeko normaltasun probek datu multzo jakin batek aldagai anitzeko banaketa normalarekin duen antzekotasuna egiaztatzen du. Hipotesi nulua da datu multzoa banaketa normalaren antzekoa dela, beraz, p-balio nahiko txiki batek datu ez-normalak adierazten ditu. Aldagai anitzeko normaltasun proben artean, Cox-Small proba[5] eta Smith eta Jain-en[6] Friedman-Rafsky probaren egokitzapena daude.

Banaketa-balioak simulatzea

Ausazko bektore bat simulatzeko oso erabilia den metodoa X aldagai anitzeko banaketa normaletik N -dimentsioa batez besteko bektorearekin μ eta kobariantza matrizea Σ (simetrikoa eta definitu positiboa izateko eskatua) honela funtzionatzen du:

  1. Σ-ren Choleskyren deskonposizioa kalkulatzen da; hau da, beheko matrize triangeluar bakarra A hala nola AAT=Σ aurkitzen dugu. Kontuan har beste edozein A matrize baldintza hori betetzen duena, hau da, Σ-ren erro karratua dela, erabil liteke, baina, askotan, halako matrize bat aurkitzea, Cholesky-ren deskonposizioaz gain, dezente zailagoa izango litzateke konputazionalki.
  2. Dela Z=(z1,,zN)T osagaiak dituen bektorea N aldagai normalak eta independenteak aldatzen direnak (sor daitezkeenak, adibidez, Box-Muller metodoa erabiliz.
  3. Dela X=μ+AZ.

Erreferentziak

Txantiloi:Erreferentzia zerrenda

Kanpo estekak

Txantiloi:Autoritate kontrola