Sturges erregela

testwikitik
Nabigaziora joan Bilaketara joan

Estatistikan, Sturges erregela, datu-multzo bati dagokion histograma bat eratzeko behar den tarte kopurua kalkulatzen duen erregela bat da, Herbert Sturgesek 1926 urtean proposatutakoa. Erregelak n datu kopuruaren arabera kalkulatzen du tarte kopurua:

k=1+log2n=1+ln nln 2=1+3.322log10n

Erregelak datu-multzoa banaketa normal bati jarraiki banatzen dela hartzen du hipotesi moduan. Oinarri estatistiko sendorik ez badu ere, maiz erabiltzen da praktikan.

Formularen dedukzioa

Sturgesen arabera histograma ideala i=0, 1, ..., (k-1) balioetan zentraturiko tarteak dituena da, (k1i) balioko maiztasunekin. Adibidez, k=5 tarteetarako, maiztasun idealak 1-5-10-5-1 lirateke. [1]Beraz, datu kopuru totala honela adieraz daiteke:

n=i=0k1(k1i)

Koefiziente binomialen propietateak erabiliz,[2]

n=i=0k1(k1i)=(1+1)k1=2k1

Eta hortik, k tarte kopurua honela kalkulatu behar da:

k=1+log2n

Formularen hipotesiak

(k1i) maiztasunak B(k-1,0.5) banaketa binomial bateko probabilitateak kalkulatzeko koefiziente binomialak dira. Banakuntza binomial honetan, probabilitateak honela kalkulatzen dira:

P[X=i]=(k1i)0.5i0.5k1i=(k1i)0.5k1.

(k1) handitzean, aurreko P[X=i] probabilitateak (eta beraz, enpirikoki dagozkion maiztasunak) (k1i) mendean soilik geratzen dira, 0.5k1 koefizientea ez baitago i-ren mendean.

Beste alde batetik, banaketa binomial hori, k handietarako N(k12,k14) banaketa normal baten bitartez hurbildu daiteke.

Beraz, Sturgesek histogramako tarteetako erdipuntuak banaketa binomial bati jarraiki banatzen direla irizten du. Tarte kopuru handietarako, banaketa normala litzateke datuen eredua.[3]

Erabilera

Sturges erregela eratzean onarttuako hipotesiak oso murritzak direnez, formulak oinarri estatistiko eskasa duela esan daiteke. Hala ere, maiz erabiltzen da praktikan, bereziki datu-kopuru txikietarako (n<200) formula zorrotzagoen antzeko emaitzak ematen dituelako, datu-kopurua soilik hartuta eta datuetan oinarrituta beste kalkulurik egin beharrik gabe. Datu kopuru handiagoetarako erregelak beste formulek baino tarte kopuru txikiagoa ematen du, bereziki alborapen handiko eta moda anitzeko datu-multzoetan, histograma leunduz horrela.

Formula aplikatzean, tarte kopurua zenbaki ez-osoak ematen ditu oro har. Gehienetan, gehiegiz biribildu eta hurrengo balioa hartzen da aplikatu beharreko tarte kopuru moduan.

Ondoren, datu-kopuru batzuetarako ematen dituen tarte kopuruak azaltzen dira:


n (datu kopurua) k (tarte kopurua)
20-32 6
33-64 7
64-128 8
128-200 9

Erreferentziak

Kanpo estekak

Txantiloi:Autoritate kontrola

Txantiloi:Erreferentzia zerrenda