Innehåll
I statistik används den Gaussiska eller normala distributionen för att karakterisera komplexa system med många faktorer. Som beskrivs i Stephen Stiglers The History of Statistics, uppfann Abraham De Moivre distributionen som bär Karl Fredrick Gauss namn. Gauss bidrag låg i hans tillämpning av distribueringen till minsta rutor för att minimera felet i att anpassa data med en rad med bästa passform. Han gjorde det således till den viktigaste felfördelningen i statistiken.
Motivering
Vad är fördelningen av ett urval av data? Vad händer om du inte känner till datorns underliggande distribution? Finns det något sätt att testa hypoteser om data utan att veta den underliggande distributionen? Tack vare den centrala gränssatsen är svaret ja.
Uttalande av teorem
Den säger att ett urval av en oändlig population är ungefär normalt eller Gaussian, med medelvärdet samma som den underliggande populationen, och varians lika med populationens varians dividerat med provstorleken. Tillnärmningen förbättras eftersom provstorleken blir stor.
Tillnärmningsuttalandet är ibland felaktigt som en slutsats om konvergens till en normalfördelning. Eftersom den ungefärliga normalfördelningen ändras när provstorleken ökar är ett sådant uttalande vilseledande.
Satsen utvecklades av Pierre Simon Laplace.
Varför det är överallt
Normala fördelningar är allmänt. Anledningen kommer från Central Limit Theorem. Ofta är det, när ett värde mäts, summan av många oberoende variabler. Därför har själva värdet som mäts en provmedelskvalitet. Till exempel kan en distribution av idrottsutövarnas prestationer ha en klockform, som ett resultat av skillnader i kost, träning, genetik, coachning och psykologi. Även mäns höjder har en normalfördelning och är en funktion av många biologiska faktorer.
Gaussiska Copulas
Det som kallas en "copula-funktion" med en Gauss-distribution var i nyheterna 2009 på grund av dess användning för att bedöma risken för att investera i säkerheter. Missbruk av funktionen bidrog till finanskrisen 2008-2009. Trots att det fanns många orsaker till krisen, borde efterhand Gaussiska fördelningar troligen inte ha använts. En funktion med en tjockare svans skulle ha tilldelat biverkningarna större sannolikhet.
Härledning
Den centrala begränsningssatsen kan bevisas i många rader genom att analysera momentfunktionsfunktionen (mgf) av (urval av medelvärde) /? (Populationens varians / provstorlek) som en funktion av mgf för den underliggande populationen. Den ungefärliga delen av teorem introduceras genom att utvidga den underliggande befolkningens mgf som en kraftserie och sedan visa att de flesta termer är obetydliga eftersom provstorleken blir stor.
Det kan bevisas på mycket färre linjer genom att använda en Taylor-expansion på den karakteristiska ekvationen för samma funktion och göra provstorleken stor.
Beräknad bekvämlighet
Vissa statistiska modeller antar att felen är gaussiska. Detta gör att fördelningar av funktioner för normala variabler, som chi-square- och F-distribution, kan användas i hypotesundersökning. Specifikt, i F-testet, består F-statistiken av ett förhållande chi-kvadratfördelningar, som själva är funktioner för en normalvariansparameter. Förhållandet mellan de två orsakar att avvikelsen avbryter, vilket möjliggör hypotestning utan kunskap om varianserna bortsett från deras normalitet och konstanthet.