Innehåll
En outlier är ett värde i en datamängd som är långt ifrån de andra värdena. Outliers kan orsakas av experiment- eller mätfel eller av en lång-svansad population. I de tidigare fallen kan det vara önskvärt att identifiera utskott och ta bort dem från data innan en statistisk analys utförs, eftersom de kan kasta bort resultaten så att de inte exakt representerar provpopulationen. Det enklaste sättet att identifiera outliers är med kvartilmetoden.
Sortera data i stigande ordning. Ta till exempel datauppsättningen {4, 5, 2, 3, 15, 3, 3, 5}. Sorterat är exemplet datauppsättning {2, 3, 3, 3, 4, 5, 5, 15}.
Hitta median. Detta är antalet vid vilket hälften av datapunkterna är större och hälften mindre. Om det finns ett jämnt antal datapunkter, är de mellersta två i genomsnitt. För exempeluppsättningen är mittpunkterna 3 och 4, så medianen är (3 + 4) / 2 = 3,5.
Hitta den övre kvartilen, Q2; detta är datapunkten där 25 procent av uppgifterna är större. Om datauppsättningen är jämn, i genomsnitt de 2 punkterna runt kvartilen. För exempeluppsättningen är detta (5 + 5) / 2 = 5.
Hitta den nedre kvartilen, Q1; detta är datapunkten där 25 procent av uppgifterna är mindre. Om datauppsättningen är jämn, i genomsnitt de 2 punkterna runt kvartilen. För exempeldata, (3 + 3) / 2 = 3.
Subtrahera den lägre kvartilen från den högre kvartilen för att få interkvartilområdet, IQ. För exemplet datauppsättning, Q2 - Q1 = 5 - 3 = 2.
Multiplicera interkvartilområdet med 1,5. Lägg till detta i den övre kvartilen och subtrahera den från den nedre kvartilen. Alla datapunkter utanför dessa värden är en mild översvämning. För exempeluppsättningen är 1,5 x 2 = 3; alltså 3 - 3 = 0 och 5 + 3 = 8. Så vilket värde som är mindre än 0 eller högre än 8 skulle vara en mild översvämning. Detta innebär att 15 kvalificerar sig som en mild utläggare.
Multiplicera interkvartilintervallet med 3. Lägg till detta i den övre kvartilen och dra det från den nedre kvartilen. Alla datapunkter utanför dessa värden är en extrem outlier. För exempeluppsättningen är 3 x 2 = 6; alltså 3 - 6 = –3 och 5 + 6 = 11. Varje värde som är mindre än –3 eller högre än 11 skulle vara en extrem outlier. Detta innebär att 15 kvalificerar sig som en extrem outlier.