BOX PLOT

Tukey J.W., Exploratory Data Analysis
Addison-Wesley, Reading, Massachusetts,USA, 1977

 

 

È un metodo per rappresentare una distribuzione statistica nel modo che segue:

 

 

Box Plot

 

 

La linea interna alla scatola rappresenta la Mediana della distribuzione.

Le linee estreme della scatola rappresentano il primo ed il terzo quartile.

La distanza tra il terzo ed il primo quartile, Distanza interquartilica, è una misura della dispersione della distribuzione. Il 50% delle osservazioni si trovano comprese tra questi due valori. Se l'intervallo interquartilico è piccolo, tale metà delle osservazioni si trova fortemente concentrata intorno alla mediana; all'aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazioni centrali intorno alla mediana.

Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma della distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica.

Le linee che si allungano dai bordi della scatola (Baffi) individuano gli intervalli in cui sono posizionati i valori rispettivamente minori di Q1 e maggiori di Q3; i punti estremi dei "baffi" evidenziano i valori adiacenti.

Se si indica con r = (Q3-Q1) la differenza interquartilica, il valore adiacente inferiore (VAI) è il valore più piccolo tra le osservazioni che risulta maggiore o uguale a Q1-1,5r.

Il valore adiacente superiore (VAS), invece, è il valore più grande tra le osservazioni che risulta minore o uguale a Q3+1,5r. Pertanto se gli estremi della distribuzione sono contenuti tra Q1-1,5r e Q3+1,5r essi coincideranno con gli estremi dei "baffi", altrimenti come estremi verranno usati i valori Q1-1,5r e Q3+1,5r.

I valori esterni a questi limiti (esterni rispetto ai valori adiacenti, chiamati in genere valori anomali), vengono segnalati individualmente nel box-plot per meglio evidenziarne la presenza e la posizione. Questi valori infatti costituiscono una "anomalia" rispetto alla maggior parte dei valori osservati e pertanto è necessario identificarli per poterne analizzare le caratteristiche e le eventuali cause che li hanno determinati. Essi forniscono informazioni ulteriori sulla dispersione e sulla forma della distribuzione.

Quando i valori adiacenti, superiore e inferiore, coincidono con gli estremi della distribuzione non comparirà alcun valore fuori limite.

I valori adiacenti inferiore e superiore forniscono informazioni sulla dispersione e sulla forma della distribuzione ed anche sulle code della distribuzione.

(Da: William S. Cleveland, Visualizing Data. At & T Bell Laboratories, Murray Hill, New Jersey,1993)

 

 

Nel caso di una distribuzione normale, nel box-plot le distanze tra ciascun quartile e la mediana saranno uguali, così pure avranno uguale lunghezza le linee che si allungano dai bordi della scatola (baffi), che arriveranno fino a

[Me-2,69796 s ] e [M e +2,69796 s ] e tale intervallo racchiuderà il 99,30% delle osservazioni.

 

 

Un aneddoto

A John Tukey venne chiesto:

perché nella determinazione dei valori adiacenti superiore ed inferiore è stata scelta una distanza limite dai quartili pari a 1.5r ?

ed egli rispose:

perché 1 è poco e 2 è troppo !