Statistica descrittiva e inferenziale
La statistica si occupa di raccogliere e analizzare dati che consentono di descrivere un fenomeno collettivo: qualcosa che non riguarda un solo individuo, ma una popolazione. Il primo obiettivo in genere è di descrivere com'è la situazione ora. Questo è il compito della statistica descrittiva: raccogliere, analizzare e interpretare i dati in modo da descrivere un certo fenomeno.
Spesso una descrizione porta a farci pensare che alcuni fenomeni siano legati tra loro: ti fanno pensare che ci sia una correlazione, o una relazione di tipo causa-effetto. Per questo non ti basta descrivere cosa succede ora: devi fare un'inferenza, ovvero un'affermazione a cui dare una prova statistica. Questo è il compito della statistica inferenziale.
Immagina di essere un entomologo e di voler studiare una nuova specie di ragno. Non ti basta misurare un solo ragno per stabilire quanto è grande: devi fare moltissime misurazioni e capire come variano le dimensioni del corpo e degli arti. Quindi userai la statistica descrittiva per capire se le dimensioni sono molto variabili o sono localizzate tutte intorno a un valore centrale.
Per farlo andrai a cercare vari ragni e misurarne le dimensioni del corpo e degli arti. Metterai tutti i risultati in una tabella e poi farai qualche calcolo, individuando una tendenza centrale. Così potrai dire che, in media, un ragno della nuova specie misura circa 1 cm per i maschi e circa 3 cm per le femmine.
Ora noti che in due ambienti diversi le dimensioni dei ragni variano molto: in città sembrano più piccoli che in campagna. Per capire se l’ambiente influisce sulle dimensioni devi usare la statistica inferenziale. Dovrai dimostrare che la differenza di dimensioni non dipenda da fluttuazioni statistiche, normali variazioni tra un individuo e l’altro.
Una prova statistica comincia da un’ipotesi, detta ipotesi nulla, che è una spiegazione del fenomeno alternativa alla tua. In questo caso l’ipotesi nulla sarebbe “l’ambiente non influisce sulle dimensioni del ragno”. Il tuo obiettivo è confutare quest’ipotesi. Per farlo, devi calcolare la probabilità di avere la differenza di dimensioni presente nei tuoi dati se la distribuzione è la stessa.
Quando questa probabilità diventa abbastanza bassa, significa che l’ipotesi nulla non è sufficiente per spiegare le differenze. In questo caso hai dato una prova statistica del fatto che l’ipotesi nulla è falsa: questo dà forza all’ipotesi alternativa, che quindi ha più probabilità di essere vera.
I dati in statistica
Diciamo che vuoi descrivere il reddito della popolazione in Italia. Per farlo dovrai innanzi tutto stabilire l'unità statistica su cui raccogliere i dati: ad esempio, potresti studiare il reddito per lavoratore/lavoratrice, oppure per famiglia. Nel primo caso l'unità statistica è la persona che lavora, nel secondo caso l'unità statistica è la famiglia.
Per ogni unità statistica devi analizzare alcuni caratteri statistici: in questo caso i caratteri che ti interessano saranno il reddito da lavoro, il possesso di edifici, di terreni, le rendite finanziarie, etc.
Alcuni di questi caratteri si esprimono con un numero: lo stipendio o l'area dei terreni, ad esempio, sono perfettamente descritti da numeri. Questi caratteri statistici, quindi, sono descritti da variabili numeriche.
Altri caratteri invece non sono numerici: se vuoi dividere le persone occupate per settore lavorativo, non puoi usare un numero, ma devi usare delle categorie mutualmente esclusive. In altre parole, questi caratteri vengono descritti da delle variabili categoriche (un termine più antico è mutuabili).
Frequenze
Una volta raccolti i dati, devi organizzarli per fare un'analisi ed avere una visione di insieme. Una prima idea può essere di compilare una tabella di frequenze: ovvero, contare quante volte un certo valore compare in una raccolta dati. Ci sono vari tipi di frequenze che si possono raccogliere.
La frequenza assoluta di un certo dato è il numero di volte in cui questo si presenta nell'indagine.
La frequenza relativa è il rapporto tra la frequenza assoluta e il numero di osservazioni svolte.
La frequenza percentuale è la percentuale corrispondente alla frequenza relativa.
Una classe di Verona ha raccolto i dati sulla provenienza degli studenti. Dodici studenti vengono dalla città; gli altri provengono da quattro diversi comuni nei dintorni. La tabella delle frequenze avrà nella prima colonna i nomi dei paesi, e nella seconda il numero di studenti che proviene da quel paese: questo numero coincide con la frequenza assoluta.
Comune | Frequenza |
Verona | 12 |
Domegliara | 4 |
Negrar | 3 |
San Giovanni Lupatoto | 6 |
Affi | 1 |
Totale | 28 |
In genere per studiare questi dati si mettono in forma di percentuale: ovvero, si calcolano le frequenze percentuali. Come passo intermedio puoi calcolare la frequenza relativa: dividi la frequenza assoluta per il totale delle osservazioni (26). A questo punto, per calcolare la frequenza percentuale, si moltiplica la frequenza relativa per 100.
Comune | Frequenza assoluta | Frequenza relativa | Frequenza percentuale |
Verona | 12 | 0,46 | 46% |
Domegliara | 4 | 0,15 | 15% |
Negrar | 3 | 0,12 | 12% |
San Giovanni Lupatoto | 6 | 0,23 | 23% |
Affi | 1 | 0,04 | 4% |
Totale | 26 | 1 | 100% |
Dati discreti e continui
Le variabili numeriche ti portano a raccogliere due tipi di dati: discreti o continui.
I dati che possono assumere solo un valore intero, o comunque dei valori a una certa distanza tra loro, sono discreti. Ad esempio, il numero di figli in una famiglia è discreto, poiché il numero può essere solo un numero intero. Non è possibile avere mezzo figlio o \(0,75\) figlie! Un altro esempio è l'età: si contano solo gli anni, quindi è possibile avere 15 o 28 o 63 anni, ma non 12,321, giusto?
Quando si rappresentano dati discreti spesso si raggruppano per i valori che assumono e si conta la frequenza del dato.Immagina di scegliere undici genitori a scuola e di chiedere loro quanti figli hanno, ricevendo le risposte: \[1, 2, 3, 3, 2, 1, 1, 4, 2, 4, 2.\] La variabile che sto cercando di descrivere è "numero di figli". I dati raccolti possono assumere solo valori interi: quindi si tratta di dati discreti. I valori del campione variano da 1 a 4: tre persone hanno 1 figlio, quindi la frequenza con cui compare il valore 1 è 3. Allo stesso modo posso contare la frequenza degli altri valori.
Numero di figli | Frequenza |
1 | 3 |
2 | 4 |
3 | 2 |
4 | 2 |
Non tutti i dati sono discreti: alcuni dati possono assumere qualsiasi valore all'interno di un intervallo. In questo caso si dice che sono dati continui. Il peso o l'altezza di una persona sono esempi di dati continui: non c'è un "valore successivo" a un altro. In questo caso non ha senso rappresentare la frequenza di ogni valore, quindi i dati si raggruppano in intervalli e si registra la frequenza degli intervalli.Immaginiamo di aver chiesto a dodici persone a caso di scrivere il loro nome completo il più velocemente possibile e che i tempi ottenuti, in secondi, siano i seguenti: \[1{,}2 \,; 1{,}4 \, ; 1{,}9 \,; 2{,}0 \, ; 2{,}0 \, ; 3{,}7\, ; 3{,}9 \,; 4{,}2 \, ; 4{,}3 \, ; 6{,}0 \, ; 6{,}5 \, ; 7{,}6.\] È possibile organizzare questi tempi in una tabella di frequenze, suddivisa in intervalli di due secondi.
Tempo (secondi) | Frequenza |
\(0≤t<2\) | 3 |
\(2≤t<4\) | 4 |
\(4≤t<6\) | 3 |
\(6≤t<8\) | 2 |
Indici di posizione
Una variabile può assumere molti valori diversi: per descriverla quindi si cerca di trovare una sorta di "valore centrale" che dà una prima, generica impressione di dove sia posizionata la variabile. Questi valori si chiamano indici di posizione o indici di tendenza centrale. I più comuni sono la media, la mediana e la moda. è importante capire le differenze tra questi indici per sapere come calcolarle, come interpretarle e quale usare a seconda delle occasioni.
Media
La media è probabilmente l'indice di posizione più usato. Puoi usarla sia sui dati continui che sui dati discreti. Ci sono vari tipi di media: aritmetica, geometrica, armonica. In statistica si usa principalmente la media aritmetica.
La media di un certo insieme di dati è data dalla somma di tutti i valori divisa per il numero delle osservazioni.
In formule: \[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{1}{n} \sum_{i=1}^n x_i \]dove \(n\) è il numero totale di osservazioni fatte, \(x_{i}\), al variare di \(i\) tra \(0\) e \(n\) sono i valori ottenuti dalle osservazioni della variabile \(x\). Il simbolo \(\sum\) rappresenta una somma di tanti elementi.
La formula sembra più complicata di quello che è: devi fare una somma e poi una divisione.
Le età di un gruppo di cugini sono \(6, 9, 12, 12, 13, 16, 17 \). Calcola l'età media.
Soluzione.
La media delle età si calcola grazie alla formula. Devi sommare tutte le età tra loro e dividere per il numero totale di persone, che è \(7\). \[\bar{x} = \frac{1}{n} \sum_{1=0}^{n} x_i = \frac{6+9+12+12+13+16+17}{7} \approxeq 12,14 \]
Il problema principale della media è che considera tutti i valori, anche quelli più estremi. In alcuni casi, questo può portare a un risultato che non rappresenta correttamente l'andamento generale dell'insieme di dati.
Nell'ultima mezz'ora, un bar ha battuto cinque scontrini: il valore in euro è \(1, 1, 1, 1, 11\). Trova la media.
Soluzione\[\bar{x} = \frac{1}{n} \sum_{1=0}^{n} x_i = \frac{1+1+1+1+11}{5} \approxeq 3\]In questo caso la variabile tende a presentare sempre lo stesso valore, \(1\); l'\(11\) è un valore particolarmente alto. In termini tecnici si dice che è un outlier: un valore molto più alto, o molto più basso, degli altri valori della stessa variabile. Questo valore riesce comunque a spostare la media, che arriva a valere \(3\) invece che \(1\): se dovessi prevedere quanto viene pagato al prossimo scontrino, però, è più realistico aspettarsi \(1\) € che non \(3\) €.
Mediana
La mediana è un altro indice di posizione: per trovarla, i tuoi dati devono essere disposti in ordine crescente o decrescente. A questo punto, devi considerare quanti dati hai, o più precisamente, se i dati raccolti sono in numero pari o dispari.
se il numero di dati è pari, la mediana è la media dei due valori centrali.
se il numero di dati raccolti è dispari, il valore centrale è la mediana.
Chiedendo ai tuoi amici quanti libri hanno letto nell'ultimo anno, ottieni che hanno letto \(5, 9, 1, 3, 8\) libri. Qual è la mediana del numero di libri letto?
Come prima cosa devi riordinare i dati in ordine crescente: quindi, \(1, 3, 5, 8, 9\). La mediana è il valore centrale: il valore che si trova alla stessa distanza dall'estremo destro e da quello sinistro, e quindi è precisamente "in mezzo", è \(5\).
Ti rendi conto di non aver inserito nella tua raccolta il numero di libri che hai letto tu. Ora i libri letti nel gruppo sono \(5, 9, 1, 3, 8, 7\). Come cambia la mediana?
Come prima, devi riordinare i dati più basso al più alto, ottenendo, \(1, 3, 5, 7, 8, 9\). Stavolta il numero di osservazioni fatte è pari: "in mezzo" all'intervallo di dati ci sono \(5\) e \(7\) , quindi la mediana è \[ {5+7 \over 2}={12 \over 2}=6.\]
La mediana è molto meno sensibile agli outlier rispetto alla media. In altre parole, la presenza di alcuni valori molto grandi (o molto piccoli) rispetto alla maggior parte dei dati, ha poco impatto sul calcolo della mediana.
Torna agli scontrini del bar dell'esercizio precedente, che avevano come valore \(1, 1, 1, 1, 11\). Cosa cambia se calcoli la mediana invece della media?
In questo caso hai cinque osservazioni: il valore centrale è \(1\). Nota come il valore estremo \(11\) non ha distorto la mediana, al contrario di quello che è accaduto con la media.
Moda
La moda è un terzo modo di calcolare un indice di posizione: corrisponde al valore che ha una frequenza maggiore.
Per trovare la moda dell'insieme di dati \(\{1, 1, 1, 3, 5\}\) devi contare la frequenza con cui compare ogni valore.
- \(1\) compare tre volte;
- \(3\) compare una volta;
- \(5\) compare una volta;
quindi il valore modale è \(1\), il valore più frequente.
Non è detto che ci sia una sola moda: potresti avere più valori che compaiono lo stesso numero di volte. In questo caso non è una buona idea usare la moda come indice di posizione.
In genere si usa meno di media e mediana, soprattutto nel caso in cui le variabili continue. Non sempre è un indice di posizione attendibile: potrebbe persino coincidere con un outlier.
Nel bar degli esempi precedenti gli scontrini dell'ultima mezz'ora danno \(0.5,1,2,3,4,19,19\). Trova la moda.
La moda coincide con \(19\), anche se il valore della maggior parte degli altri elementi è più basso. In questo caso la moda non è un buon indicatore di posizione: ti direbbe di aspettarti che le persone spendano \(19\) euro nel tuo bar, ma non è proprio così!
A differenza di media e mediana, la moda si può calcolare anche per le variabili categoriche.
Hai raccolto dei dati sui tipi di abitazione nella tua classe. 13 studenti abitano in condominio, 4 in case a schiera, e 2 in villette unifamiliari. In questo caso la moda è il condominio: è il tipo di abitazione più frequente e descrive bene la situazione generale della classe.
Indici di dispersione
Gli indici di posizione devono dare un'idea del "valore centrale", ma non ci dicono se i dati sono tutti raggruppati intorno a questo valore o se, invece, tendono a essere più sparpagliati. Questa informazione viene data dagli indici di dispersione: questi indici, usati assieme ad un indice di posizione, permettono di capire meglio come sono distribuiti i dati.
Campo di variazione (Range)
Il campo di variazione, in inglese range, di una variabile, è la differenza tra il valore più alto e quello più basso. È la larghezza dell'intervallo in cui si trovano i dati.
Se i tuoi dati sono \(2,1,7,8,6\), il valore più basso è \(1\) e quello più alto \(8\): il campo di variazione è \(8-1=7\).
Il campo di variazione dice quanto è grande l'intervallo in cui sono distribuiti i dati. Non dice molto, però, sulla relazione con un indice centrale.
Varianza
Diciamo che vuoi mettere in relazione la dispersione con l'indice centrale: in questo caso usare il campo di variazione non aiuta. Potresti pensare di calcolare la distanza dei dati dalla media: è l'idea alla base della varianza.
La varianza è la media dei quadrati delle distanze dalla media \(\bar{x} \).
\[\sigma^2 = \dfrac{ \sum_i (x_{i}-\bar{x} )^2 }{n},\]
Puoi notare che le distanze dalla media \(x_i- \bar{x} \) vengono elevate al quadrato: questo serve a evitare che, sommando una deviazione negativa e una positiva risulti zero.
Se non lo facessi, non otterresti un indice utile: la semplice somma delle distanze dalla media è sempre nulla! \[\sum_i (x_i- \bar{x} ) = 0\]
Calcola la varianza del numero di libri letti nella tua compagnia: \(5, 9, 1, 3, 8, 7\).
Come prima cosa devi calcolare la media: \[ \bar{x} = \frac{5+9+1+3+8+7}{6} = 5,5.\] Ora puoi calcolare la varianza. \begin{align} \sigma^2 & = \frac{1}{6} \left[ (5-5,5)^2+(9-5,5)^2+(1-5,5)^2+(3-5,5)^2+(8-5,5)^2+(7-5,5)^2 \right] \\ &= \frac{1}{6} \left[ 0,5^2 +3,5^2+(-4,5)^2+(-2,5)^2 +2,5^2+1,5^2 \right] \\ & = \frac{41,25}{6} \\ & = 6,875 \end{align}
A questo punto potresti chiederti, però, cosa significa questo numero. Come misura della distanza dalla media sembra un po' esagerato: in effetti per renderlo significativo dobbiamo fare una lieve modifica.
Deviazione standard
La varianza, di per sé, non è facile da interpretare: è la media delle distanze al quadrato. Viene spontaneo pensare che dovremmo calcolarne la radice quadrata per ottenere una "stima della distanza dalla media".
La deviazione standard, o scarto quadratico medio, \(\sigma\) è la radice quadrata della varianza \(\sigma^2\).
La deviazione standard si può interpretare come una "distanza media dalla media". Nell'esempio sui libri, la deviazione standard corrisponderebbe alla radice \(\sqrt{6,875} = 2,622\dots \): con questa interpretazione, l'idea è che "in media" i valori si trovano tra \(5,5-2,6=2,9\) e \(5,5+2,6=8,1\).
Nella pratica statistica, la varianza si stima su un campione della popolazione; il calcolo quindi è meno preciso di quello che si avrebbe su tutta. La formula per calcolare la varianza, e quindi anche quella per la deviazione standard, subisce una lieve correzione: se la grandezza del campione è \(n\), si divide per \(n-1\).
\[ \sigma^2 =\frac{1}{n-1} \sum (x_1 - \bar{x} )^2 \]
Il tuo treno è in ritardo tutti i giorni: nell'ultima settimana i minuti di ritardo sono stati \(12, 13, 24, 34, 25, 24\). Visto che è domenica e sei a casa, calcola media, varianza e deviazione standard del ritardo.
Prima di tutto devi calcolare la media.\[\bar{x}={12+13+24+25+34 \over6}={132 \over6}=22\]
Ora puoi trovare la varianza: togli la media ad ogni valore ottenuto, eleva al quadrato, somma i risultati e dividi per \(n-1\).
\[\begin{align} \sigma^{2}&= {\sum (x_{i}-\bar{x})^2\over n-1} \\ &= {(12-22)^2+(13-22)^2+(24-22)^2+(24-22)^2+(25-22)^2+(34-22)^2\over 5} \\ &= {100+81+4+4+9+144\over 5} = 68,4 \end{align}\]
Infine, la deviazione standard è la radice quadrata della varianza.
\[\sqrt{\sigma^2}=\sigma=\sqrt{68,4}=8,27\]
Quindi il ritardo medio del treno è di \(22\) minuti; la "dispersione" media del ritardo è di \(8\) minuti. Se il treno mantiene questi comportamenti, puoi aspettarti che il grosso dei ritardi sarà tra \(22-8=14\) e \(22+8=30\) minuti.
Statistica - Punti chiave
- La statistica si occupa di raccogliere e analizzare dati per studiare fenomeni collettivi.
- Se l'obiettivo è descrivere precisamente un certo fenomeno, si sfruttano i metodi della statistica descrittiva.
- La statistica inferenziale si occupa di provare inferenze statistiche: ovvero, di tecniche per supportare o refutare un'ipotesi tramite i dati.
- Per fare un'analisi statistica bisogna stabilire precisamente qual è l'unità statistica su cui si raccolgono i dati, e decidere i caratteri statistici, cioè le caratteristiche che si vogliono studiare.
- Un carattere statistico può essere descritto da una variabile numerica se è rappresentabile con un numero; in caso contrario serve una variabile categorica.
- Per fare un'analisi dati è importante studiare le frequenze con cui si presenta un certo valore. La frequenza assoluta conta il numero di volte in cui un certo valore si presenta nell'indagine. La frequenza relativa è il rapporto tra la frequenza assoluta e il numero di osservazioni svolte. La frequenza percentuale è la percentuale corrispondente alla frequenza relativa.
- Una variabile numerica è discreta se i dati prendono valori interi o comunque "staccati" tra di loro. Se invece puà prendere qualunque valore interno ad un intervallo, si dice che è continua.
- Per analizzare dei dati si comincia cercando di trovare un indice di posizione che permetta di rappresentare dove si trova il "centro" dei dati. I più comuni sono media, mediana e moda.
- La media di un insieme di dati è la somma di tutti i loro valori divisa per il numero delle osservazioni. Calcolando la media bisogna fare attenzione al fatto che è sensibile agli outlier, ossia i valori estremi delle osservazioni.
- Per trovare la mediana di un insieme di dati è necessario metterli in ordine crescente. Se le osservazioni fatte sono in numero dispari, la mediana è il valore che si trova al centro. Se invece sono in numero pari, la mediana è la media dei due valori centrali. La mediana è meno sensibile agli outlier rispetto alla media.
- La moda è il valore che si presenta con una frequenza maggiore. A differenza degli altri due indici, può essere calcolata anche sulle variabili categoriche.
- Gli indici di dispersione permettono di stimare se i valori di una variabile numerica tendono ad essere più centrati attorno all'indice di posizione o più sparpagliati. Range, varianza e deviazione standard sono tre indici di dispersione.
- Il range o campo di variazione è la lunghezza dell'intervallo che contiene i dati.
- La varianza è lo scarto quadratico medio, ossia la media dei quadrati delle distanze dalla media.
- La deviazione standard è la radice quadrata della varianza.
x
x
x