Analisi esplorativa dei dati: differenti metodi di rappresentazione grafica a confronto

Keywords

Statistics
Author(s):
Milani, Filippo
Title:
Analisi esplorativa dei dati: differenti metodi di rappresentazione grafica a confronto
Date:
Wednesday 23rd July 2008
Advisor:
Paganoni, A.M.
Advisor II:
Download link:
Abstract:
In questo lavoro studieremo vari strumenti per analizzare in maniera qualitativa un set di dati, cercando le strategie più efficienti per individuare le caratteristiche, ad esempio il numero di mode o la presenza di outlier, della densità da cui è stato estratto il campione. Nel primo capitolo presenteremo gli istogrammi tradizionali, con tutti i rettangoli della stessa larghezza, per utilizzare i quali è necessario scegliere due parametri: la larghezza dei bin e l estremo inferiore. Dopo aver definito un criterio di ottimalità per la larghezza, vedremo che è stata trovata quella ottimale (formula di Scott 79) soltanto nel caso si conosca già la densità, ed analizzeremo con alcune simulazioni l efficiacia di questa scelta. Poiché uno degli scopi principali di una ricerca è proprio capire come e fatta la densita da cui è stato estratto il campione, questa larghezza ottimale è di scarso utilizzo pratico. In tutte le situazioni è invece possibile usare delle formule che si basano solo su alcuni valori del set di dati, come la numerosità o la deviazione standard campionaria: presenteremo queste regole e cercheremo di capire se sia possibile trovare dei fattori che riescano a migliorarle. Nel secondo capitolo ci occuperemo degli istogrammi equal-area, cioè istogrammi composti da rettangoli della medesima area (e quindi di larghezza diversa). Analizzeremo i pregi, ad esempio la capacità di individuare picchi, ed i difetti di questo secondo tipo di istogrammi, e cercheremo altri tipi (come gli istogrammi intermedi) che mantengano i pregi di entrambi gli istogrammi presentati. In seguito descriveremo, ed implementeremo in Matlab, altri strumenti, come la famiglia di istogrammi traslati, che ci permette di non scegliere l estremo sinistro da cui partire, anche se le rappresentazioni granchè risulteranno meno maneggevoli. Nel capitolo successivo presenteremo le densità di Kernel, che possono venire interpretate come istogrammi con gli spigoli dei rettangoli lisciati in maniera tale che il risultato grafico sia una funzione continua, ed useremo le densità di Kernel per spiegare il funzionamento di un nuovo strumento: il SiZer, ideato da Marron e Chaudhuri nel 1999. Tale strumento serve a mostrare in maniera semplice, basandosi sull uso dei diversi colori, quali mode sono vere caratteristiche del set di dati e quali invece sono solo perturbazioni dovute al rumore del nostro particolare campione. Nel quarto capitolo, utilizzando Matlab, metteremo a confronto i vari strumenti introdotti ed implementati, generando noi stessi dei campioni con diverse particolarità, come outlier o picchi: scopriremo ad esempio che, se il campione è numeroso, il SiZer riesce ad individuare una mistura di due gaussiane con più facilità degli istogrammi, soprattutto se la mistura non è simmetrica, mentre con poche osservazioni gli istogrammi tradizionali risultano lo strumento più efficiente. Nel capitolo seguente studieremo come si comportano questi strumenti con dei set di dati reali: vedremo che l utilizzo di più strumenti ci permette di avere un maggior numero di informazioni nell analizzare un campione.