Publication Results



Author: Vantini, Simone
Title: I CART e il problema della classificazione statistica: teoria e applicazioni
Date: Wednesday 22nd December 2004
Advisor: Secchi, P.
Advisor II:
Download link:
Abstract: Questo testo affronta il problema della classificazione statistica ovvero il problema della predizione di variabili aleatorie categoriche tramite l utilizzo dialtre grandezze, numeriche o categoriche, invece note. Gli strumenti attraverso i quali si è scelto di affrontare questo problema sono appunto i CART (Alberi di Regressione e Classificazione). Essi costituiscono una serie di tecniche di indagine non parametrica che, concepite empiricamente negli anni 50 in ambiente militare e medico, sono state formalizzate compiutamente per la prima volta solo nel 1984 da Breiman e consacrate ufficialmente agli onori della cronaca da Venables e Ripley nel 1999. Gli alberi di classificazione stanno riscuotendo un interesse crescente nel mondo scientifico sia perchè, solamente oggi, grazie alla notevole crescita delle tecnologie informatiche, si presenta per la prima volta la possibilità, di utilizzarli su larga scala in problemi reali non trattabili efficacemente con tecniche tradizionali e sia perchè, rispetto ad altre tecniche di classificazione già utilizzate, sono in grado di trattare efficientemente dati non standard (cioè incompleti o per i quali il numero di componenti non risulti fissato) e dati ad alta dimensionalità. I capitoli nei quali è stato strutturato questo testo riflettono a fondo il percorso seguito durante l elaborazione di questo lavoro: Il Capitolo 1 introduce il problema dela classificazione statistica supervisionata e non supervisionata. Nel Capitolo 2 vengono descritti i CART quale tecnica di classificazione supervisionata. Nel Capitolo 3 sono riportate invece alcune proposte di ottimizzazione volte al miglioramento delle prestazioni dei CART. Il Capitolo 4 presenta invece quali siano ad oggi gli strumenti informatici disponibili per la generazione e l utilizzo di CART. Nel Capitolo 5 è riportata un applicazione ad un caso reale: lo studio dei danni subiti a seguito di una collisione tra navi. Nella Conclusione sono commentate sinteticamente le varie proposte di ottimizzazione presentate nel Capitolo 3 e le possibili aree di indagine futura. Infine in Appendice sono stati riportati i codici sorgente in linguaggio R relativi alle più importanti routine da noi implementate.