Publication Results



Author: Olgiati, Emanuela
Title: Intervalli di confidenza per una proporzione generati da campionamento di una popolazione finita
Date: Tuesday 5th October 2004
Advisor: Secchi, Piercesare
Advisor II: Salvati, Simonetta
Download link:
Abstract: Questa tesi nasce in seno al progetto di ricerca AEEG2004, commissionato nel 2004 dall Autorità per l Energia Elettrica e il Gas (AEEG) al MOX del Dipartimento di Matematica, Politecnico di Milano. Tra le competenze dell Autorità vi è la verifica delle condizioni di svolgimento dei servizi da parte dei distributori di gas e la sanzione di eventuali comportamenti scorretti. Questi compiti rendono indispensabile per AEEG il disporre di idonei strumenti di controllo dei dati comunicati dai distributori di gas. In particolare, avendo l Autorità stabilito alcuni criteri di validità e conformità per diverse classi di prestazioni fornite dai distributori, essa ha incaricato il MOX di predisporre modelli statistici e algoritmi atti a stimare, a partire da informazioni campionarie, il numero di prestazioni non valide e non conformi fornite da un distributore. L analisi statistica del problema condotta dal MOX, che doveva tener conto anche delle richieste di garanzia a tutela dei distributori, ha portato a stimare la proporzione di prestazioni non valide e non conformi, in una popolazione di prestazioni di ampiezza nota, per mezzo del valore più piccolo di un intervallo di confidenza unilatero destro, funzione di dati generati da campionamento semplice senza reimmissione. In letteratura sono presenti diversi metodi che consentono di costruire intervalli di confidenza per una proporzione; essi differiscono per le assunzioni relative alla distribuzione della variabile aleatoria X, rappresentante il numero di unità del campione che presentano la caratteristica in esame. Il metodo più conosciuto è forse quello dovuto a Wald, che si basa su due approssimazioni successive: l approssimazione normale per la distribuzione di X e l approssimazione della varianza di X per mezzo della sua stima campionaria. I manuali di statistica di larga diffusione riportano regole, che si proclamano valide empiricamente, relative alla dimensione n del campione e alla probabilità p di estrarre dalla popolazione un unità con la caratteristica di interesse, quali garanti della bontà delle approssimazioni che generano l intervallo di Wald e quindi di una probabilità di copertura effettiva dello stesso prossima al suo livello nominale. Per esempio, nel caso di una popolazione di dimensione infinita, si legge spesso che l intervallo di confidenza costruito con il metodo Wald è ragionevolmente utilizzabile quando np e n(1-p) sono entrambi maggiori di 5. oppure 10. Analoghe condizioni empiriche sono citate in letteratura anche nel caso di campionamento semplice da una popolazione finita; per esempio, Barnett (2002) propone la seguente regola: 1) n deve essere piccolo rispetto al numero di unità della popolazione che rispettivamente presentano e non presentano la caratteristica in esame; 2) il minimo tra np e n(1-p) non deve essere troppo piccolo; per esempio min(np,n(1-p))>30. Nel caso di campionamento da popolazioni infinite, queste regole empiriche sono state ampiamente criticate dall opera di alcuni statistici che hanno mostrato come, pur rispettandole, la probabilità di copertura dell intervallo di Wald può essere molto inferiore al livello di confidenza nominale. Siamo dunque molto sospettosi nei confronti delle analoghe regole esistenti per una popolazione di dimensione finita e ci aspettiamo che anche in questo caso esse non siano poi così attendibili. Inoltre non sempre i campioni interessanti per le analisi di AEEG rispettano queste regole; l Autorità ritiene ragionevole aspettarsi una proporzione p di prestazioni non conformi piuttosto piccola e la dimensione n del campione in genere non supera le 40 unità. Un obiettivo della tesi è studiare, mediante simulazione, l andamento della probabilità di copertura effettiva dell intervallo di confidenza di Wald per la stima di proporzioni basato su campionamento semplice (senza reimmissione) da popolazioni finite, al variare della dimensione della popolazione, della dimensione n del campione e della proporzione p di unità della popolazione con la caratteristica di interesse. In modo analogo esaminiamo il comportamento di altri due metodi per la costruzione di intervalli di confidenza per la stessa proporzione: il metodo proposto da Wilson (1927), che è sempre basato sull approssimazione normale ma, a differenza di quello di Wald, ha origine da una corretta valutazione della varianza di X, e il metodo proposto da Buonaccorsi (1987), che utilizza invece l esatta distribuzione della variabile aleatoria X, ossia l ipergeometrica. Il fine di queste analisi è quello di dare una risposta al problema posto dall Autorità, ossia determinare l intervallo che meglio degli altri stimi la proporzione di prestazioni non valide e non conformi nella popolazione di prestazioni fornite da un distributore di gas. In generale, questo scopo si raggiunge risolvendo un problema di ottimizzazione vincolata: l intervallo ottimo è infatti quello con probabilità di copertura maggiore o uguale ad un livello dato (il vincolo) e con la minor lunghezza possibile. Esso deve realizzare il miglior compromesso tra lunghezza, che si vuole piccola, e probabilità di copertura, che si vuole grande. Dall analisi dei risultati forniti dalle simulazioni emergerà che il metodo che fornisce l intervallo di confidenza più aderente alle richieste dell Autorità è il metodo Buonaccorsi; esso è inoltre perfettamente in linea con la richiesta di AEEG di adottare procedure di stima garantiste per i distributori.