:: wikimiki.org ::
| Qualità Dei Dati (statistica) |
Qualità dei dati (statistica) Definizione di qualità
Il concetto di qualità non è semplice da definire. L'attività degli statistici si concentra spesso sulle proprietà delle stime statistiche, la qualità delle decisioni prese di fronte all'incertezza, l'adattamento dei modelli statistici. Utilizzando concetti come errore standard, distorsione, bontà di adattamento ed errore nei test di verifica d'ipotesi, sono state costruite varie metodologie per la stima e l'analisi nei quali la qualità dei dati gioca un ruolo centrale.
Il termine qualità è arrivato ad assumere un significato più ampio nell'ambito di organizzazioni, enti, aziende. Il meccanismo della Gestione della Qualità Totale (Total Quality Management, TQM) e altre filosofie di gestione hanno focalizzato sulla convenienza per gli utenti dei prodotti e servizi finali, hanno accentuato il bisogno di costruire la qualità intorno ai processi di produzione e di distribuzione, e hanno sottolineato l'importanza della complessità richiesta in tali processi al fine del miglioramento del prodotto e servizio finale. La definizione e la gestione della qualità nell'organizzazione statistica sono discusse in diversi documenti presentati allInternational Conference on Survey Measurement and Process Quality 1995 (Liberg (1997), deLeeuw and Collins (1997), Dippo (1997), Morganstein and Marker (1997), Colledge and March (1997) e anche in Collins and Sykes (1999). Per ulteriori approfondimenti si può anche vedere Hansen, Hurvitz and Pritzker (1967).
Se accettiamo che le esigenze degli utenti dovrebbero essere il fattore principale nella definizione delle attività, allora si può definire il concetto di qualità come fondamentale nel processo di produzione dei dati statistici. Ma, poiché un ente statistico, ha molti e diversi utenti, e ognuno può fare un diverso uso delle informazioni statistiche, tutto ciò non fornisce una definizione operazionale. Tuttavia, riconosce una considerazione più sistematica delle più importanti dimensioni di questo concetto più generale di qualità, un concetto che chiaramente si estende oltre le preoccupazioni tradizionali dello statistico.
La qualità dei dati statistici è pensata in termini di rilevanza, accuratezza, tempestività e accessibilità dei dati senza considerare a cosa si riferiscono esattamente queste dimensioni della qualità. Queste definizioni si incontrano frequentemente nei documenti riguardanti la qualità dei dati nei sistemi di informazione, anche con un diverso significato rispetto al contesto della statistica. Non c'è alcuna discussione su come ottenere o verificare un adeguato livello di qualità. Per ragioni apparenti, la qualità non è una caratteristica intrinseca dei dati statistici, ma dipende fortemente dalle specifiche condizioni dell'utilizzo dei dati.
Per dare una definizione della qualità possiamo utilizzare la definizione proposta nelle norme ISO ISO 8402 - 1984: Il possesso della totalità delle caratteristiche che portano al soddisfacimento delle esigenze, esplicite o implicite, dell'utente.
Questa definizione evidenzia due punti molto importanti: il soggetto che usufruisce della qualità è l'utente al quale è rivolto il bene o servizio; la qualità del bene o servizio consiste nel possesso di determinate caratteristiche.
È comodo anche evidenziare che le caratteristiche di qualità di un prodotto (informazione statistica) possono essere in buona parte ottenute migliorando il processo (procedimento che dall'informazione "grezza" raccolta sulle unità statistiche conduce alle stime riguardanti la popolazione oggetto) di produzione.
Generalmente, la "discussione di qualità" in statistica si basa su quattro maggiori caratteristiche di qualità della fonte dei dati statistici:
- rilevanza, si riferisce agli argomenti e i concetti statistici utilizzati;
- accuratezza delle stime, riguardante la vicinanza dei valori stimati ai valori veri (ma sconosciuti) della popolazione;
- tempestività (puntualità / regolarità) di divulgazione, si riferisce al tempo trascorso tra osservazione / raccolta dati e dati/ validità dell'output;
- accessibilità dei dati e chiarezza delle informazioni offerte, considerando i requisiti di facile accesso ai dati e flessibilità nell'uso dei dati.
A queste si aggiungono altre caratteristiche della qualità che ne aumentano l'importanza:
- confrontabilità, che punta a confronti attendibili di statistiche accessibili attraverso lo spazio, tra domini tematici e nel tempo;
- coerenza, implica relazioni chiare e semplici tra corpi di dati, o statistiche.
Infine, in termini di versatilità in un campo di contesti e situazioni di utilizzo dei dati secondario si potrebbe aggiungere un'altra caratteristica della qualità:
- completezza, afferma che, per domini con dati disponibili, le offerte statistiche riflettono i bisogni e le priorità espresse dagli utenti.
Vale la pena notare che molte importanti proprietà delle informazioni statistiche non sono visibili agli utenti senza l'utilizzo di informazioni supplementari (o metadati), cioè la rilevanza delle informazioni non può essere visibile senza informazioni sui sottostanti concetti, classificazioni e metodi utilizzati. Soltanto tempestività e accessibilità sono direttamente osservabili dagli utenti.
A queste dimensioni se ne possono aggiungere ulteriori quattro, che riguardano soprattutto il processo di produzione: regolarità, chiarezza, verificabilità, praticabilità.
Dimensioni della qualità
Rilevanza
La rilevanza di informazioni statistiche rispecchia la conoscenza delle reali esigenze degli utenti. In altre parole, la si può definire come la capacità dell'informazione di soddisfare le esigenze conoscitive degli utenti. È interessata a controllare se le informazioni disponibili fanno luce sui problemi di maggiore importanza degli utenti; si cerca di tener conto non solo delle esigenze attuali degli utenti, ma anche di eventuali loro esigenze future. La stima della rilevanza è, comunque, un argomento soggettivo dipendente dalle varie esigenze degli utenti.
Accuratezza
L'accuratezza delle informazioni statistiche è il grado di corrispondenza tra la stima ottenuta dall'indagine e il vero (ma ignoto) valore della caratteristica in oggetto nella popolazione obiettivo. È descritta in termini di errori nelle stime statistiche ed è tradizionalmente scomposta in componenti di distorsione (errore sistematico) e di varianza (errore casuale). Può anche essere descritta in termini delle maggiori fonti di errore che potenzialmente causano in accuratezza; invece, una misura dell'accuratezza viene fornita dall'errore totale.
Tempestività e puntualità
La tempestività delle informazioni statistiche è la capacità di produrre i risultati in tempi ravvicinati rispetto all'esecuzione dell'indagine. In altre parole, è l'intervallo di tempo che intercorre tra il momento della diffusione dell'informazione prodotta e l'epoca di riferimento della stessa. Questa dimensione è strettamente connessa alla necessità di disporre di dati aggiornati e quindi va valutata con riferimento al fenomeno osservato ed alle esigenze degli utilizzatori. A differenza dell'accuratezza, la tempestività può essere direttamente osservata dagli utenti.
Un altro possibile indicatore della tempestività è il tempo trascorso tra l'incarico assunto per l'indagine e la data di pubblicazione dei risultati.
Accessibilità
L'accessibilità delle informazioni statistiche si riferisce alla semplicità per l'utente di reperire, acquisire e comprendere l'informazione disponibile in relazione alle proprie finalità. Queste caratteristiche sono influenzate dai mezzi di diffusione dei risultati ottenuti. Molti aspetti di accessibilità sono determinati dalle politiche di divulgazione e dai sistemi di distribuzione.
La gestione dell'accessibilità necessita di quattro aspetti principali:
# sistemi di "catalogo" ben indicizzati che permettono di reperire facilmente le informazioni e assistere gli utenti nel localizzarle;
# sistemi corporativi di distribuzione delle informazioni attraverso opportuni canali che soddisfano le esigenze degli utenti;
# programmi che consentono di estrarre le informazioni di interesse per gli utenti sia la copertura delle informazioni statistiche dai programmi individuali nei sistemi di catalogo che l'uso di appropriati sistemi di distribuzione;
# strumenti che possono contribuire alla soddisfazione degli utenti.
Confrontabilità
La confrontabilità è la possibilità di confrontare nel tempo e nello spazio le statistiche riguardanti il fenomeno di interesse. Il grado di confrontabilità è influenzato, oltre che dalle modificazioni concettuali che possono intervenire nel tempo e nello spazio, anche da cambiamenti intervenuti nelle definizioni e/o nelle caratteristiche operative adottate dal processo di produzione dell'informazione. È sul controllo di queste ultime che bisogna concentrarsi per aumentare al massimo la confrontabilità dell'informazione prodotta.
Coerenza
La coerenza delle informazioni statistiche corrisponde alla possibilità di combinare le inferenze semplici in induzioni più complesse. Per informazioni prodotte con diversa periodicità, le statistiche possono essere considerate coerenti fintantoché basate su definizioni, classificazioni e standard metodologici comuni. In questo caso le inferenze possibili all'utente saranno più facilmente interrelate o, perlomeno, non risulteranno in contrasto tra loro.
Completezza
La completezza delle informazioni statistiche è una caratteristica trasversale ai singoli processi e consiste nella capacità di questi integrarsi per fornire un quadro informativo soddisfacente del dominio di interesse. A loro volta i domini per i quali sono rese disponibili statistiche dovrebbero riflettere le necessità e le priorità espresse dagli utenti dell'ente statistico.
Regolarità
La regolarità delle informazioni statistiche riguarda la diffusione dei dati ed indica la frequenza con cui l'indagine è ripetuta ed i dati sono resi disponibili. Non esiste una frequenza ottimale, ma essa va valutata alla luce del fenomeno considerato.
Chiarezza
La chiarezza delle informazioni statistiche si riferisce alla disponibilità di documentazione appropriata relativa alle varie caratteristiche e fasi dell'indagine ed eventualmente la possibilità di ottenere assistenza nell'utilizzo ed interpretazione dei dati.
Verificabilità
La verificabilità delle informazioni statistiche si riferisce alla necessità che una procedura preveda anche le istruzioni volte a definire i metodi, gli strumenti e le informazioni che consentono di controllare l'applicazione.
Praticabilità
La praticabilità delle informazioni statistiche definisce il grado di compatibilità delle procedure con il contesto legale e culturale entro il quale devono essere applicate e si riferisce anche all'esistenza di chiarimenti adeguati su come applicare le regole e come affrontare particolari problemi.
Anche se non esplicitamente compresa tra le caratteristiche della qualità, si ritiene utile aggiungere a queste anche la caratteristica di tutela della riservatezza degli utenti. Essa corrisponde alla garanzia dell'anonimato per ogni soggetto che ha fornito le informazioni utili alla conduzione dell'indagine. La mancata garanzia di questa caratteristica, anche se non legata immediatamente alla qualità dell'informazione, si ripercuote negativamente sull'immagine di credibilità dell'ente statistico e, in questo modo, si pregiudica la sua possibilità di rilevare dati affidabili.
Fonti di errore
Gli errori presenti in un insieme di dati possono essere dovuti ad una qualunque delle fasi di acquisizione e messa a punto delle informazioni (raccolta, revisione, codifica, registrazione). Per questo motivo, mentre tradizionalmente il processo di controllo e correzione avveniva in un momento successivo alla fase di registrazione dei dati, la tendenza attuale è quella di spostare il controllo dei dati il più possibile vicino alla fase di raccolta delle informazioni presso le unità, in modo da rendere più facile il reperimento di informazioni corrette dove si verifichino situazioni non compatibili o anomale. Sono state sviluppate tecnologie per l'integrazione del controllo e correzione dei dati con le fasi di intervista o di registrazione, in modo da eliminare, o in ogni caso minimizzare, la parte di errori attribuibile ad errori di compilazione o registrazione dei modelli (che rappresentano generalmente la parte più consistente del totale degli errori). Alcune tipologie di errori vengono corrette contemporaneamente alla fase di intervista o di registrazione, producendo una migliore qualità finale dei dati ed un risparmio nei tempi e nei costi connessi alle fasi successive di controllo dei dati.
In generale, una variabile rilevata in una unità statistica è affetta da errore quando il suo valore non corrisponde al valore vero che essa presenta in quella unità. È evidente che la presenza di errori, di qualunque natura, può provocare distorsioni nella distribuzione delle variabili considerate, nelle stime finali dei dati e in tutte le analisi statistiche effettuate sui dati non corretti.
Gli errori da cui possono essere affette le variabili possono essere classificati con diversi criteri. Innanzitutto, si fa la distinzione tra errori variabili e distorsioni:
- gli errori variabili sono casuali e variano in ogni ripetizione del processo di produzione dell'informazione statistica;
- le distorsioni sono il risultato di fattori sistematici, dipendono dalle condizioni in cui è effettuato il processo di produzione dell'informazione statistica e sono costanti in tutte le ripetizioni.
Un'altra distinzione viene fatta in base al livello a cui essi si verificano, cioè si fa la distinzione tra errori campionari ed errori non campionari:
- gli errori non campionari sono provocati da tutte le possibili imprecisioni e in accuratezze commesse o subite durante un'indagine. Questi errori sono attribuibili a problemi nell'organizzazione del processo di produzione dell'informazione statistica, all'intervistato (che rifiuta di rispondere, fornisce un dato errato volontariamente o involontariamente, ecc.), all'intervistatore (carenza nell'addestramento, influenza dell'intervistatore, ecc.), alla tecnica di intervista (faccia a faccia, postale, telefonica, ecc.), alle caratteristiche del modello (lunghezza, complessità, terminologia, ecc.), a problemi nelle fasi di codifica e registrazione dati.
- gli errori campionari dipendono sostanzialmente dalla circostanza che non tutta la popolazione, ma soltanto una porzione di essa (il campione) è soggetto a rilevazioni (errori variabili di campionamento). Questi errori possono quindi essere attribuiti esclusivamente all'effetto del caso, al disegno campionario, alla tecnica di campionamento o allo stimatore utilizzati in una data indagine statistica, e interessano solo le stime.
Gli errori campionari e non campionari concorrono nel determinare l' errore totale. L'errore totale è una misura dell'accuratezza ed è inteso come errore quadratico medio dello stimatore di interesse y dal vero valore nella popolazione Y, calcolato rispetto al valore assunto da y per tutti i possibili campioni che possono essere generati a partire dalla popolazione di interesse. Bisogna precisare che la possibilità di calcolare l'errore totale è assolutamente ipotetica. Infatti, oltre a non conoscere il valore vero della caratteristica di interesse nella popolazione, normalmente si dispone di un solo valore della y, corrispondente a quello calcolato sulle unità statistiche misurate e non del valore rispetto a tutti i possibili campioni. Tuttavia, il concetto di errore totale è utile per chiarire, dal punto di vista concettuale, quali sono le caratteristiche desiderabili per l'informazione disponibile dal punto di vista della sua accuratezza.
Il trattamento della componente non campionaria dell'errore è reso più complesso dalle difficoltà connesse sia alla sua individuazione sia alla determinazione e rimozione delle cause che l'hanno generata. Il processo di controllo e correzione dei dati riguarda i soli errori non campionari presenti nei dati stessi.
Un'ulteriore distinzione viene fatta tra errori sistematici ed errori casuali (o stocastici).
- Si dicono errori sistematici quegli errori la cui origine è da attribuirsi a difetti strutturali o organizzativi del processo di produzione dell'informazione statistica, alla struttura del modello o al sistema di registrazione adottati, e si manifestano maggiormente come deviazioni sistematiche dal valore vero di una o più variabili rilevate. La loro presenza può essere segnalata da particolari frequenze di valori anomali, incongruenze o valori fuori dominio nelle variabili rilevate.
- Si dicono errori casuali o stocastici quegli errori la cui origine è da attribuirsi a fattori aleatori non direttamente individuabili.
Inoltre, gli errori da cui può essere affetto un insieme di dati possono essere distinti in mancate risposte totali e mancate risposte parziali.
- Si ha una mancata risposta totale quando una certa unità statistica inclusa nella rilevazione non fornisce risposta ad alcuno dei quesiti previsti nel modello. La sua presenza può essere dovuta a varie cause: errore di lista, non reperibilità dell'unità statistica nella rilevazione, rifiuto di rispondere, incapacità di rispondere, ecc.
- Si ha una mancata risposta parziale quando per una certa unità statistica inclusa nella rilevazione non è disponibile l'informazione relativa ad un sottoinsieme dei quesiti previsti nel modello. Le mancate risposte parziali sono composte da due componenti: valori mancanti e valori errati. La prima componente è dovuta prevalentemente a problemi in fase di compilazione del modello, consistenti o in una cattiva interpretazione dei quesiti o delle regole di compilazione da parte del rispondente e/o del rilevatore, oppure nel rifiuto da parte del rispondente. La seconda componente, oltre ai problemi di compilazione, risente in modo particolare di problemi in fase di registrazione.
La presenza dei valori errati può dar luogo, e può essere segnalata da valori fuori dominio, valori anomali, incompatibilità fra risposte nello stesso modello:
- il valore di una variabile rilevato su una data unità della popolazione si dice fuori dominio quando non appartiene ad un insieme predefinito di valori ammissibili;
- una data unità statistica viene detta anomala (outlier) quando essa presenta caratteristiche significativamente diverse da quelle della maggior parte delle unità;
- in una unità rispondente sono presenti incompatibilità se i valori di una o più variabili in essa rilevate contraddicono predefinite regole di natura logica e/o relazioni di tipo matematico.
La distinzione tra la mancata risposta totale e la mancata risposta parziale è dovuta a volte a considerazioni di tipo soggettivo, nel senso che dipende da una "soglia di accettabilità" per i modelli fissata volta per volta dalla rilevazione. Questa soglia viene generalmente stabilita sulla base del contenuto informativo dei modelli in rapporto agli obiettivi conoscitivi dell'indagine. Sia le mancate risposte totali che le mancate risposte parziali possono essere di natura sistematica o stocastica. Infine, la distinzione tra le mancate risposte parziali e le mancate risposte totali è che le prime hanno bisogno di una fase di individuazione, che non è necessaria per le seconde. E necessaria, però, una fase di analisi statistica per entrambe allo scopo di: valutare e documentare l'entità del fenomeno; individuare le cause che lo hanno prodotto; utilizzare le tecniche e le metodologie più appropriate per la prevenzione e il recupero delle situazioni di errore.
Un aspetto importante del problema dell'individuazione e della correzione degli errori riguarda la necessità, sempre più sentita in termini non solo statistici ma anche e soprattutto di contenuto delle informazioni prodotte e rilasciate all'utente, di produrre dati non solo completi (cioè privi di mancate risposte e incongruenze interne), ma anche e soprattutto il più possibile corrispondenti al vero. In questo senso la ricerca e la correzione degli elementi errati vanno viste come operazioni attraverso cui, a fronte di una situazione di incertezza, vengono poste in atto tecniche di recupero e di ripristino dell'informazione "vera".
Individuazione e correzione delle mancate risposte parziali
Poiché le componenti delle mancate risposte parziali sono diverse, anche le tecniche utilizzate per la loro localizzazione ed, eventualmente, la loro correzione saranno diverse. Iniziamo con il dire che la fase di localizzazione non è richiesta per i valori mancanti, ma può essere molto complessa per gli altri tipi di errori (incompatibilità e valori anomali).
La localizzazione delle risposte errate in un insieme di dati statistici è basata su diversi tipi di controlli (o regole o edit), che possono essere classificati in tre categorie principali:
# controlli di consistenza: verificano che prefissate combinazioni di valori assunti da variabili rilevate in una stessa unità soddisfino certi requisiti (regole di incompatibilità).
# controlli di validità o di range: verificano che i valori assunti da una data variabile siano interni all'intervallo di definizione della variabile stessa.
# controlli statistici: utilizzati per isolare quelle unità statistiche che presentano, per alcune delle variabili in esse contenute, valori che si discostano in modo significativo dai valori che le stesse variabili assumono nel resto delle unità campionarie o rispetto ad una rilevazione precedente. Questi valori sono con alta probabilità errati, ma l'asserzione della loro non correttezza necessita di ulteriori e approfondite verifiche.
I controlli di consistenza vengono utilizzati per la costruzione dei piani di incompatibilità. Per "piano di incompatibilità" si intende un insieme di vincoli non ridondanti e non contraddittori che devono essere contemporaneamente soddisfatti da ogni unità statistica affinché l'informazione corrispondente possa essere considerata corretta. Le regole che compongono un piano di incompatibilità possono essere distinti in:
- regole formali, che derivano dalla struttura del modello, cioè direttamente dalle norme di compilazione e dai "percorsi interni" del modello;
- regole sostanziali, che derivano da considerazioni di tipo statistico - matematico, o da conoscenze specifiche a priori del fenomeno oggetto di rilevazione.
La natura delle regole (sia formali che sostanziali) di un piano di incompatibilità dipende dal tipo di variabili (qualitative o quantitative) oggetto di verifica.
Una volta individuati i record i cui valori violano uno o più vincoli del piano di incompatibilità, il problema diventa la localizzazione delle variabili responsabili di tale violazione: sono solo queste, infatti, le variabili i cui valori devono essere considerati errati (cioè mancanti) e quindi corretti.
L'insieme degli controlli statistici costituiscono la base per le procedure di localizzazione dei valori anomali (outlier) e dei valori sospetti. La presenza per una variabile di valori anomali dovuti a risposte errate è spesso un efficace indicatore di presenza di errore sistematico per quella variabile. Inoltre, questi valori, potendo avere un impatto considerevole sulle statistiche e sulle stime calcolate sui dati, se non opportunamente corretti, possono produrre delle notevoli distorsioni sui risultati finali dell'indagine.
L'origine degli outlier può essere dovuta a errori di misura commessi in una qualunque delle fasi della rilevazione, ad errata interpretazione del modello, ad errata trascrizione dei dati, ma anche alla variabilità intrinseca del fenomeno. È quindi importante verificare se questi valori corrispondono a risposte errate oppure a dati reali.
La localizzazione degli outlier avviene mediante la determinazione di intervalli di accettazione al di fuori dei quali una unità statistica è da considerare anomala e quindi da sottoporre a controllo ed, eventualmente, a correzione.
La determinazione degli intervalli di accettazione può essere: empirica, se i limiti degli intervalli di accettabilità sono determinati dallo statistico sulla base della distribuzione della variabile stessa (o di una sua funzione) nella popolazione di riferimento; automatica, quando i limiti di accettabilità sono determinati sulla base di algoritmi implementati in programmi software.
Generalmente, i valori anomali per una certa variabile osservata sono individuati calcolando le distanze relative di ogni unità dal centro dei dati (considerati nel loro complesso o per domini), e determinando un valore di soglia oltre il quale le unità sono da considerare sospette, e quindi si necessita di ulteriori verifiche.
Correzione degli errori
Dopo aver individuato i record contenenti valori errati, e quindi non accettabili, e le variabili responsabili di tale non correttezza, si pone il problema della loro modifica in modo da riportare il record nella condizione di accettabilità rispetto ai criteri (piano di incompatibilità o piano di localizzazione dei valori anomali) utilizzati. Le procedure esistenti per questa operazione possono essere classificati secondo diversi punti di vista.
Una prima distinzione avviene tra tecniche di correzione di tipo micro e di tipo macro. Le prime prevedono il controllo di tutti i record presenti nel data set e la correzione di tutti quelli che hanno determinato l'attivazione di un qualsiasi edit. L'approccio macro, invece, prevede la verifica e l'eventuale correzione delle sole unità che incidono maggiormente sulle stime finali dei dati.
Nell'ambito dei metodi di tipo macro distinguiamo fra tecniche del macroediting e tecniche di tipo selettivo. Entrambe sono di tipo interattivo, cioè prevedono che i record errati, o con alta probabilità di esserlo, vengano corretti sulla base dell'intervento diretto dell'operatore, il quale provvede a rimuovere l'errore mediante verifica del modello cartaceo o, dove possibile, mediante reintervista.
Le tecniche di correzione di tipo micro, invece, possono essere di tipo sia interattivo sia automatico. I metodi rientranti nel primo tipo possono essere utilizzati in contesti sia interamente interattivi (in cui cioè anche la determinazione degli errori avviene attraverso l'interazione fra dati ed esperto), sia in ambiti parzialmente automatici (in cui cioè l'individuazione delle componenti errate nei record avviene attraverso l'utilizzo di software automatico in cui sono implementate le regole di controllo). In quest'ultimo caso si parla di procedure di controllo e correzione di tipo misto.
Correzione dei valori anomali
Dopo aver individuato le unità in cui una o più variabili presentano valori anomali, esistono due possibili alternative: escludere i valori anomali dalle elaborazioni successive e dal calcolo delle stime finali; verificare se gli outlier individuati corrispondono o meno a situazioni errate, cioè sono dovuti a errori di compilazione o di registrazione, o se invece corrispondono alla situazione reale del rispondente rispetto al carattere rilevato. Questo tipo di analisi può essere solo di tipo interattivo, e può consistere nella revisione dei modelli cartacei (dove disponibili) o dei record corrispondenti, oppure, dove praticabile, nella reintervista del rispondente. Nel caso in cui i valori anomali corrispondano alla reale situazione dell'unità rispondente, trattandosi non di errori, ma di valori estremi, è necessario verificare se essi corrispondono o meno ad unità influenti, cioè se la loro inclusione o esclusione ha o meno un impatto importante sulle stime.
Nel primo caso (esclusione totale degli outlier) possono essere introdotte gravi distorsioni nei risultati finali del processo di produzione dell'informazione statistica dal momento che, se gli outlier corrispondono a valori reali, si rinuncia a informazioni in ogni caso corrette, che rappresentano modalità possibili dell'evolversi del fenomeno in oggetto. Questa soluzione è accettabile solo nel caso in cui gli outlier corrispondano ad osservazioni errate e non influenti (cioè con trascurabile impatto sulle stime).
Nel secondo caso, al controllo interattivo possono seguire le seguenti operazioni:
# in fase di editing, imputazione dei valori anomali corrispondenti a risposte errate;
# trattamento dei valori anomali dovuti al reale evolversi del fenomeno (cioè degli outlier corrispondenti a valori corretti) a livello di stima.
La prima operazione può avvenire in due modi distinti, a seconda del tipo di verifica effettuata sui valori anomali: se il controllo interattivo avviene mediante reintervista oppure se l'outlier è dovuto ad un errore di registrazione, la correzione del dato avviene contestualmente a questa fase; se l'outlier è dovuto ad un errore di compilazione e non è possibile ricontattare il rispondente, analogamente a qualunque altro tipo di errore, questi valori possono essere considerati errori a tutti gli effetti e, quindi, sottoposti a imputazione mediante uno qualunque dei metodi esistenti per la correzione degli errori (interattiva, automatica, deterministica o probabilistica).
La seconda operazione, che prevede il trattamento degli outlier a livello di calcolo della stima finale, introduce normalmente distorsioni negli stimatori utilizzati. Esistono tre approcci al trattamento degli outlier in fase di stima:
- modifica dei valori degli outlier;
- determinazione per gli outlier di nuovi pesi che tengano opportunamente conto dell'impatto che le unità anomale hanno sul fenomeno nel suo complesso;
- utilizzo di tecniche di stima robuste, cioè poco sensibili alla presenza nei dati di valori anomali.
Trattamento delle mancate risposte totali
La presenza delle mancate risposte totali nei dati è un problema comune a tutte le indagini: tutti gli strumenti adottabili per la prevenzione di tale fenomeno possono solo ridurne l'intensità, ma non riescono in ogni caso ad eliminarne del tutto la presenza.
Le mancate risposte totali hanno due effetti sui risultati finali: riducono la quantità di informazione disponibile (nel caso di indagini campionarie, attraverso la riduzione della numerosità campionaria, viene prodotto un incremento del relativo errore di campionamento); introducono distorsioni nelle stime quando il meccanismo che le genera è non casuale.
Il trattamento delle mancate risposte totali ha lo scopo di prevenire le distorsioni che la loro presenza può provocare sui risultati finali del processo di produzione dell'informazione statistica. Questo trattamento può avvenire a tre livelli: in fase di rilevazione, in fase di editing oppure in fase di stima finale. Nel primo caso si cerca di ridurre il fenomeno della mancata risposta totale prevedendo delle sostituzioni per le unità eventualmente non rispondenti. Nel secondo caso, le mancate risposte totali vengono sottoposte a integrazione analogamente a quanto avviene per le mancate risposte parziali. Nel terzo caso, il problema consiste nell'eliminazione o nella riduzione della distorsione prodotta dalla presenza di mancate risposte totali nelle stime finali attraverso l'utilizzo di opportuni pesi correttivi.
Rilevazione
Nel caso di indagini campionarie, le unità non rispondenti possono essere sostituite direttamente in fase di rilevazione con altre unità precedentemente selezionate casualmente dalla stessa lista. Questo metodo presenta il vantaggio di ripristinare la numerosità campionaria iniziale, ma possono non essere eliminati gli effetti distorsivi sulle stime finali se la sub-popolazione dei rispondenti rappresentata dalle unità sostitutive hanno caratteristiche sistematicamente diverse da quelle dei non rispondenti.
Sempre nel caso di indagini campionarie, un metodo di correzione degli effetti della presenza di mancate risposte totali sulle stime finali consiste nell'estrarre un sub-campione casuale semplice dalla popolazione dei non rispondenti, e di procedere alla reintervista, mediante ritorni successivi, delle unità selezionate. In questo modo, ottenuta la stima relativa ai non rispondenti, è possibile ridurre la distorsione della stima finale. Questa tecnica è però raramente praticabile nel caso di indagini di tipo amministrativo, ed in ogni caso risulta essere piuttosto costosa in termini sia economici che organizzativi.
Imputazione
Se fra le esigenze dell'indagine c'è la costruzione di un archivio completo di informazioni, le mancate risposte totali possono essere sottoposte a imputazione analogamente alle mancate risposte parziali. Questo è possibile nel caso in cui siano disponibili le caratteristiche strutturali della popolazione investigata e informazioni ausiliarie affidabili. I metodi utilizzabili a questo scopo possono essere basati sull'uso di unità donatrici (così definite perché il valore della variabile relativo a questa unità è "donato" all'unità errata, quindi si utilizza il valore dell'unità donatrice per sostituire il valore che risulta errato) oppure sull'adozione di modelli statistico - matematici di varia natura.
Nel primo caso, le informazioni relative ad ogni unità totalmente non rispondente vengono ottenute mediante duplicazione di una unità rispondente donatrice, scelta secondo un prefissato criterio casuale fra un insieme di unità donatrici candidate. Le unità donatrici candidate sono generalmente ottenute classificando tutti i possibili donatori sulla base di variabili ausiliarie, note per tutte le unità rispondenti, che si suppone discriminino fra diversi modelli di risposta. È evidente che il rapporto tra queste variabili ausiliarie ed il modello di risposta vanno verificate, così come va verificata l'indipendenza del meccanismo aleatorio di riposta dal livello delle variabili ausiliarie utilizzate.
Nel caso di imputazione mediante modelli vengono utilizzati generalmente modelli deterministici in cui si assume una dipendenza di tipo lineare fra un sottoinsieme di variabili di interesse ed un insieme di variabili esplicative. Le funzioni che esprimono tale dipendenza sono generalmente a loro volta dipendenti da un insieme di parametri, che devono essere stimati sulla base delle informazioni fornite dalle unità rispondenti.
Riponderazione
Quando le informazioni relative ad alcune unità statistiche risultano completamente mancanti e non è possibile o non si ritiene opportuno procedere alla loro integrazione, è necessario tenere conto di questa assenza di informazione a livello di stima finale: ciò può essere fatto incrementando il valore dei pesi campionari di unità rispondenti considerate rappresentative di quelle non rispondenti. È chiaro che l'assunzione alla base di questo approccio è piuttosto critica, in quanto si assume una omogeneità di probabilità di risposta fra rispondenti e non rispondenti non sempre accettabile, e che dovrebbe essere in ogni caso sempre accuratamente verificata.
Fra le tecniche di riponderazione più diffuse ricordiamo il metodo geografico e il metodo della ponderazione vincolata.
Il primo metodo consiste nel far rappresentare le unità non rispondenti da unità appartenenti a classi territoriali contigue, e viene spesso usato in combinazione col criterio dell'aggregazione degli strati, consistente appunto nell'integrazione fra strati in cui si verifica un completa caduta delle unità campione e strati contigui che ne diventano così rappresentativi. Il vantaggio di questo metodo è il fatto che la somma dei pesi modificati coincide col totale delle unità della popolazione. Il principale svantaggio è legato alla non correttezza generale delle stime finali: tali stime risultano infatti non distorte solo nel caso in cui il fattore correttivo applicato ai pesi iniziali sia il reciproco della probabilità di risposta delle unità rispondenti.
Il secondo metodo può essere adottato per tutte quelle indagini per le quali si dispone di totali noti sulla popolazione oggetto di indagine, ottenuti o da fonti esterne oppure sulla base dell'archivio da cui il campione di unità statistiche è stato selezionato. Questo metodo consiste nel calcolare i fattori correttivi per i pesi campionari in modo tale che siano rispettati i vincoli di uguaglianza fra i totali noti e le rispettive stime campionarie. Gli stimatori utilizzati per il calcolo di queste stime, detti stimatori di ponderazione vincolata, consentono in generale di attenuare gli effetti distorsivi dovuti alla presenza di mancate risposte totali.
Il metodo della ponderazione vincolata e, in generale, tutti i metodi di riponderazione in presenza di mancate risposte totali, presuppongono la specificazione di modelli probabilistici di interpretazione della mancata risposta totale, o modelli di mancata risposta. Questi modelli vengono utilizzati, in presenza di mancate risposte totali, per la stima delle probabilità di risposta delle unità campionarie, se queste probabilità sono incognite.
La maggior parte dei modelli di mancata risposta fanno uso, oltre che delle informazioni fornite dai rispondenti, di informazioni ausiliarie, che possono consistere in dati sui non-rispondenti ottenibili o dalle liste di selezione del campione, oppure da fonti esterne all'indagine che descrivono alcune caratteristiche dei non rispondenti.
Procedure di controllo e correzione
Dopo aver definito il piano di incompatibilità, l'insieme cioè delle regole che permettono di individuare, ed eventualmente correggere, gli errori all'interno dei dati, è necessario definire le modalità di applicazione di tali regole ai dati stessi.
Facciamo una prima distinzione tra le seguenti fasi:
- individuazione delle situazioni di errore, mediante verifica delle situazioni di fuori dominio, mancate risposte parziali e incompatibilità;
- localizzazione degli errori che causano le incompatibilità;
- correzione degli errori mediante attribuzione di nuovi valori alle variabili errate.
Ognuna delle fasi citate può essere effettuata in modo manuale, interattivo, automatico o misto. Le modalità manuale e interattiva presuppongono l'intervento umano per ogni tipo di decisione, quella automatica prevede la totale delega al computer di tali decisioni, mentre quella mista fa ricorso sia all'intervento umano che a quello della macchina. La differenza tra manuale ed interattiva è data dalla diversa modalità di utilizzo del computer da parte dell'operatore umano: nel primo caso il processo decisionale è totalmente indipendente dall'elaboratore, mentre nel secondo caso si determina attraverso una continua interazione tra uomo e macchina.
La fase di individuazione delle situazioni di errore, solitamente, è compiuta in modo automatico, in quanto non vi sono particolari decisioni da prendere: si tratta solo di verificare se un record presenta mancate risposte parziali, valori fuori dominio o dà luogo o meno a incompatibilità. Per quanto riguarda invece le altre fasi, le decisioni da prendere sono estremamente delicate, in quanto, se non eseguite correttamente, possono portare non alla correzione degli errori presenti, ma addirittura all'introduzione di nuovi, e, in ultima analisi, allo stravolgimento della distribuzione originale. In merito all'adozione della modalità interattiva od automatica giocano considerazioni relative alle conseguenze sulla qualità finale dei dati e sui costi in termini di risorse e di tempi necessari. Mentre per quanto riguarda quest'ultimo elemento è innegabile che la soluzione automatica risulta essere sempre vantaggiosa, non altrettanto si può dire riguardo la qualità: sotto questo aspetto, è decisiva la valutazione delle tecniche e degli algoritmi utilizzati nell'uno e nell'altro caso.
Validazione delle procedure di controllo e correzione
Una procedura di controllo dei dati e di correzione degli errori, sia di tipo interattivo, che automatico, che mista, deve essere sottoposta a validazione. Per "validazione" si intende il processo attraverso il quale si valuta se l'informazione può essere considerata consona alle finalità per le quali è stata prodotta. L'attività di validazione può dunque essere definita come l'insieme delle operazioni attraverso le quali si giudica lo scarto esistente tra gli obiettivi di qualità programmati in sede di progettazione dell'indagine statistica o amministrativa e i risultati effettivamente conseguiti.
Da questa definizione deriva che gli obiettivi di qualità devono essere prefissati in fase di progettazione e devono essere espressi in termini misurabili. Inoltre, si dovranno predisporre le procedure adatte alla misurazione dei parametri di qualità sui dati effettivamente raccolti affinché si possa valutare il conseguimento degli obiettivi. Anche se la validazione può riguardare tutte le caratteristiche che definiscono le dimensioni della qualità per i dati statistici, in questo ambito si farà riferimento maggiormente all'accuratezza, poiché questa è la più complessa da valutare autonomamente per gli utenti.
Gli obiettivi dell'operazione di validazione sono duplici: valutare se la qualità dei dati è sufficiente ai fini della diffusione dell'informazione agli utenti; identificare le fonti di errore più rilevanti e predisporre modifiche al processo di produzione in modo da ridurre gli effetti degli errori in successive occasioni di indagine.
La natura e l'intensità delle analisi eseguite nei due casi sono diverse. Nel primo, l'esigenza di tempestività impone di condurre analisi rapide e tali da escludere che i dati, per i quali si è già sostenuto un costo di produzione, introducano nel sistema di statistiche già disponibili elementi di confusione piuttosto che nuova informazione. Nel secondo caso, invece, il maggiore tempo a disposizione e l'esigenza di applicare considerazioni di costo/beneficio a dati di futura produzione fanno in modo che le procedure di validazione possano essere più ambiziose e finalizzate alla valutazione di quanto incidono altre fonti di errore sull'accuratezza dei dati.
Queste considerazioni portano ad elencare in quattro punti le principali misure di validazione:
# facilitare le valutazioni dell'utente documentando adeguatamente gli obiettivi di qualità, le definizioni adottate e i processi predisposti: questa azione si fonda sull'importanza che la trasparenza assume per l'utente nel momento in cui deve valutare la personale utilità dei dati statistici in cui entra in possesso. Infatti, per diverse delle dimensioni della qualità si è visto che è l'utente stesso a poter valutare se i dati possono essere considerati validi ai propri fini. Inoltre la conoscenza delle caratteristiche assunte dal processo di produzione permettono molte valutazioni, anche se di carattere qualitativo, sulle possibilità di interpretazione dell'informazione disponibile. A questo fine, uno strumento utile per documentare l'indagine nei suoi aspetti definitori ed operativi è la lista di verifica. Tramite questo strumento la documentazione di indagini statistiche o amministrative può essere, dove possibile, resa omogenea in modo da facilitare i confronti.
# condurre studi di coerenza tra i dati prodotti e il sistema di informazione disponibile: questo genere di intervento costituisce la principale forma di azione di validazione effettuata a scopo di diffusione. Tende ad escludere che l'informazione prodotta riveli problemi di qualità attraverso il confronto con il sistema delle statistiche già disponibili. Ma non ha lo scopo di identificare quali sono le cause e l'identità degli errori dovendo solo valutare se gli errori non superano dei limiti tali da pregiudicare la pubblicazione dei dati. Possono essere effettuate valutazioni di coerenza interna dei dati mediante il calcolo di numeri indici di riconosciuta stabilità utilizzando stime di quantità prodotte nel contesto dell'indagine. Inoltre, le statistiche prodotte possono essere confrontate con quelle ottenute in precedenti occasioni e riferite al passato oppure con stime provenienti da fonti indipendenti. In entrambi casi deve essere posta particolare attenzione agli elementi di variabilità introdotti nei confronti dalle differenti definizioni e condizioni operative adottate nell'ambito delle fonti considerate.
# stimare le principali componenti del profilo dell'errore per mezzo di apposite misurazioni della qualità e di indagini di controllo: si tratta dell'approccio più costoso alla validazione sia in termini di risorse richieste sia per difficoltà di progettazione ed implementazione dei controlli. Tuttavia, permette una valutazione diretta della qualità del prodotto informazione attraverso una stima diretta delle componenti del profilo dell'errore. L'approccio considerato consiste nel procurarsi, di solito mediante indagini ad hoc riguardanti specifiche fonti d'errore, informazione ausiliaria appositamente predisposta per la stime di specifiche componenti dell'errore totale. Per esempio, nel caso si voglia indagare la variabilità indotta nella stima di interesse dall'errore commesso dai rispondenti nel fornire l'informazione ad essi richiesta, è possibile progettare una reintervista su un campione di rispondenti nella quale si ripetono le domande, per poter analizzare le variazioni nelle risposte fornite da uno stesso individuo in due diverse occasioni. Dal momento che questo genere di studi è costoso e complesso, la loro conduzione avrà necessariamente un carattere episodico e riguarderà analisi molto specifiche sulle fonti di errore che si ritengono più rilevanti.
# calcolare indicatori di qualità di processo finalizzati alla stima indiretta della qualità dei dati: in alternativa alla stima diretta delle componenti dell'errore totale, si può ricorrere ad una soluzione di tipo più economico: la definizione e il calcolo di indicatori di qualità del processo. Questo approccio mira ad ottenere delle misure la cui variazione è associata alla presenza di errori provenienti da specifiche fonti accontentandosi di effettuare stime indirette. Allo svantaggio di non quantificare direttamente l'azione dell'errore sulle stime prodotte, si contrappongono utili vantaggi costituiti dal minor costo di produzione dei dati e programmare interventi correttivi nel caso gli indicatori segnalino problemi in qualche fase del processo di produzione. Per approfondimenti sugli indicatori di qualità di processo si può fare riferimento a [Fortini, (1998); Brancato e altri, (2000)].
Tempi e costi
La programmazione dei tempi e dei costi di esecuzione dell'indagine è un fattore critico per la riuscita dell'indagine stessa. Queste variabili, infatti, oltre ad influenzarsi reciprocamente, sono fortemente connesse alla qualità dell'informazione prodotta.
Nella pratica, l'elemento di costo viene visto come un vincolo al quale la progettazione deve sottostare senza tenere conto, in molti casi, del livello di errori che risorse carenti possono indurre nelle operazioni programmate se, infatti, una disponibilità illimitata di risorse può indurre a sprechi non sostenibili, un impegno di costo troppo limitato può portare al fallimento degli obiettivi dell'indagine con perdite anche maggiori.
In questo contesto bisogna inserire anche i tempi di esecuzione dell'indagine, tenendo conto della necessità di disporre di dati utilizzabili in un momento il più prossimo possibile a quello di riferimento dell'informazione raccolta (la tempestività come visto in precedenza). La domanda di tempestività può essere indotta sia dall'urgenza dell'informazione, per esempio allo scopo di prendere decisioni strategiche, sia da una rapidità di mutamento del fenomeno osservato, tale da ridurre l'obsolescenza dell'informazione prodotta.
Anche la tempestività può essere messa in relazione con il costo sostenuto e la qualità dei dati prodotti. È infatti lecito chiedersi se, al prezzo di un maggiore impiego di risorse, si possa anticipare la diffusione a parità di qualità o viceversa, tenendo fisse le risorse impiegate si possa aumentare la qualità dei dati prodotti, posticipando i tempi di produzione. Per esempio, si può ritenere che, aumentando il numero di rilevatori in una intervista si possa comprimere il tempo di rilevazione, oppure la qualità dell'informazione prodotta potrebbe essere migliorata conducendo analisi supplementari sui dati al prezzo di un aumento dei tempi di lavorazione. Oppure si potrebbe decidere di sopportare la diffusione dei dati a qualità inferiore, per far fronte all'urgenza di informazione, diffondendo dati preliminari ad indagine non ancora conclusa.
Per poter migliorare la pianificazione di tempi e costi d'indagine è necessario considerare le singole fasi operative e valutarne attentamente l'integrazione. Inoltre, occorre predisporre nel sistema dei controlli di qualità un adeguato monitoraggio delle risorse impiegate in ciascuna attività condotta e dei loro tempi di esecuzione, mettendo queste informazioni a confronto con gli altri indicatori di qualità prodotti.
Lavorare con dati di buona qualità permette di realizzare un sistema di data warehouse prossimo alla perfezione.
Mettere insieme registrazioni di dati parziali o scartare record inconsistenti, scorretti o incompleti, è ciò che normalmente viene chiamato data scrubbing o cleaning o più genericamente pulizia dei dati. Pulizia dei dati significa far sì che, per esempio, due record differenti in una stessa anagrafica vengano ricondotti alla stessa persona o cliente.
I dati così detti sporchi sono stati un problema fin da quando si è iniziato a raccogliere informazioni per poterle in seguito analizzare. Se nella raccolta d'informazioni ci sono dati sporchi, il prodotto di ogni analisi sarà conseguente. Il problema della pulizia dei dati è diventato più importante dal momento che sempre più aziende hanno messo in produzione sistemi decisionali basati su data warehouse, che operano unendo informazioni da fonti diverse.
Senza una strategia per la qualità dei dati e degli strumenti per la loro pulizia, i responsabili incontrano molti rischi nel mettere insieme le informazioni provenienti da differenti database. Un dato errato potrebbe non essere un grande problema, ma la moltiplicazione di questo problema in migliaia o milioni di informazioni errate, duplicate o inconsistenti costituisce uno dei motivi di fallimento dei progetti di supporto decisionale.
I processi di data quality devono eliminare non solo i semplici errori e le ridondanze. Devono rendere tra loro consistenti set di dati che sono stati creati in tempi diversi, seguendo differenti regole di raccolta o esigenze di business. Senza l'utilizzo di processi di 'pulizia' questi insiemi di dati non sono infatti utili quando vengono uniti in un warehouse, il cui scopo è quello di fornire la base per la business intelligence nei contesti aziendali più diversi.
In passato (e talvolta ancora oggi), gran parte del lavoro di ripulitura dei dati poteva essere fatto 'a mano' dagli operatori. Il laborioso processo di ricerca e correzione per eliminare le informazioni scorrette, completare quelle parziali o cancellare quelle duplicate è molto costoso e inoltre comporta l'aggiunta di nuovi errori. Ma per questo esistono oggi degli strumenti specializzati che usano complessi algoritmi per analizzare, standardizzare, correggere e integrare le informazioni.
Voci correlate
- Statistica
- Varianza, Deviazione standard
- Campionamento statistico
- Test di verifica d'ipotesi
- Stima, Stimatore
- Segreto statistico
Categoria:Statistica
ja:品質管理
StimaNel linguaggio comune, la stima è genericamente la valutazione che si da ad una cosa secondo il suo valore oppure l'opinione positiva che si ha di una persona.
----
Nell'estimo, la stima è l'insieme di operazioni con le quali l'estimatore ricerca il valore di un bene (tipicamente un bene immobile o un'azienda).
La stima può essere effettuata secondo diverse metodologie. Le stime ricercano consuetamente il più probabile valore venale in comune commercio del bene esaminato.
----
In statistica, la stima è il valore assunto da uno stimatore in corrispondenza a un particolare campione.
----
Categoria:Statistica
Distorsione
Distorsione è un termine che viene impiegato in diversi ambiti:
- distorsione - il cambiamento di una forma d'onda a causa del passaggio attraverso un componente fisico non ideale.
- distorsione - trauma che riguarda lo scheletro umano.
- distorsione - il modo di rappresentare una superficie terrestre su una mappa piana.
Si parla di distorsione anche in musica: è un effetto applicato soprattutto al suono della chitarra elettrica, ed è un'applicazione particolare del primo caso indicato sopra.
Test di verifica d'ipotesiIl test di verifica d'ipotesi si utilizza per verificare la bonta di un'ipotesi.
Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale, che si presta ad essere confermata o smentita dai dati osservazionali.
Il metodo con cui si valuta l'attendibilità di un'ipotesi è il metodo sperimentale. Quest'ultimo consiste nel dedurre le conseguenze di un'ipotesi in termini di entità osservabili, e di valutare se la realtà effettivamente osservata si accorda con la deduzione. A tal riguardo si distinguono due ambiti in cui tale attività si esplica
# deterministico
# statistico
Nell'ambito statistico, a seconda delle ipotesi si distingue tra
- test parametrico
- test non parametrico
L'ambito deterministico
Nel primo caso si è in grado di pervenire a conclusioni certe. Ad esempio volendo provare se in un circuito elettrico passa corrente si inserirà una lampadina o un amperometro e si constaterà l'accensione o l'attivazione dello strumento. In tal caso si perviene con certezza alla conclusione. Se la lampadina si accende allora passa corrente in caso contrario il circuito non è predisposto correttamente.
In questo ambito, se nel circuito passa corrente ogni volta che si inserisce una lampadina questa si accende. In caso contrario il ripetuto inserimento della lampadina darà sempre esito negativo.
L'ambito statistico
Nel secondo caso la situazione è modificata in quanto interviene un elemento nuovo, ovvero il caso. Si supponga di avere una moneta recante due facce contrassegnate con testa e croce. Volendo verificare l'ipotesi di bilanciamento della moneta si eseguono 20 lanci e si contano quelli che danno esito testa. La conseguenza del bilanciamento consiste nell'osservare un valore di teste attorno a 10. Tuttavia anche in ipotesi di bilanciamento non si può escludere di osservare 20 teste. Il fatto è che l'ipotesi di bilanciamento è logicamente compatibile con un numero di teste variante da 0 a 20. Siamo quindi nel caso di ipotesi statistiche. In tale contesto una qualsiasi decisione in merito all'ipotesi da verificare comporta un rischio di errore. Ad esempio rigettare l'ipotesi avendo osservato 20 teste, pur in accordo con il buon senso, comporta il rischio di prendere una decisione errata in quanto è sempre possibile ottenere 20 teste da una moneta bilanciata. Nel procedere alla verifica di tale ipotesi si opera come nel caso deterministico, ovvero si cerca di individuare una conseguenza del bilanciamento. A differenza del caso del circuito, la conseguenza del bilanciamento si traduce in una variabile casuale piuttosto che di un evento singolo (accensione della lampadina). Tale variabile casuale X nel caso della moneta è una variabile con distribuzione binomiale B(½, 20).
Il risultato sperimentale si deve quindi confrontare con tale distribuzione: quanto è distante tale risultato dalla distribuzione? Per rispondere alla questione si deve individuare un valore caratteristico che sintetizza la distribuzione, nel nostro caso il valore atteso pari a 20·½=10. Se il risultato sperimentale è distante da 10 si rifiuta l'ipotesi. Per valutare la distanza tra il valore sperimentale e quello atteso si valuta la probabilità di ottenere un valore più estremo di quello osservato, ovvero nel caso che X=15 sia il numero di teste ottenuto, si calcola P quindi P=0,041.
In tal caso la probabilità di ottenere una numero di teste più estremo di quello osservato, da una moneta bilanciata è 0,041. Giudicando bassa tale probabilità si rifiuterà l'ipotesi ritenendola poco compatibile con il dato osservato. In pratica i livelli di probabilità adottati sono 0,05 0,01 e 0,001. Adottando 0,05, si rifiuterà l'ipotesi se P<0,05. Tale condizione si raggiunge appunto se X<6 oppure X>14. Tale insieme di valori si definisce convenzionalmente come regione di rifiuto. Viceversa l'insieme si definisce regione di accettazione. In questo modo si è costruita una regola di comportamento per verificare l'ipotesi di bilanciamento della moneta. Tale regola definisce il test statistico.
In termini tecnici l'ipotesi da verificare si chiama ipotesi nulla e si indica con H0, mentre l'ipotesi alternativa con H1. Nel caso della moneta, se p è la probabilità di ottenere testa in un lancio la verifica di ipotesi si traduce nel seguente sistema:
:
:
Come già osservato, il modo di condurre un test statistico comporta un rischio di errore. Nella pratica statistica si individuano due tipi di errori
# rifiutare H0 quando è vera, errore di primo tipo
# accettare H0 quando è falsa, errore di secondo tipo
Tornando all'esempio della moneta in cui la regione di accettazione è data dall'insieme di valori , la probabilità di rifiutare H0 quando è vera è stato calcolato pari a 0,041.Tale probabilità rappresenta il rischio di incorrere in un errore di primo tipo e si indica con α. Per valutare la probabilità di un errore di secondo tipo è necessario specificare un valore di p in caso di verità di H1. Si supponga che p=0,80, in tal caso la distribuzione di X è una B(0,80, 20)
Con tale distribuzione di probabilità, l'errore di tipo 2. si calcola sommando le probabilità relative ai valori di X della zona di accettazione. Si trova quindi che la probabilità cercata è pari a circa 0,20. Tale probabilità quantifica il rischio di incorrere nell'errore di tipo 2. e si indica convenzionalmente con β. La quantità 1-β si chiama potenza del test ed esprime quindi la capacità di un test statistico riconoscere la falsità di H0 quando questa è effettivamente falsa. La potenza del test trova applicazione nella pratica statistica in fase di pianificazione di un esperimento.
Voci correlate
- ipotesi nulla
- variabile casuale
Categoria:Statistica
ja:仮説検定
QualitàIn generale, la misura della qualità indica una misura delle caratteristiche o delle proprietà di una entità (una persona, un prodotto, un processo in senso lato) in confronto a quanto ci si attende da tale entità, in un determinato impiego.
L'uso che si intende fare del soggetto è importante, poiché la valutazione della qualità varia a seconda dell'utilizzo. Per esempio, una persona può essere un ottimo scrittore, ma avere una valutazione molto bassa come atleta. Allo stesso modo, un gruppo di dati può avere un'alta qualità quando usati come informazione generica, divulgativa, ma una bassa qualità per un utilizzo di alta precisione.
Per questi motivi, il concetto di qualità è applicabile in quasi tutti i campi dello scibile, ogni volta che un oggetto, una persona o altro, viene confrontato con quello che ci si attende da lui.
Questa voce riguarda la qualità nell'accezione più usata, essenzialmente nell'ambito dell'economia, quando cioè si riferisce ad un bene, materiale o immateriale, che viene prodotto per un determinato utilizzo. Per la discussione relativa ad altri significati, fare riferimento alle seguenti voci:
- qualità dei dati (statistica)
- qualità sonora (musica)
- qualità del software
Qualità di un prodotto o processo
Definizioni
- Kuehn & Day 1962 "Nell'analisi finale del mercato, la qualità di un prodotto dipende da quanto bene corrisponde ai modelli delle preferenze del consumatore."
- Gilmore 1974 "La qualità è il grado in cui un prodotto specifico soddisfa i bisogni di uno specifico consumatore."
- Crosby 1979 "Qualità significa conformità a requisiti."
- Broh 1982 "La qualità è il grado di eccellenza ad un prezzo accettabile ed il controllo della variabilità ad un costo accettabile."
- Price 1985 "Fare le cose giuste la prima volta."
- Oakland 1989 "L'essenza dell'approccio alla qualità totale è identificare e soddisfare i requisiti dei clienti, sia interni che esterni."
- Newell & Dale 1991 "La qualità deve essere raggiunta in cinque aree fondamentali: persone, mezzi, metodi, materiali e ambiente per assicurare la soddisfazione dei bisogni del cliente."
La norma ISO 9000 definisce il termine Qualità come: "Il grado in cui un insieme di caratteristiche soddisfa dei requisiti".
La norma ISO 8402 (superata) definisce il termine Qualità come: "La totalità delle proprietà e delle caratteristiche di un prodotto o servizio che determinano la sua capacità di soddisfare bisogni definiti o impliciti".
Un prodotto o un processo sono di alta qualità se sono stati progettati, preparati e forniti in modo da avere il minor numero possibile di difetti e che più si avvicinino a quanto richiesto dagli utilizzatori.
Questa è una concezione moderna della qualità, secondo la quale non basta che le varie copie del prodotto siano tutte uguali, bensì occorre accertarsi che sia proprio quello di cui l'utilizzatore ha bisogno.
La differenza tra le due affermazioni diventa evidente se si considera un processo di fornitura di un servizio, come p.es. l'assistenza tecnica di un computer: ogni intervento sarà diverso, in dipendenza dal problema in campo; tuttavia al cliente non importerà molto sapere se gli ultimi 100 interventi hanno avuto successo, se alla fine si ritrova con il computer non funzionante. Il risultato sarà una percezione di cattiva qualità di tale servizio.
La catena della qualità
Se si vuole un prodotto di alta qualità, tutto l'intero processo che porta alla vendita deve lavorare al suo massimo.
Detto in altre parole, la qualità finale di un prodotto è funzione del livello di qualità di ogni singolo sotto-processo che porta al risultato finale. Questo approccio viene spesso indicato come qualità totale e rappresentato come un ombrello della qualità che copre la totalità delle azioni che partono dalla progettazione fino all'assistenza post-vendita.
Quindi, devono essere sotto stretta sorveglianza:
- l'acquisizione dei desideri dei clienti;
- la traduzione di tali desideri in caratteristiche che il produttore sa controllare;
- la progettazione o design del prodotto;
- il processo produttivo vero e proprio;
- il processo di promozione e vendita;
- il processo di assistenza post-vendita.
Non è indicato esplicitamente alcun punto di controllo, ma in realtà ogni sotto-processo si deve auto-controllare per assicurarsi di lavorare al meglio, mentre il processo totale dovrà avere i propri metodi per assicurarsi che i sotto-processi siano quelli adatti allo scopo. Questo quadro deve essere preparato dall'Assicurazione di qualità.
Le richieste del cliente
Secondo lo schema della qualità alla sorgente, ogni caratteristica deve essere definita e messa sotto controllo il prima possibile lungo il processo che porta al mercato; è allora ovvio che, prima di incominciare a lavorare, bisogna conoscere gli obiettivi, chiedendoli a chi usarà il prodotto. Deve essere il punto di partenza di ogni prodotto o servizio: che cosa desidera il cliente, che uso intende fare del prodotto ed anche quali possono essere i desideri impliciti ed inespressi.
Questo è uno dei compiti più delicati di tutta la gestione della qualità: un errore in questo stadio è molto difficile da correggere a progettazione avviata ed è un disastro scoprire magari durante la vendita, che i presupposti erano errati.
Spesso l'interpretazione dei dati non è semplice: p.es. la richiesta di un "colore gradevole" può prestarsi a soluzioni diverse. Il costruttore dovrà usare la propria conoscenza del mercato per interpretare al meglio le evidenze.
Tra i punti da definire, ci sono anche l'uso esplicito per cui il prodotto sarà fornito ed anche il costo che l'utilizzatore è disposto a pagare: un prodotto altrimenti ottimo ma di costo troppo elevato non avrà certo il successo atteso.
Altro punto cruciale è il trasferimento in termini tecnologici di quanto ottenuto: usando le proprie conoscenze, il produttore deve trasformare le richieste in requisiti sui parametri del proprio processo o addirittura sui tipi di processo da utilizzare. Questa fase può imporre specifiche su tutto il meccanismo, non solo sulla produzione vera e propria, ma p.es. anche sul tipo di promozione o sui canali di vendita.
La progettazione
Deve avvenire avendo sempre presente l'obiettivo finale descritto nella fase precedente: uno dei presupposti più importanti è perciò la condivisione di tali obiettivi tra tutti i componenti della squadra di ricerca. Inoltre devono essere previsti punti di revisione, in cui si confrontano le caratteristiche cercate con quelle ottenute e, se necessario, si effettuano le dovute correzioni.
Di nuovo, la verifica dello stato del progetto è un compito dell'Assicurazione di qualità.
Misura della qualità
Come ogni grandezza, per essere utile anche la qualità relativa ad un prodotto, processo, servizio, persona, deve poter essere misurata ed in effetti ciò avviene, anche se la valutazione della qualità è un processo difficile, poiché si basa sulla buona conoscenza delle caratteristiche importanti.
La misura della qualità consiste nel valutare quanto un prodotto è lontano da quello ideale: per farlo occorre quindi considerare le caratteristiche richieste dal cliente e costruire un metodo a che permetta di misurarle.
Spesso queste caratteristiche non sono direttamente valutabili; in questo caso deve essere prima stabilita in qualche modo una metrica ripetibile, talvolta basata su misure soggettive. In altri casi, la valutazione della qualità è semplice ed è basata su metodi ben definiti (tra i mezzi utili per la misura della qualità di un processo produttivo, ci sono i metodi statistici).
La scelta o la definizione di determinati metodi è ancora un compito per l'Assicurazione di qualità.
Statistica nella qualità
Spesso si confonde l'uso della statistica con il "fare qualità"; il fatto è che la statistica è solamente un mezzo per assicurare la qualità in alcune fasi del processo: procedimenti statistici differenti sono indispensabili p.es. per controllare una catena produttiva o per misurare la soddisfazione del cliente. Però questi mezzi restano fini a sé stessi se non vengono inseriti in un ambiente di gestione della qualità completo.
Per esempio, un tipo di carta di controllo avvisa quanto un processo sta per cominciare a produrre pezzi difettosi; sta però al sistema di qualità il registrare l'evento, descrivere la procedura che deve essere attuata per riportare il processo nelle condizioni ottimali, registrare gli effetti dell'azione correttiva, analizzare le cause del problema, effettuare un'azione preventiva per evitarne il ripetersi.
In altre parole, la statistica è un mezzo sofisticato per mantenere e migliorare la qualità, ma è solo uno tra gli altri, altrettanto sofisticati.
Ciò premesso, la statistica mette a disposizione procedure di importanza strategica per la qualità finale: a partire dalla progettazione degli esperimenti, alle onnipresenti carte di controllo, passando per le correlazioni e regressioni tra variabili e per le misure di eventi dipendenti da una popolazione e molto altro. Come anche indicato nelle normative internazionali, è difficile che una gestione corretta della qualità possa esistere senza l'aiuto della statistica, soprattutto in alcune fasi.
Coinvolgimento nella qualità
La suddivisione di responsabilità fra i sotto-processi continua fino al livello individuale. Ogni persona deve sentirsi coinvolta, come parte integrante della gestione della qualità; questo può essere fatto assicurandosi di conoscere i propri compiti e obiettivi, mettendo a punto procedure per controllare il livello di quanto prodotto, chiedendo informazioni e chiedendone quando necessario.
Dato che l'individuo diventa importante per la qualità, deve essere trattato mediante i dettami della stessa qualità; le risorse umane di un produttore diventano anch'esse un processo che contribuisce alla qualità finale. In questo modo, la copertura di qualità è, appunto, totale.
Metodi
Sono stati ideati vari metodi per gestire la qualità nei vari stadi del processo produttivo, molti dei quali relativi alla produzione vera e propria, alcuni sulla progettazione, altri per le informazioni dal cliente. Importante considerare i seguenti, per i quali si rimanda alle voci corrispondenti:
- Circoli di qualità
- Difetti Zero
- Kaizen
- La Casa della Qualità
- Sei Sigma
- Soddisfazione del cliente
Storia
Il concetto di qualità ha subito delle grandi variazioni nel tempo; la lista seguente ne riporta alcune:
- Conformità alle specifiche (Phil Crosby);
- Idoneità all'uso (Joseph M. Juran)
- Prodotti che incontrano o superano le aspettative del cliente
Voci correlate
- Gestione della qualità
- Assicurazione di qualità
- Controllo di qualità
- ISO 9000
- QS 9000
- Sei Sigma
- Qualità totale
- Diagramma di Pareto
- Statistica
- Progettazione degli esperimenti
- Carte di controllo
- Soddisfazione del cliente
- Campionamento
Categoria:Economia
AziendaPrima di poter parlare di azienda occorre chiarire che, diversamente dall'uso che se ne fa nella pratica legata all'economia, tale vocabolo non è sinonimo di impresa.
In seguito a determinati bisogni, e per perseguire quindi un certo fine, le persone tendono ad aggregarsi nei modi più vari: dalla famiglia alla religione, dallo Stato alla comunità.
Quando queste aggregazioni assumono un carattere stabile perché durature nel tempo e assoggettate a precise regole, si parla di istituti o forme di aggregazione istituzionali.
Gli istituti caratterizzati da una rilevante attività economica sono:
- le famiglie
- le imprese
- le Pubbliche amministrazioni
Per azienda si intende dunque l'ordine economico con cui si sviluppano le attività economiche degli istituti.
Le aziende vengono classificate secondo molti criteri, tra cui:
# in relazione alle attività economiche
# in relazione al fine
# in relazione al soggetto economico
# in relazione al soggetto giuridico
# in relazione alle dimensioni
Suddivisione secondo l'attività economica
Esistono tre categorie:
- erogazione: fanno parte di questa categoria tutte le aziende come la famiglia, le associazioni private e parte della Pubblica Amministrazione, che erogano e consumano beni e servizi
- produzione: comprende tutte le aziende che acquisiscono e producono beni e servizi (per definizione, si tratta delle imprese)
- composte pubbliche: raggruppa gli appartenenti alle precedenti due classi, come ad esempio lo Stato, la Regione, la Provincia, il Comune, la ASL.
Suddivisione in relazione al fine
Se per fine si intende la creazione, l'accrescimento e la distribuzione di valore, allora è possibile delineare cinque diverse tipologie di azienda:
# familiare: persegue il suo scopo tramite valori non economici (come l'assistenza reciproca, i sentimenti, ecc.) ed economici (consumi, investimenti e risparmio). Tipicamente è un'azienda di consumo in cui il risparmio è formato dalla differenza tra redditi di lavoro e capitale da una parte, e consumi e investimenti dall'altra; se le uscite superano gli introiti si accede al finanziamento di terzo. Non va confusa con l'impresa familiare, cioè l'istituzione economica che impiega membri della stessa famiglia e che è volta a produrre reddito.
# pubblica: si occupa in primo luogo di soddisfare i bisogni pubblici, inoltre crea, accresce e distribuisce valore non solo in relazione alla collettività; ma coinvolgendo anche altri soggetti (stakeholders) quali fornitori, dirigenti, dipendenti pubblici, clienti, concorrenti, ecc. In Italia, recentemente, si è assistito alla privatizzazione di molte aziende pubbliche (tra le altre: Telecom, Ina, Comit, Credito Italiano).
# di produzione (o imprese): hanno come fine diretto (principale) la produzione e distribuzione di ricchezza e come fine indiretto (secondario) il soddisfacimento dei bisogni umani. Si chiamano imprese perché operano in un'economia di mercato e sono soggette al rischio del capitale investito. A seconda del settore in cui operano, possono essere ulteriormente classificate in: del primario (agricole, minerarie), del secondario (industriali, edili), del terziario (commerciali, mercantili, bancarie, assicurative, di servizi), del terziario avanzato (informatiche, di consulenza).
# non-profit: si tratta di aziende che non hanno fini di lucro soggettivo, nel senso che, pur potendo realizzare dei risultati economici e finanziari positivi, questi non vengono distribuiti al soggetto economico. È tuttavia lecito che svolgano una qualche attività commerciale inerente all'oggetto sociale purché essa sia solo marginale o rientri all'interno di finalità di utilità sociale. Un discorso particolare vale per le ONLUS (Organizzazioni Non Lucrative di Utilità Sociale). Si tratta di una qualifica ai fini delle imposte - ovvero che incide sulle modalità di pagamento delle imposte - che possono assumere le aziende non profit che operare in uno dei seguenti settori: assistenza sociale e socio-sanitaria, assistenza sociale, assistenza sanitaria, beneficenza, istruzione, formazione, sport dilettantistico, tutela e promozione dei beni storici e artistici, tutela dell'ambiente, promozione culturale ed artistica, tutela dei diritti civili, ricerca scientifica. Tali società devono essere iscritte all'anagrafe delle ONLUS, presso la Direzione Regionale delle Imprese per avere diritto a particolari vantaggi fiscali (non sono soggette a tassazione).
# mutualistiche: comprendono cooperative, società di mutua assicurazione e consorzi di cooperative. La cooperative hanno uno scopo principalmente mutualistico che consiste nel fornire beni o servizi o lavoro direttamente ai soci, a condizioni più vantaggiose rispetto alle condizioni del mercato. Oltre ai soci normali è possibile che ci siano dei soci sovventori che perseguono fini di lucro. Lo scopo mutualistico assicura la ridistribuzione degli utili tra i soci e la devoluzione a scopi di utilità pubblica del patrimonio sociale, in caso dello scioglimento della società. Le attività che possono svolgere comprendono: consumo, produzione, lavoro agricolo, edilizio, trasporti, pesca, sociale. Per la loro costituzione è necessario un numero minimo di soci, che varia a seconda dell'attività da svolgere. Le società di mutua assicurazione sono cooperative che si occupano di attività assicurativa (ramo vita e ramo danni), sono a responsabilità limitata e il capitale sociale è costituito dai contributi versati dai soci, che servono anche come premi assicurativi.
Suddivisione in relazione al soggetto economico
Il soggetto economico è la persona o il gruppo di persone che di fatto ha o esercita il potere decisionale nell'azienda. La definizione di soggetto economico è stata estesa a tutti gli stakeholders.
I principali stakeholders, presenti in maniera differente nelle diverse tipologie di azienda sono:
- azionisti o soci di maggioranza
- manager o dirigenti
- lavoratori dipendenti e autonomi
- fornitori
- finanziatori e istituti di credito
- amministrazione finanziaria o Erario
- clienti
- concorrenti
Suddivisione in relazione al soggetto giuridico
Si distinguono due tipi di soggetti giuridici:
- l'imprenditore con la sua impresa individuale, in cui soggetto economico e soggetto giuridico coincidono
- le società in cui più due o più persone svolgono un'attività economica (e i due soggetti sono distinti). Alla base della società c'è sempre un contratto che sancisce:
# l'accordo tra due o più persone (fisiche o giuridiche) dette soci
# il conferimento di beni nella società da parte dei soci.
A queste classi corrispondono diverse definizioni di società:
# si ha l'impresa individuale quando il soggetto giuridico è una persona fisica che risponde coi proprio beni delle eventuali mancanze societarie. Tale impresa non gode quindi di autonomia patrimoniale: se viene dichiarata fallita, anche il suo imprenditore è fallito. Per quanto riguarda l'imposizione fiscale, il reddito dell'impresa è soggetto a IRAP (imposta regionale sulle attività produttive) e IRPEF (imposta sul reddito delle persone fisiche). Esistono inoltre delle semplificazioni relative alla contabilità che l'Amministrazione Finanziaria concede: la contabilità semplificata (che consiste nei soli libri IVA). Sono concettualmente simili all'impresa individuale quella familiare (formata al 51% dal capofamiglia e al 49% dai suoi familiari) e quella coniugale (formata solo da marito e moglie).
# la società di persone è caratterizzata da una autonomia patrimoniale imperfetta, in cui cioè il patrimonio della società non è perfettamente distinto da quello dei soci, per cui i creditori possono rivalersi (se il patrimonio societario è insufficiente) anche sui beni del socio (solitamente non vale il viceversa). Si può avere una società semplice nel caso in cui non sia necessario svolgere una attività commerciale, ma si abbia la necessità di gestire una attività (agricola o professionale, come ad esempio uno studio associato); una società in nome collettivo in cui tutti i soci sono responsabili in egual parte e con tutto il loro patrimonio della obbligazioni della società; o una società in accomandita semplice in cui i soci accomandatari rispondono come nella s.n.c. e i soci accomandanti rispondono limitatamente al capitale conferito. In tutti e tre i casi non si ha l'obbligo di versare un capitale sociale minimo, ma è necessario avere un atto costitutivo e redigere un bilancio d'esercizio (che può non essere depositato al registro delle imprese).
# le società di capitali sono dei soggetti giuridici totalmente autonomi che godono di autonomia patrimoniale perfetta (il loro patrimonio è distinto da quello dei soci). Le forme riconosciute sono: società a responsabilità limitata, società per azioni e società in accomandita per azioni. Nelle ultime, il socio accomandatario (amministratore) risponde illimitatamente col suo patrimonio delle obbligazioni sociali se il patrimonio della società non è sufficiente. Le società di capitali hanno l'obbligo di versare un capitale sociale minimo e di approvare il bilancio annuale che va depositato presso il Registro delle Imprese.
# tra le altre forme possibili si trovano le associazioni temporanee di impresa, i consorzi e il GEIE (Gruppo Europeo di Interesse Economico).
Suddivisione per dimensione
Questo tipo di suddivisione necessita di un discorso particolare. Infatti, mentre è pressoché immediato stabilire quali possono essere le classi, non è così semplice trovare un criterio uniforme di assegnazione.
Le tre classi sono:
- piccola
- media
- grande
Tra i molteplici criteri si può citare:
- fatturato (che ha un senso solo confrontando società appartenenti allo stesso settore)
- numero di dipendenti
- valore aggiunto
categoria:economia
Categoria:Ragioneria
Ricerca operativaLa ricerca operativa (nota anche come teoria delle decisioni, scienza della gestione o programmazione matematica) analizza problemi decisionali in cui occorre gestire e coordinare attività e risorse limitate al fine di massimizzare una funzione obiettivo.
L'obiettivo e la finalità del della Ricerca Operativa è trovare l'ottimo ad un dato problema (militare, economico, infrastrutturale, logistico, ecc...).
Essa costituisce un approccio scientifico alla risoluzione di problemi complessi, ha delle caratteristiche intrinsecamente interdisciplinari ed utilizza un insieme diversificato di strumenti, in prevalenza matematici, per la modellizzazione, la ottimazione ed il controllo di sistemi strutturati.
Nel caso particolare di problemi di carattere economico, la funzione da massimizzare può coincidere con il massimo profitto ottenibile o con il minor costo da sostenere.
La ricerca operativa riveste un ruolo importante nei problemi decisionali perché permette di operare le scelte migliori per raggiungere un determinato obiettivo rispettando vincoli che sono imposti dall'esterno e non sono sotto il controllo di chi deve compiere le decisioni.
Esempi di problemi
Ottimizzazione
Una fabbrica produce n prodotti i, ognuno dei quali genera un profitto pi e richiede un certo quantitativo di risorse ri,j. La fabbrica dispone di una quantità limitata per alcune risorse rj. Alcuni prodotti non possono essere realizzati in una quantità minore di mi e non superiore a Mi. Si chiede quali prodotti produrre e in che quantità per ottenere il massimo profitto, rispettando tutti i vincoli.
Pianificazione
Immaginando di dover consegnare della merce a n destinatari diversi usando m corrieri, sapendo che ognuno dei destinatari è reperibile soltanto in una determinata fascia oraria e che un corriere non può caricare più di l lotti, individuare i percorsi che devono eseguire i corrieri al fine di minimizzare i chilometri percorsi e consegnare tutti i pacchi.
Storia
La nascita della Ricerca Operativa è dovuta ad esigenze di tipo militare, durante la seconda guerra mondiale.
Immediatamente prima e durante la guerra erano sorti in alcuni Paesi alleati gruppi di ricercs orientati alla soluzione di importanti problemi di ordine strategico e tattico collegati alla difesa nazionale.
Tra il 1935 e il 1937 il Regno Unito lavorò sul progetto del "radar" come difesa antiaerea, ma era tuttavia importante che fosse efficiente la localizzazione e la successica intercettazione e rientro a terra dei veivoli inglesi. Apparve quindi indispensabile anzitutto l'ottimizzazione della distribuzione delle apparecchiature radar sul territorio ed, inoltre, che fosse mandato via radio la segnalazione ad opportune località, nacque così il "Boggin Hill Experiment".
A.P. Rowe, soprintendente della "Bawdsey Research Station", nel 1938, nel descrivere in una relazione tecnica conclusiva del progetto, il tipo di attività sviluppata, utilizzò l'espressione "Operational Research".
Nel 1939, "Patrick Maynard Stuart Blackett", fisico e professore presso l'Università di Manchester, fu chiamato a costituire un gruppo di ricerca, composto da scienziati e militari, impegnato nella lotta contro i sommergibili tedeschi.
Il successo ottenuto da questo gruppo, passato alla storia, produsse il risultato di moltiplicare, nel Regno Unito e negli altri Paesi alleati, gruppi di ricerca aventi caratteristiche simili.
Sistima che, nel corso della seconda guerra mondiale, furono complessivamente impegnati, nel Regno Unito, in Canada e negli USA, oltre 700 scienziati; il termine del conflitto dunque determinò una "riconversione" dell'approccio, fino ad allora usato per soli fini bellici, orientandolo verso problematiche di tipo civile (come la localizzazione dei depositi industriali, il mixing di carico di un servizio di autotrasporto).
Nei settori più propriamente civili, la Ricerca Operativa riprese tecniche note nel settore industriale, migliorandole ed arricchendole con l'uso di strumenti matematici e di conoscenze organizzative: si occupò della standardizzazione della produzione, di problemi connessi alla pianificazione e programmazione industriale.
Nel Regno Unito la riconversione avvenne prevalentemente nel settore pubblico, con studi relativi ai trasporti ferroviari, stradali ed urbani.
In Italia tali tecniche giunsero, per motivi facilmente intuibili, con una decina di anni di ritardo. Nel 1961, un gruppo di ricercatori, tecnici e dirigenti d'azienda fondò l'AIRO (Associazione Italiana di Ricerca Operativa) avente lo scopo di promuovere studi teorici ed applicazioni pratiche della disciplina.
Scopi e metodi
La ricerca operativa consiste nell'applicazione di un metodo scientifico, da parte di gruppi interdisciplinari, a problemi che indicano il controllo dei sistemi organizzati al fine di fornire soluzioni che meglio servano gli scopi dell'organizzazione nel suo insieme.
Essa non si sostituisce ai responsabili della decisione ma, fornendo soluzioni dei problemi ottenute con metodi scientifici, permette di effettuare scelte razionali.
Può essere utilizzata nella programmazione lineare (pianificazione del problema); nella programmazione dinamica (pianificazione delle vendite); nella teoria delle code (per gestire i problemi di traffico); nella teoria delle scorte (stoccaggio di magazzino); nella teoria dei grafi (utilizzata per le reti di comunicazione); teoria dei giochi (problemi di decisione in condizioni competitive).
Fasi
L'elaborazione del problema è suddivisa in passaggi obbligatori ossia:
- esame della situazione reale e raccolta delle informazioni;
- formulazione del problema: individuazione delle variabili controllabili e non e la scelta della funzione economica da massimizzare o minimizzare;
- costruzione del modello matematico, che ha lo scopo di dare una buona rappresentazione del problema; deve essere semplice da utilizzare; rappresentare il problema, fornendo tutte le informazioni per poter assumere una decisione il più idonea possibile;
- soluzione del modello (mediante modalità differenti);
- analisi e verifica delle soluzioni ottenute: si controlla se la funzione teorica offre vantaggi attesi e si verifichi la rappresentatività del modello.
Modelli matematici (problemi di decisione)
I modelli matematici sono semplici rappresentazioni della realtà e sono semplicemente descrittivi della stessa; questi tipi di modelli vengono detti iconici.
Questi modelli sono più astratti e si esprimono con relazioni matematiche tra le varibili e le grandezze da ottimizzare.
Algoritmi
Alcuni degli algoritmi che vengono usati in ricerca operativa sono:
- Algoritmo del simplesso per risolvere problemi di ottimizzazione lineare.
- Algoritmo di Prim o Algoritmo di Kruskal per individuare lo Shortest spanning tree di un grafo.
- Algoritmo di Dijkstra per individuare il cammino più breve tra due nodi di un grafo.
- Algoritmo di Ford-Fulkerson per risolvere problemi di flusso su grafi.
- Algoritmo della barriera logaritmica per risolvere i problemi di ottimizzazione convessa.
Categoria:Ricerca operativa
ja:オペレーションズリサーチ
Produzione
In economia, l'azione dell'uomo sulle forme di materia / energia presenti nella natura e/o nella sfera sociale, per creare un valore aggiunto mediante la produzione di un prodotto, consumando in modo ineguale parte di esso e accumulando l'eccedenza per l'investimento, in base a una varieta' di obiettivi socialmente stabiliti.
Nell'ingegneria, impiego di uno o più processi di produzione industriale per ottenere un prodotto finito.
Distribuzione
- Informatica: Distribuzione Linux
- Statistica: variabile casuale
- Economia: Distribuzione commerciale
- Elettrotecnica: Distribuzione di energia elettrica
1995
Eventi
- 1 gennaio - Unione Europea: L'Austria, la Finlandia e la Svezia diventano stati membri dell'Unione Europea (che passano da 12 a 15)
- 2 gennaio - Nigeria: muore l'ex dittatore della Somalia Syaad Barre, a lungo protetto dai governi italiani ed in esilio in Nigeria dal 1992.
- 16 gennaio - Giappone: un violento terremoto colpisce la regione del Kansai, provocando più di 4 mila morti.
- 25 gennaio - Italia: a Fiuggi Gianfranco Fini scioglie il MSI-DN e apre il congresso nazionale di fondazione di Alleanza Nazionale.
- 16 febbraio - USA: a San Francisco viene arrestato Kevin Mitnick, famoso cracker e ingegnere sociale che da anni rubava segreti miliardari a banche e ad istituti di ricerca.
- 20 febbraio - Bologna, Italia: dopo un lungo restauro, riapre l'Arena del Sole.
- 25 febbraio - Italia: Alla 45° edizione del Festival di Sanremo vince Giorgia con Come saprei, seguita da Gianni Morandi insieme a Barbara Cola con In amore, terza Ivana Spagna con Gente come noi.
- 13 marzo - A Copenhagen viene firmato il manifesto del movimento cinematografico Dogma 95.
- 20 marzo - Giappone: i fanatici della setta "Sublime verità" liberano gas nervino nella metropolitana di Tokyo, provocando 8 decessi e più di 3 mila intossicazioni.
- 26 marzo - Europa: In sette paesi dell'UE entrano in vigore gli Accordi di Schengen che tra l'altro abolisce i controlli sistematici delle persone alle frontiere interne dell'Unione
- 27 marzo - Italia: a Milano viene assassinato Maurizio Gucci, erede della casa di moda fiorentina.
- 12 aprile - Italia: sospende le pubblicazioni il giornale "La voce", fondato e diretto da Indro Montanelli: le cause sono da ricondurre allo scarso interesse del pubblico ed ai debiti accumulati.
- 19 aprile - USA: un gruppo neo-nazista statunitense tramite un'autobomba distrugge la sede dell'FBI di Oklahoma City, capitale dello Stato dell'Oklahoma. Fino a quel momento è il più grave attentato subìto dagli Stati Uniti.
- 28 aprile - Bruxelles: L'Austria firma gli Accordi di Schengen
- 11 luglio - Jugoslavia: militari serbobosniaci entrano nell'enclave di Srebrenica, deportano e trucidano circa 7000 bosniaci musulmani: è il cosiddetto massacro di Srebrenica
- 18 luglio
- Francia: durante il Tour de France in un incidente muore il ciclista venticinquene Fabio Casartelli.
- Gran Bretagna: il cantante Robbie Williams si separa dalla band "Take That" per intraprendere la carriera di solista.
- Sull'isola caraibica di Montserrat, il vulcano di Soufriere Hills erutta. Nel corso di diversi anni, devasterà l'isola, distruggendo la capitale e costringendo gran parte della popolazione a scappare.
- 24 agosto - Redmond (USA): Dalla Microsoft esce Windows 95, il primo sistema operativo della microsoft a 32 bit concepito per il grande pubblico
- 30 agosto - Stati Uniti: dopo 18 anni viene ripristinata la pena di morte nello Stato di New York.
- 3 ottobre - USA: i giudici di Los Angeles giudicano innocente il campione di football ed attore O.J. Simpson, accusato di aver ucciso la moglie ed il di lei amante. Tutta l'America si ferma per assistere in diretta al verdetto.
- 6 novembre - presentata alla fiera COMDEX la prima Voodoo 1 della 3dfx. Inizia per i computer l'era del 3d.
- 21 novembre - Dayton (USA): firma dell'intesa di pace fra serbi, croati e bosniaci
Nati
Morti
- 2 gennaio - Syaad Barre, dittatore somalo
- 17 gennaio - Tino Carraro, attore teatrale italiano
- 4 febbraio - Patricia Highsmith, scrittrice statunitense
- 8 febbraio - Renato Santini, pittore italiano
- 13 febbraio - Alberto Burri, pittore italiano
- 15 marzo
- Alessandro Cutolo, conduttore italiano
- Florence Chadwick, nuotatrice statunitense
- 25 marzo - Eriprando Visconti, 62 anni, regista italiano, discendente della nobile famiglia lombarda dei Visconti
- 4 aprile - Paola Borboni, attrice (n. 1900)
- 5 aprile - Emilio Greco, scultore italiano
- 9 aprile - Edda Ciano Mussolini, prima figlia di Benito Mussolini
- 15 aprile - Liala, scrittrice italiana
- 25 aprile - Ginger Rogers, ballerina ed attrice statunitense
- 3 maggio - John Warren Aldrich, ornitologo statunitense
- 14 maggio - Mia Martini, cantante italiana
- 12 giugno - Arturo Benedetti Michelangeli, pianista italiano
- 29 giugno - Lana Turner, attrice statunitense
- 17 luglio
- Juan Manuel Fangio, pilota argentino
- Stephen Harold Spender, poeta
- 18 luglio - Fabio Casartelli, ciclista italiano
- 9 agosto - Jerry Garcia, leader del gruppo rock "Grateful Dead"
- 10 agosto - Aldo Protti, cantante lirico italiano
- 12 agosto - Achille Togliani, cantante italiano
- 18 agosto - Julio Caro Baroja, antropologo spagnolo (n. 1914)
- 20 agosto - Hugo Pratt, autore fumetti e scrittore italiano
- 21 agosto - Nanni Loy, regista ed attore italiano
- 13 settembre - Francesco Messina, scultore italiano
- 15 settembre - Gunnar Nordahl, calciatore svedese
- 15 ottobre - Henry Roth, scrittore statunitense
- 19 settembre - Vincenzo Muccioli, fondatore della comunità di San Patrignano.
- 26 ottobre - Gorni Kramer, compositore, musicista e direttore d'orchestra italiano
- 5 novembre - Gilles Deleuze, filosofo francese
- 24 novembre - Luis Malle, regista francese
- 10 dicembre - Bonvi, disegnatore e vignettista italiano
- 16 dicembre - Mariele Ventre, Direttrice del Piccolo Coro "Mariele Ventre" dell'Antoniano.
- 25 dicembre - Dean Martin, attore e cantante statunitense di origine italiana
- per la Pace: Pugwash Conferences On Science And World Affairs, Joseph Rotblat
- per la Letteratura: Seamus Heaney
- per la Medicina: Edward B. Lewis, Christiane Nusslein-Volhard, Eric F. Wieschaus
- per la Fisica: Martin L. Perl, Frederick Reines
- per la Chimica: Paul Crutzen, Mario Molina, F. Sherwood Rowland
- per l'Economia: Robert Lucas
095
als:1995
ja:1995年
ko:1995년
ms:1995
simple:1995
th:พ.ศ. 2538
1997
Eventi
- 15 gennaio: Italia- A Firenze viene assassinato il conte Di Robilant
- 20 gennaio: USA - Bill Clinton inizia il suo secondo mandato come Presidente degli Stati Uniti
- 22 gennaio: USA - Madeleine Albright è la prima donna ad essere nominata Segretario di Stato degli Stati Uniti
- 22 febbraio - Italia: Alla 47° edizione del Festival di Sanremo vincono i Jalisse con Fiumi di parole, seguiti da Anna Oxa con Storie, terza Syria con Sei tu.
- 15 marzo: prima Giornata internazionale contro le violenze della polizia
- maggio: in Italia entra in vigore la Legge sulla privacy
- maggio: Sud-Est asiatico - inizio di una grave crisi economica
- 11 maggio: Informatica/Scacchi - Nella sfida tra Deep Blue della IBM e Garry Kasparov, per la prima volta un computer batte a scacchi un grande maestro
- 27 maggio: Presentato La Cattedrale ed il Bazaar, manifesto del movimento open source.
- 27 giugno - Andrew Wiles incassa il premio Wolfshehl di cinquantamila dollari per aver risolto l'Ultimo teorema di Fermat.
- 1 luglio - La Gran Bretagna restituisce alla Cina la sovranità su Hong Kong.
- 6 luglio - La sonda Pathfinder si posa su Marte.
- 10 luglio - Londra: scienziati divulgano i risultati delle loro analisi del DNA di uno scheletro di Uomo di Neanderthal, che confermano la teorie dell'evoluzione umana fuori dall'Africa, collocando l'"Eva africana" da 100.000 a 200.000 anni fa.
- 31 luglio - Italia: il Parlamento approva la legge che istituisce l'Autorità Garante per le Comunicazioni.
- 11 settembre - Gran Bretagna: in Scozia si vota per il proprio parlamento dopo 290 anni di unione con l'Inghilterra.
- 26 settembre terremoto in Umbria e nelle Marche
- 2 ottobre - Amsterdam: i 15 stati dell'Unione Europea firmano il Trattato di Amsterdam.
- 8 ottobre - Bordeaux/Francia: inizia il processo al criminale nazista Maurice Papon.
- 26 ottobre - Europa: anche per l'Italia entrano in vigore gli Accordi di Schengen.
- 31 ottobre - Italia: viene istituita la Libera Università di Bolzano.
- 1 dicembre - Europa: anche per l'Austria entrano in vigore gli Accordi di Schengen.
- 11 dicembre - Kyoto: alla Convenzione quadro delle Nazioni Unite sui cambiamenti climatici, viene redatto un Protocollo che prevede la riduzione entro il 2012 delle emissioni dei cosiddetti gas serra del 5,2% rispetto al 1990. Il Protocollo entrerà in vigore se verrà ratificato da almeno 55 stati che rappresentino almeno il 55% delle emissioni dei paesi sviluppati.
- 22 dicembre - Chiapas: un gruppo paramilitare messicano massacra una comunità indigena nell'ora della messa; muoiono 45 persone, tra cui 4 donne incinte.
- 22 dicembre - Il regista statunitense Woody Allen sposa la ventisettenne Soon-Yi Previn, figlia adottiva coreana di Mia Farrow, all'epoca convivente di Allen: il matrimonio solleva aspre polemiche nei rotocalchi scandalistici.
- 29 dicembre - | | |