I test INVALSI sono scientificamente solidi?
I limiti del modello di Rasch

I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolare dei test INVALSI. Meno di un anno fa, un analogo problema di solidità scientifica, riferito però ai test OCSE-PISA,  era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di David Spiegelhalter, il quale, oltre ad essere professore a Cambridge, è uno dei più rinomati statistici a livello mondiale. Lo scorso maggio è stata indirizzata all’OCSE una richiesta di moratoria sottoscritta da un’ottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti delle politiche nazionali sull’istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi ha scritto una lettera di sostegno all’OCSE in cui viene ripresa una metafora già usata anche per i test INVALSI: i test standardizzati sarebbero come un termometro a cui non è saggio rinunciare. Tuttavia, alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni per nutrire dubbi sul corretto funzionamento del “termometro di Rasch”. Ed anche sulla facilità di aggiustarlo.

di  Enrico Rogora, Roars 31.7.2014

Nota introduttiva

Per la quasi totalità dell’opinione pubblica, ma anche degli insegnanti e degli accademici, l’elaborazione dei risultati dei test standardizzati è una “scatola nera” il cui corretto funzionamento viene assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare nel merito dei marchingegni statistici utilizzati? Anche chi ne contesta l’uso a causa delle distorsioni che provoca nelle politiche educative raramente ne mette in dubbio la correttezza.

La metafora del termometro usata dai sostenitori dei test è chiara: per un medico la misura della temperatura fornisce un’informazione rudimentale sulla salute del paziente, ma è una misura tutto sommato affidabile:

Hospitals use a thermometer, which allows doctors to get useful, albeit partial and imperfect, information based on a standardized measure that is comparable over time and across patients.

Una metafora che però si rivela a doppio taglio: cosa succederebbe se i medici fossero talmente focalizzati sulle misure di temperatura da curare qualsiasi forma di malattia ricorrendo agli antipiretici? La metafora del termometro dà ancor più da pensare quando si prende atto di alcuni recenti sviluppi del dibattito internazionale sui test standardizzati. Alla luce della letteratura scientifica, infatti, è tutt’altro che certo questi “termometri” siano capaci di fornire “a standardized measure that is comparable over time and across patients”.

Ma dove sta il problema? Niente sembra più facile che elaborare  i risultati di un test standardizzato. Dopo tutto, basta contare il numero delle risposte esatte e di quelle sbagliate. O no?

No, non è così facile. Prima di tutto, bisogna considerare che non tutti i quesiti hanno la stessa difficoltà. Poca cosa si dirà: basta assegnare un punteggio via via più alto alle domande più difficili. Ma come si fa a stabilire se e quanto una domanda è più facile di un’altra? Beh, basta verificare quanti esaminati riescono a dare la risposta giusta.

Un attimo, così non funziona, perché non tutti gli esaminati hanno la stessa “abilità” (qualsiasi cosa possa voler dire) e la distribuzione dei diversi gradi di abilità cambia da un campione di esaminati all’altro. Potrei tentare di misurare l’abilità degli esaminati confrontando i punti che ottengono nel test, ma così tornerei al punto di partenza, proprio come un cane che si morde la coda.

Estrarre delle informazioni dai test standardizzati non è così semplice come leggere la temperatura sulla scala graduata di un termometro.

Per calibrare questo particolare “termometro” bisogna contemporaneamente ricostruire il grado di difficoltà delle domande e l’abilità degli esaminati. Bisogna passare attraverso la risoluzione di un particolare problema matematico-statistico. Come facciamo a sapere se questo problema ammette soluzione e se questa soluzione ha senso? Dipende dalle ipotesi che facciamo e, dopo che le abbiamo fatte, dall’avere dei dati che non le contraddicano.

Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazione della “temperatura”, ovvero del cosiddetto “modello di Rasch”, che specifica appunto le ipotesi matematico-statistiche utilizzate nella procedura di calibrazione.

Riguardo alle ipotesi del Modello di Rasch, due sono i problemi da affrontare:

  1. non sembrano essere le uniche possibil;

  2. non c’è garanzia che siano soddisfatte dai dati.

Venendo al primo punto, le ipotesi appaiono tutt’altro che di validità universale, tanto è vero che nella fase di caibrazione vengono scartate sia le domande sia gli esaminati che non sono conformi al modello. Insomma, appare difficile parlare di “oggettività” dei risultati. Piuttosto, facendo ricorso ad un ossimoro, verrebbe da dire con Rogora che l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Come spiegato più sotto, una conseguenza dell’adozione di un modello soggetto a ipotesi così restrittive è la sostanziale immodificabilità del syllabus, almeno fino a quando si vuole preservare la consistenza e le comparabilità con le precedenti rilevazioni.

Riguardo al secondo punto, in che misura le ipotesi del Modello di Rasch trovano conferma nei dati? Nel caso dei test OCSE-PISA, David Spiegelhalter, in un suo post apparso sul blog della Royal Statistical Society, ha sottolineato che il modello di Rasch è «demonstrably inadequate» e «over-simplified», confermando quanto sostenuto da Svend Kreiner in un suo articolo scientifico apparso sulla rivista Psychometrika[a]. Lo stesso Ray Adams, capo dell’OECD analysis team, non ha potuto negare che, si se effettua un test statistico di ipotesi sui dati PISA analizzati da Kreiner, il modello di Rasch risulta respinto (Comments on Kreiner 2011).

In un articolo apparso sul blog della Royal Statistical Society, lo statistico di fama mondiale David Spiegelhalter, spiega le ragioni della sua perplessità nei confronti della metodologia statistica su cui poggiano i test OCSE-PISA. In particolare, Spiegelhalter concorda con le riserve sollevate da S. Kreiner, secondo il quale per i dati PISA «le prove contro il modello di Rasch sono schiaccianti» (The evidence against the Rasch model is overwhelming).

 

 

E i test INVALSI? Gnaldi et al, hanno sottoposto a verifica le ipotesi di applicabilità del modello di Rasch sui test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ National Tests, submitted). Se si dà fede alla loro analisi, le ipotesi di applicabilità del modello di Rasch risultano respinte. In particolare, l’analisi mostrerebbe una

dependance of students’ scores on attributes other than those the scale is intended to measure, that is students’ gender and geographical area.

Il test di italiano soffre inoltre di un altro problema, in quanto

a single score cannot be sensibly used to describe students’ attainment on the Italian Test (especially on the Grammar section), as the difference among students’ does not depend univocally on a single ability level.

Ma che pignoli questi statistici, penserà qualcuno. Si è scomodato persino il Financial Times per ricordare a Spiegelhalter che «i confronti accademici sono sempre imperfetti, ma questo non significa che non li si possa mai fare». In effetti, sarebbe inutile turbarsi per sbavature scientifiche che modificano solo marginalmente gli esiti finali.

Kreiner ha provato a fare dei calcoli per quantificare gli effetti di queste “sbavature”: la posizione del Regno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. Se si trattasse di un termometro, ci sarebbe il rischio di confondere una febbre da cavallo con un congelamento. “The best we can say about Pisa rankings is that they are useless conclude Kreiner.

Spiegelhalter ha anche confrontato gli esiti di due diverse edizioni dei test PISA di matematica ed ha osservato una “stranezza”: la maggior parte delle nazioni che nel 2003 avevano ottenuto risultati sopra le media sono poi peggiorate nel 2013. Spiegelhalter osserva che è esattamente il comportamento che ci si aspetta di vedere quando una classifica è in gran parte influenzata dal caso:

This is exactly the pattern expected when much of the influence on the ranking is due to random variation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision of the estimates is not as great as claimed. When this pattern is observed, one should be very cautious about ascribing reasons for changes.

È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5″, con il secondo lancio è più probabile scendere che salire. Ecco perchè, secondo Spiegelhalter, “learning lessons from PISA is as hard as predicting who will win a football match“.

Ma è giunto il momento di chiudere questa nota introduttiva e di cedere la parola ad Enrico Rogora che nel seguito ci illustra funzionamento e limiti del modello di Rasch applicato ai test INVALSI.

Giuseppe De Nicolao  (Redattore Roars)

[a] S. Kreiner mostra che, relativamente ai test PISA 2006 di “Reading skills”, la validità del modello viene respinta (“rejected”) per tutte le nazioni tranne il Lichtenstein; inoltre, nella quasi totalità dei casi i p-values  sono inferiori a 10^-4, vedi Table A.1 in (S.Kreiner, Psycometrika 2013).

 

Il modello di Rasch
Enrico Rogora

Introduzione

Ormai numerosi, anche in Italia, sono gli ambiti in cui si utilizzano test basati su domande a risposta multipla a fini valutativi. L’Istituto Nazionale per la Valutazione del sistema Educativo di Istruzione e di Educazione, INVALSI, prepara test che utilizzano sia domande a risposta multipla sia domande a risposta aperta, con griglia di correzione predeterminata. Questi test sono al centro da anni di innumerevoli discussioni e polemiche[1].

Scopo di queste riflessioni è quello di contribuire alla comprensione di un aspetto particolare, ma a mio avviso rilevante, di questa discussione: il modello statistico utilizzato dall’INVALSI per l’analisi dei risultati, cioè il cosiddetto modello di Rasch.

Credo che una discussione organica sui test debba essere fatta sul piano più elevato dei rapporti tra strumenti valutativi e processi di insegnamento/apprendimento, ma credo anche che sia utile avviare una discussione su alcuni aspetti tecnici, talvolta utilizzati come dogmi assoluti, dietro cui trincerarsi per evitare il confronto. Inoltre, la scelta del modello di Rasch come strumento di analisi dei dati porta necessariamente a conseguenze non irrilevanti sui contenuti dei test, come spero di chiarire alla fine di questo articolo e mi sembra utile conoscere in anticipo gli effetti di tali scelte.

Indici e misure

Prendiamo la frase: questo test misura le abilità matematiche degli studenti che ci è molto probabilmente già capitato di sentire. La parola misura fa pensare a un’operazione analoga alla misura dell’altezza di una persona. Ma se per l’altezza si tratta di una grandezza ben determinata e dal significato condiviso, che tutti sanno come misurare, nel caso delle abilità matematiche si può intendere invece semplicemente[2] che si è assegnato un qualche punteggio (per esempio il numero delle risposte esatte) ad un test costituito da un certo numero di domande di matematica. La misura dell’altezza gode di proprietà che il punteggio ottenuto da uno studente in un test non ha. Innanzitutto, nel caso dei test, la proprietà che si vuole misurare è tutt’altro che chiara. Non esiste una nozione univoca e condivisa di abilità matematica e domande diverse testano, in generale, abilità diverse[3]. Inoltre, il punteggio assegnato in un test non è in generale confrontabile con quello assegnato in un’altro test: per esempio un primo individuo può ottenere in un certo test A un punteggio superiore a quello ottenuto da un secondo individuo in un certo test B perché “il primo individuo è più bravo del secondo” o perché “il test A è più facile del test B”, cioè la supposta misurazione verrebbe a dipendere dallo strumento di misura.

In questa differenza del significato del termine misura si annidano pericolosi fraintendimenti. Chiamare misurazione una qualunque assegnazione di un punteggio ad un test ci fa pensare ad una oggettività comparabile con quella che si può ottenere misurando le grandezze fisiche che invece è ben lungi dall’essere giustificata.

Il modello di Rasch è un modello probabilistico, sviluppato dallo statistico danese Georg Rasch (1901-1980), con l’intento di definire operativamente un modo per stimare, dai risultati di un test, misure di abilità degli individui e di difficoltà delle domande del test o item.

La domanda intorno a cui ruotano le mie riflessioni è la seguente: possiamo affermare che utilizzando il modello di Rasch riusciamo ad ottenere misure di abilità paragonabili alle misure fisiche?

La mia opinione, che spero di motivare nel resto dell’articolo, è che le misure psicometriche o misure indirette dedotte dall’applicazione del modello di Rasch, pur costituendo un sostanziale passo avanti rispetto a meri indici numerici, non sono comparabili alle misure della fisica. Inoltre, tanto più si prende sul serio il modello di Rasch e si cerca di rendere queste misure indirette comparabili alle misure della fisica, tanto più è necessario delegare a un gruppo chiuso di esperti la definizione della variabile che si vuole misurare. In altre parole, parafrasando una famosa legge fisica propongo scherzosamente il seguente principio di indeterminazione per le misure di Rasch: detta q la distanza di una misura di Rasch da una misura oggettiva di una proprietà ben determinata e detta d la distanza tra il processo di stima dei parametri del modello di Rasch da un processo di misurazione trasparente e democratico

q*d>!H!

dove !H! (da leggere “H imbavagliato”) è una costante (costante di Plank psicometrica).

Spero di riuscire a spiegare nel seguito e in maniera comprensibile ai non specialisti, perché questa parafrasi scherzosa abbia un fondamento serio. Per fare ciò è necessario esporre sinteticamente alcune idee su cui si fonda il modello di Rasch.

Il modello di Rasch

I risultati della correzione di un test vengono organizzati in una tabella, o matrice in cui ogni riga rappresenta una persona e ogni colonna un item. Nei test composti di sole domande a risposta multipla standard[4], la correzione assegna il punteggio 1 ad ogni risposta esatta e 0 ad ogni risposta sbagliata o non data. Per esempio, si consideri un test composto di due sole domande, cui partecipano quattro persone. La matrice delle risposte sia

1

0

1

0

0

1

1

1

In questo test la prima e la seconda persona hanno risposto correttamente alla prima domanda e non hanno risposto correttamente alla seconda, la terza non ha risposto correttamente alla prima domanda ma ha risposto correttamente alla seconda, la quarta ha risposto correttamente a entrambe.

Il modello di Rasch ipotizza un modello di generazione stocastica di siffatte tabelle, in conseguenza del quale si possono implementare algoritmi per stimare dalla matrice delle risposte un parametro per ogni persona e un parametro per ogni item, che prendono il nome di parametri di abilità e parametri di difficoltà rispettivamente. La giustificazione e i limiti di tali denominazioni verranno discusse più avanti.

Il modello di Rasch è quindi un modello probabilistico per la stima di parametri nascosti a partire da dati osservabili. Questo genere di modelli si presenta in molte situazioni che hanno applicazioni anche alla vita di tutti i giorni: per esempio nel problema del riconoscimento vocale si usa il modello delle catene di Markov a stati nascosti e in quello della ricostruzioni del moto tridimensionali a partire da dati accelerometrici, utile per esempio nella conduzione degli aeroplani, si usa il modello dei filtri di Kalman.

Per modellare un processo stocastico che generi tabelle di zeri e uno, la prima cosa che può venire in mente è quella di lanciare ripetutamente una moneta. Se viene testa segnerò uno nella corrispondente casella, se viene croce segnerò zero. Questo primo modello è assolutamente inadeguato in quanto produrrà dati simili a quelli raccolti in test troppo particolari: quelli in cui ogni domanda ha solo due possibili risposte e ogni persona risponde a caso. Riflettendo sui limiti di questo modello, ci rendiamo conto che esso appiattisce completamente le persone. Quelle che sono più preparate devono avere una probabilità maggiore di rispondere correttamente di quelle meno preparate. Possiamo immaginare allora un modello in cui per ogni persona si scelga una diversa moneta e che si tratti di una moneta truccata. Tanto più preparata è la persona tanto più la sua moneta sarà truccata in modo da aumentare la probabilità che esca testa. Anche così però il modello non può funzionare bene. La probabilità di rispondere correttamente deve anche diminuire all’aumentare della difficoltà della domanda. Per affinare il modello possiamo associare ad ogni persona un parametro a, ad ogni item un parametro d e specificare una funzione di risposta p(a,d) che fornisce la probabilità che uno studente di abilità a risponda correttamente a un item di difficoltà d cioè scegliamo una moneta diversa per ogni interazione studente/item e truccata in accordo con la funzione p(a,d).

Si noti che per denotare il parametro a ho usato una volta il termine abilità un’altra il termine preparazione. Con questa ambiguità ho voluto sottolineare l’arbitrarietà del nome. In effetti i parametri a e d sono definiti in maniera puramente formale. Quanto questa definizione sia correlata con l’abilità, con la preparazione o quant’altro non ce lo può (e non ce lo deve) dire il modello.

Torniamo alla funzione di risposta, che abbiamo lasciato ancora indeterminata, e per la quale è ragionevole richiedere che assuma valori compresi tra zero e uno (per rappresentare una probabilità), che cresca al crescere di a (che è un parametro che vorremmo correlare all’abilità) e che decresca al crescere di d (che è un parametro che vorremmo correlare alla difficoltà).

Per specificare il suo modello, Rasch[5] si domanda a questo punto se è possibile scegliere la funzione p in maniera tale che i parametri a e d siano misure e non semplici numeri e propone la seguente condizione necessaria:

quando una persona ha abilità doppia di un’altra, e un item ha difficoltà doppia di un altro, la prima persona dovrà poter risolvere il primo problema con la stessa facilità con cui la seconda persona risolve il secondo[6].

Con riferimento alla funzione di risposta, questa condizione si può formalizzare richiedendo p(2a,2d)=p(a,d) e più in generale,

p(ka,kd)=p(a,d) per ogni a,d e k numeri positivi     (+).

La proprietà (+) viene definita da Rasch conformità. Tra le funzioni che verificano la condizione di conformità, Rasch sceglie quella che considera più semplice e propone un modello in cui[7]:

Ogni persona ha una certa probabilità di risolvere correttamente ogni problema di un dato genere e la sua probabilità, indipendentemente dalle risposte ai precedenti problemi, è data dalla formula[8]

dove a è una caratteristica della persona e d una caratteristica del problema.

A partire dal modello di Rasch è possibile valutare la verosimiglianza di ogni matrice di dati in funzione dei parametri del modello. Se abbiamo N persone di abilità a1,…,aN che rispondono a domande di difficoltà d1,…,dn, la verosimiglianza della matrice delle risposte si ottiene, in virtù della condizione di indipendenza formulata da Rasch, moltiplicando le probabilità delle osservazioni in ogni cella della matrice, ovvero p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 1 oppure 1- p(ai, dj) se sulla i-esima riga e j-esima colonna c’è 0. Uno dei metodi per stimare i parametri consiste semplicemente nello scegliere quelli che massimizzano la verosimiglianza dei dati. Il problema conduce alla ricerca delle soluzioni di un sistema di equazioni non lineari, per cui esistono metodi efficienti di soluzione numerica.

Ovviamente la funzione (*) non è l’unica che verifica la condizione di conformità ma con questa scelta valgono ulteriori proprietà molto interessanti, sia dal punto di vista teorico che pratico, per esempio la proprietà che Rasch chiama di oggettività specifica.

Oggettività specifica

La discussione di questa proprietà è a mio avviso esemplare delle discussione relative al modello di Rasch. Il significato sostanziale della proprietà non è chiaro in quanto non è facile separare quello che si nasconde dietro la sua definizione formale da quello che ci si vuol vedere ma che in effetti non c’è. La discussione è tecnica e mi limiterò ad esporre alcune considerazioni non tecniche e a suggerire alcuni approfondimenti.

Dice Rasch[9]:

Agli inizi degli anni 60 ho introdotto un nuovo – o piuttosto una più definita versione di un vecchio – concetto epistemologico. Ho mantenuto per esso il nome di oggettività, ma siccome il significato di questa parola è passato attraverso numerose modificazioni sin dalla sua origine ellenica e viene ancora utilizzato, nei discorsi di ogni giorno e in quelli scientifici, in molti contesti diversi, ho aggiunto un predicato restrittivo: specifica[10].

Secondo Stenner[11],

Georg Rasch ha utilizzato il termine “oggettività specifica” per descrivere quel caso essenziale nelle misurazioni in cui il confronto tra individui diventa indipendente dagli strumenti particolari — test o item o altro genere di stimoli — che vengono utilizzati. Simmetricamente dovrebbe essere possibile confrontare stimoli che appartengono alla stessa classe — misurando la medesima cosa — indipendentemente da quale particolare individuo, all’interno della classe considerata, fosse strumentale per il confronto[12].

Da queste citazioni, e ancor di più dal titolo del lavoro di Rasch da cui è stata tratta la prima: On specific objectivity: An attempt at formalizing the request for generality and validity of scientific statements, si trae l’impressione che la specifica oggettività sia un principio fondamentale e imprescindibile per dare un senso alle misure. Ma se si scava più profondamente si scopre che le cose non sono affatto così nette.

Secondo Van Linden[13] il principio di oggettività specifica introdotto da Rasch si compone in realtà di due diversi principi, uno di carattere matematico e uno di carattere statistico.

Dal punto di vista matematico, si tratta di una proprietà formale di una equazione funzionale, già considerata da diversi matematici prima di Rasch[14]. Una delle conseguenze di questa proprietà è che, nel modello di Rasch, è possibile definire una funzione matematica per confrontare la prestazione tra individui diversi che non dipende dai parametri di difficoltà degli item. L’interpretazione di questa proprietà da parte di molti, e secondo van der Linden anche di Rasch[15], è che si tratti di una condizione necessaria perché i parametri siano delle misure. Sempre secondo van der Linden invece questa separazione dei parametri nelle operazioni di confronto, pur essendo utile, non è affatto necessaria. È superfluo aggiungere che, in ogni caso, la condizione formale di oggettività specifica, necessaria o non necessaria che sia, è ben lungi dall’essere sufficiente a garantire che le stime dei parametri dei modelli di Rasch siano misure utili e chiaramente determinate.

Dal punto di vista statistico, dice sempre van der Linden:

sotto la condizione che valga il modello di Rasch, se la lunghezza di due test diversi tende all’infinito, gli stimatori di massima verosimiglianza condizionale dell’abilità della stessa persona hanno lo stesso valore atteso, ma, di norma, varianza diversa. In altre parole, il significato corretto è che la presenza di statistiche sufficienti permette l’uso di stimatori consistenti dei parametri del modello di Rasch. “Oggettività specifica” non ha altro significato oltre a questo![16]

I tentativi di leggere oltre questo ha portato a numerosi fraintendimenti[17]

È la generalità degli enunciati di Rasch e il suo confondere i concetti di statistiche sufficienti e di oggettività specifica che porta ad ascrivere proprietà non realistiche al modello di Rasch. Per esempio è molto diffusa la credenza che a causa della presenza di statistiche sufficienti, la stima di massima verosimiglianza condizionale nel modello di Rasch permetta la stima degli stessi parametri di abilità da campioni diversi di item dello stesso test. Questa affermazione è dal punto di vista statistico troppo semplicistica per essere vera[18].

La discussione sul significato della proprietà di oggettività specifica mostra in maniera esemplare quanto sia facile creare confusione quando si trasmette un contenuto scientifico. Usare le parole del linguaggio comune porta facilmente a estendere il senso di un contenuto scientifico, per esempio una proprietà formale di un modello matematico, oltre al suo ristretto dominio di validità. È un compito difficile, e a mio avviso troppo spesso trascurato da chi si occupa professionalmente di scienza, quello di trasmettere, oltre a un contenuto scientifico, anche il senso dei limiti della sua applicabilità.

Osservazioni sul modello di Rasch

Il modello di Rasch non è molto flessibile. Per descrivere una matrice N*n di dati (le risposte di N persone a n item) ha a disposizione N + n parametri e quindi impone una limitazione sulla struttura dei dati, che deve essere attentamente vagliata prima di trarne qualsiasi conseguenza. Non deve trarre in inganno il fatto che è sempre possibile dare una stima dei parametri del modello, qualsiasi sia l’insieme dei dati raccolti. Una stima fornisce i parametri ottimali rispetto ad un dato criterio (per esempio il criterio di massima verosimiglianza) ma il fatto di individuare i parametri ottimali non implica che il modello sia adeguato alla descrizione dei dati.

Non entro in questa sede nella discussione dei problemi relativi alla valutazione della bontà dell’adattamento del modello di Rasch con i dati, salvo rinviare ad alcune critiche sull’adeguatezza dei test di aggiustamento per il modello di Rasch[19].

Per applicare il modello di Rasch è necessario controllare la qualità degli item. Qualità significa, in questo contesto, conformità dell’item con il modello. In particolare si richiede che sia un item al quale gli studenti non rispondano a caso e che la sua discriminazione sia uguale a uno.

La prima ipotesi sembra in contrasto con il vincolo che la risposta sbagliata sia valutata come la risposta non data, ma se le domande non sono troppo difficili e i distrattori (cioè le risposte errate) sono plausibili si osserva nella pratica che le deviazioni da questa ipotesi non sono solitamente statisticamente significative. È sempre necessario però fare un’analisi accurata dei dati per confermarlo.

La seconda assunzione è, a mio avviso, di carattere esclusivamente formale.

Gli utilizzatori del modello di Rasch, in presenza di significative deviazioni da queste ipotesi, eliminano l’item. A tal fine organizzano dei pretest necessari alla verifica della conformità degli item al modello di Rasch. La scelta di imporre a priori il modello sui dati e di modificare i dati eliminando item e individui che non sono conformi al modello, è fonte di una diatriba infinita tra i sostenitori e gli avversari del modello di Rasch[20]. La motivazione dei sostenitori del modello è sostanzialmente che il modello di Rasch è l’unico che fornisce misure psicometriche valide e quindi ciò che non è conforme al modello di Rasch non è misurabile. Un item che non verifica le ipotesi del modello di Rasch è come un metro rotto[21].

La mia opinione è che le ragioni per cui i sostenitori del modello di Rasch affermano che questo modello sia l’unico in grado di fornire misure psicometriche valide non sono convincenti, come ho cercato di spiegare nel paragrafo sulla proprietà di specificità oggettiva. Si tratta di voler vedere in proprietà matematiche o statistiche del modello di Rasch, alle volte neanche ben formulate, più di quanto ci sia in realtà. Credo anche però che aggiungere parametri per rendere il modello più aderente ai dati non faccia compiere sostanziali passi avanti nella direzione di ottenere una misura oggettiva di una proprietà ben determinata per le ragioni che cercherò di spiegare nel prossimo paragrafo.

Critiche alle misure indirette

Le misure stimate con il modello di Rasch sono misure indirette[22]. Anche se le misure indirette costituiscono un passo avanti significativo in confronto ai meri indici numerici, esistono differenze, secondo me sostanziali, tra le misure indirette e le misure della fisica: innanzitutto, la precisione delle stime di una misura indiretta, oltre a essere molto inferiore, è molto meno controllabile e poi le proprietà che si cerca di misurare non sono ben definite.

La mia opinione sulle misure indirette è che si tratti di misure imprecise di proprietà non ben definite in condizioni critiche. L’immagine intuitiva che mi sono fatto di una misura indiretta è la seguente: è come misurare il peso di una persona con una riga storta mentre la persona corre. Nell’immagine ho scritto: misurare il peso con una riga. Non è un errore, ma il tentativo di mettere a fuoco un problema sostanziale. In una misurazione indiretta non abbiamo accesso diretto alla proprietà che vogliamo misurare. Per esempio, quando diciamo abilità matematica misurata da un test, intendiamo abilità di svolgere il test che è stato proposto. Ci immaginiamo che questa abilità sia correlata con l’abilità matematica che vorremmo misurare e ci troviamo quindi in una situazione analoga a quella in cui ci troveremmo misurando il peso invece dell’altezza[23].

Le misure indirette infine vengono effettuate in condizioni critiche perché le condizioni al contorno non sono controllabili, come al contrario avviene per le misure fisiche. Le misure fisiche si fanno in laboratorio su una realtà artificiale e questa è una loro caratteristica fondamentale. Il fatto di misurare in laboratorio è uno dei tratti fondamentali della rivoluzione galileiana. La fisica moderna non è la scienza di Aristotele che si limita ad osservare il fenomeno ma sostituisce il fenomeno reale con un fenomeno artificiale più controllabile, e solo a questo punto procede con le misurazioni. Questo controllo del fenomeno prima di misurare non può essere fatto con le misure indirette. Ci sono autori che dicono che questo ostacolo epistemologico impedisce la possibilità stessa di definire misure indirette.

Io credo che possa essere comunque utile considerare misure indirette, purché ci si renda conto che l’oggettività della misura, se di misura si tratta, è discutibile.

Le misure indirette sono comunque utili? Dipende! È come il risultato di un’analisi clinica. Messo in mano a un bravo medico può essere utile a confermare una diagnosi o a far suonare in anticipo un campanello d’allarme. Messo in mano a un cattivo medico, o peggio al paziente stesso, può produrre esiti catastrofici.

Un’ultima osservazione riguarda la trasparenza delle misure indirette. Quando si stima una misura indiretta con un modello probabilistico è fondamentale verificare che il modello utilizzato sia in buon accordo con i dati, altrimenti le misure indirette perdono completamente di senso. Questo introduce un grave rischio per la trasparenza delle misure indirette, per esempio nelle valutazioni, perché il controllo della loro qualità e della loro significatività è delegata, nella migliore delle ipotesi a un gruppo di esperti, e nella peggiore alla fiducia cieca in procedure automatiche.

Critiche all’applicazione del modello di Rasch ai risultati dei test INVALSI

Dopo aver mosso alcune critiche generali alle misure indirette e in particolare a quelle dedotte dal modello di Rasch, vorrei concludere le mie riflessioni sollevando due ulteriori critiche specifiche alle applicazioni del modello di Rasch all’analisi dei risultati dei test INVALSI.

Le misure indirette di abilità, stimate nelle rilevazioni INVALSI, introducono un elemento quantitativo che, invece di aiutare a chiarire i termini del dibattito e sulla valutazione dei sistemi educativi, rischia di mascherare i problemi reali spostando la discussione su un piano sbagliato. A una classe politica, che conosce poco i problemi che deve affrontare e che non sa o non riesce ad assumere le proprie responsabilità di riformare il sistema educativo nazionale, risulta estremamente comodo cercare un criterio semplice che guidi automaticamente o giustifichi le proprie scelte. Credo che sia utile e doveroso sottolineare con forza che questi criteri non sono affatto oggettivi e indiscutibili.

In secondo luogo, il modello di Rasch prescrive una interazione piuttosto rigida tra item e individui. Per dare senso alla stima dei parametri di abilità e difficoltà è necessario che gli item siano strettamente conformi alle ipotesi del modello e quindi è necessario seguire un protocollo lungo, faticoso e costoso per la preparazione e per la selezione degli item. Il protocollo utilizzato dall’INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, e questo è necessaria conseguenza del modello di Rasch, l’abilità matematica testata dall’INVALSI è l’abilità di risolvere i test INVALSI. Non voglio entrare nel merito se questo sia giusto o sbagliato, voglio solo osservare che necessariamente questo non è modificabile. In altre parole, se vogliamo modificare in maniera sostanziale il syllabus sulla base del quale l’INVALSI ha preparato finora le proprie prove, il principio di misurazione basato sul modello di Rasch prevede che dobbiamo rifare tutto il lavoro di verifica della coerenza degli item e ricontrollare e probabilmente eliminare buona parte dei risultati delle rilevazioni precedenti. In conseguenza del modello di Rasch, in altre parole, è tassativamente vietato variare la sostanza del syllabus INVALSI, perché questo equivale a modificare la variabile che si sta misurando.

Prendere sul serio il modello di Rasch pone anche dei vincoli al processo di rinnovamento dei preparatori delle domande, chiesto a gran voce da molti. Poiché per poter continuare a misurare la stessa variabile è necessario che ogni item sia statisticamente omogeneo ai precedenti, se prendiamo sul serio il modello di Rasch è tassativamente vietato aggiungere nuove dimensioni alle modalità di valutazione dei contenuti del syllabus INVALSI.

In conseguenza, per avvicinare le misure di abilità e difficoltà all’ideale (secondo me comunque irraggiungibile) di oggettività delle misure della fisica bisogna necessariamente sacrificare le possibilità di sottoporre a un controllo esterno e di modificare le procedure, i syllabi e in definitiva la visione della matematica di chi gestisce le prove INVALSI. È questo il senso del principio di indeterminazione per le misure di Rasch che ho enunciato nel secondo paragrafo.

 

[1] cfr. Intervista di G. Israel a Orizzonte scuola. http://www.orizzontescuola.it/news/giorgio-israel-invalsi-istituto-fuori-controllo-prof-state-guardia-potreste-diventare-semplici-

e l’interessante sito in cui vengono raccolti autorevoli pareri pro e contro i test standardizzati

http://standardizedtests.procon.org/

[2] Non è il caso dei test INVALSI, come vedremo.

[3] Cfr. per esempio le considerazioni nell’articolo già citato di Giorgio Israel.

[4] Mi limiterò a discutere questa tipologia di test perché il modello per l’analisi statistica è sostanzialmente lo stesso anche per test più complicati che ammettono griglie di correzione standardizzate più complicate.

[5] G. Rasch, Probabilistic models for some Intelligence and attainment tests, Chicago, the University of Chicago Press, 1980.

[6] G. Rasch, op. cit.

[7] G. Rasch, op. cit.

[8] Il modello di Rasch viene oggi specificato con riferimento alla funzione

L’equivalenza con la formulazione precedente, utile per confrontare il modello di Rasch con gli altri modelli della Item Response Theory (IRT), si ottiene ponendo

[9] G. Rasch, On specific objectivity: An attempt at formlizing the request for generality and validity of scientific statements. Danish Yearbook of Philosophy, 14, pp. 58-94, 1977. disponibile on line: http://www.rasch.org/memo18.htm

[10] Traduzione dell’originale:

In the beginning of the 60′es I introduced a new – or rather a more definite version of an old – epistemological concept. I preserved the name of objectivity for it, but since the meaning of that word has undergone many changes since its Hellenic origin and is still, in everyday speech as well as in scientific discourse, used with many different contents, I added a restricting predicate: specific.

[11] A. J. Stenner, Specific objectivity – local and general.Rasch Measurement Transactions, 1994, 8:3 p.374 – disponibile on line: http://www.rasch.org/rmt/rmt83e.htm

[12] Traduzione dell’originale:

Georg Rasch used the term “specific objectivity” to describe that case essential to measurement in which “comparisons between individuals become independent of which particular instruments — tests or items or other stimuli — have been used. Symmetrically, it ought to be possible to compare stimuli belonging to the same class — measuring the same thing — independent of which particular individuals, within a class considered, were instrumental for comparison.”

[13] W. J. van der Linden, Fundamental Measurement and the Fundamentals of Rasch Measurement, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 3-25.

[14] G. Fischer, Applying the principles of specific objectivity and of generalizability to the measurement of change, Psychometrika, v. 52 (4), pp. 565-587, 1987.

[15] van der Linden, op. cit., p. 18.

[16] Traduzione dell’originale:

under the condition that the Rasch model holds, if the lengths of two different tests go to infinity, the conditional maximum likelihood estimators of the ability of the same person have the same expected value but are likely to have different variances. In other words, the correct inference is that the presence of sufficient statistics paves the way for the use of consistent estimators of the parameters in the Rasch model. “Specific objectivity” has no meaning beyond this!

[17] Van der Linden, op. cit.

[18] Traduzione dell’originale:

It is the generality of Rasch’s claims and his mixing up of the concepts of specific objectivity and sufficient statistics that could lead to ascribing unrealistic properties to the Rasch model. For example, the belief is widespread that due to the presence of sufficient statistics, conditional maximum likelihood estimation in the Rasch model allows estimation of the same ability parameters from different samples of test items. This statement is statistically too simple to be true.

[19] Per esempio: Wood ha mostrato come si possano rendere conformi al modello di Rasch anche dati casuali in Wood R., Fitting ther Rasch model: a heady tale. British Journal of Mathematical and StatisticalPsychology, 31, pp. 27-32, 1978; Goldstein e Blinkhorn hanno criticato le procedure utilizzate per l’analisi di adeguatezza del modello di Rasch in Goldstein H., Blinkhorn S. The Rasch model still does not fit, British educational research journal, Vol. 8, n. 2, pp. 167-1701982

[20] Cfr. per esempio, W. Fisher, The Rasch debate, in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 36-73, Goldstein, H. Dimensionality, bias, independence and measurement scale problems in latent trait test score models. British Journal of Mathematical and Statistical Psychology, 1980 33: 234-246.

[21] W. Fisher, The Rasch debate.

[22] E. Rogora, Valutare e scegliere, il ruolo della matematica, Lettera matematica PRISTEM, 87 (4), pp. 4-7. Disponible on line, http://matematica.unibocconi.it/sites/default/files/LM87_Rogora.pdf.

[23] In realtà la situazione in cui ci troviamo è ancora più intricata in quanto non è affatto chiaro che la proprietà che ci interessa sia definibile, unodimensionale e misurabile. Cfr. la discussione nell’intervista citata di Giorgio Israel.