Vedere una perdita come un guadagno

Conoscere il contesto di scelta fa cambiare i circuiti cerebrali che elaborano l’esito delle nostre decisioni.

Lo rivela uno studio dei ricercatori del CIMeC apparso sulla rivista Nature Communications

È possibile vedere una perdita come fosse un guadagno ? E se sì, come?

Tramite punizione o ricompensa? Il modo di reagire all’esito delle nostre azioni e delle nostre scelte, sociali o economiche, influenza certamente le nostre decisioni future. È dunque naturale indagare questi meccanismi, con l’obiettivo di capire anche quale sia la strategia di apprendimento più rapida ed efficace. Di questo si è occupato uno studio del neuroeconomista Giorgio Coricelli del Centro Mente/Cervello dell’Università degli Studi di Trento e collaboratori, pubblicato da Nature Communications. I ricercatori hanno cercato di affrontare i due principali problemi irrisolti dell’apprendimento per punizione che è tanto efficace quanto quello per ricompensa.

Gli aspetti da chiarire

Negli ultimi anni si sono fatti molti progressi nella comprensione delle basi neuronali e computazionali dell’apprendimento per rinforzo basato sulle ricompense (reinforcement learning). Di contro, non sono ancora stati chiariti i meccanismi computazionali e neuronali dell’apprendimento per punizione, in cui bisogna apprendere il modo migliore per evitare la perdita maggiore.
Il primo problema è computazionale. L’apprendimento basato sulla punizione presenta infatti un apparente paradosso: «Quando si evita una punizione con successo – spiega il professor Giorgio Coricelli – la risposta strumentale (l’azione che permette di evitare la punizione) non è più rinforzata. Come conseguenza, i modelli teorici d’apprendimento di base predicono una performance migliore per l’apprendimento per ricompensa (dove l’azione che conduce a una ricompensa viene scelta con maggiore probabilità in futuro, cioè rinforzo positivo) rispetto all’apprendimento per evitare la punizione, contrariamente al fatto che i soggetti umani mostrano la stessa performance di apprendimento nei due contesti» .
Il secondo problema è neuroanatomico: «Un dibattito aperto nelle neuroscienze cognitive riguarda il fatto che le stesse aree cerebrali (il corpo striato e la corteccia ventrale prefrontale) rappresentino sia valori positivi che negativi o, alternativamente, che l’apprendimento e la codifica dell’apprendimento per punizione avvenga in un sistema neuronale opposto (“opponent system”, composto dall’insula e la corteccia dorso mediana prefrontale) a quello della ricompensa».

Tutto dipende dal contesto

I ricercatori di Trento hanno ipotizzato che una soluzione dei due problemi possa venire considerando la contestualizzazione del valore. In altre parole dalla capacità del cervello di contestualizzare le opzioni di scelta, cioè di valutarle in modo relativo alle altre opzioni presenti nel contesto decisionale. Quindi, per esempio, una perdita minore in un contesto di perdite potrebbe essere considerata come un risultato positivo, alla stregua di una ricompensa. Inoltre, «risultati divergenti di studi di risonanza magnetica funzionale relativi alle differenze tra apprendimento per ricompensa contro apprendimento per punizione potrebbero essere riconciliati dal fatto che in assenza di informazione contestuale, la punizione e le ricompense potrebbero essere computate da due sistemi separati; mentre, in seguito all’acquisizione dell’informazione contestuale (cioè l’identificazione chiara del contesto di scelta) la rappresentazione del valore assegnato a ogni opzione di scelta convergerebbe su un unico sistema composto dalla corteccia frontale e dal corpo striato» prosegue Coricelli.

Quale opzione

Nel corso dell’esperimento, partecipanti sani sono stati sottoposti alla risonanza magnetica funzionale durante un compito comportamentale di apprendimento, riguardante una serie di scelte tra due opzioni (due simboli che indicavano due slot machines, un compito chiamato in inglese: two-armed bandit), in cui una delle due opzioni è migliore rispetto all’altra, e seguito da un compito di verifica dell’apprendimento dei valori di ogni opzione di scelta.

Nel contesto delle ricompense, con l’opzione migliore si poteva vincere 0.5€ il 75% delle volte o altrimenti ottenere 0€ e con l’altra opzione si vinceva 0.5€ solo il 25% delle volte; mentre nel contesto delle punizioni, con l’opzione migliore si perdeva -0.5€ il 25% delle volte e 75% si otteneva 0€ e con l’opzione più sfavorevole si perdeva -0.5€ il 75% e 0€ per il 25% delle volte in cui si sceglieva tale opzione.
Il compito presentava due caratteristiche fondamentali: in primo luogo il compito confrontava l’apprendimento per ricompensa (in cui i risultati possibili erano 0.5€ o 0€) con quello per punizione (in cui i risultati possibili erano -0.5€ o 0€); in secondo luogo, in contesti di scelta specifici, venivano presentati i risultati dell’opzione scelta e di quella rifiutata. Questo per indurre una valutazione relativa del risultato ottenuto con quello che si sarebbe potuto ottenere con la scelta alternativa (outcome controfattuale). Questa procedura sperimentale (cioè il confronto tra informazione parziale e informazione completa) è stata introdotta per indurre l’apprendimento del valore medio del contesto di scelta (cioè il valore del contesto, “context value”).

Risultati

«Abbiamo trovato evidenza comportamentale e neuronale coerente con l’idea che presentare sia il risultato dell’opzione scelta sia quello dell’opzione non scelta (outcome controfattuale) favorisca l’apprendimento di un “reference point” specifico del contesto – hanno spiegato Giorgio Coricelli e il primo autore dello studio Stefano Palminteri dell‘Institute of Cognitive Neuroscience (ICN) dell’University College London (UCL). – A conferma delle predizioni del nostro modello computazionale dei valori relativi, i risultati comportamentali illustrano come i partecipanti abbiano imparato ugualmente bene nei contesti di ricompense o punizioni.»

Inoltre, il circuito che elabora l’esito della nostra scelta cambia e diventa quello della ricompensa perché, anche se di fatto non vinciamo, non perdiamo tanto quanto avremmo potuto. Inoltre, i dati di risonanza hanno permesso di riconciliare dati sperimentali di studi precedenti che erano considerati contraddittori.

«Infatti – proseguono gli autori dello studio – l’aumento osservato della discriminazione tra i due contesti (di ricompense e di punizioni) nella condizione di informazione completa si è visto essere associato ad uno spostamento dell’elaborazione neuronale dell’outcome negativo (punizione) dall’insula verso lo striato ventrale, a dimostrazione della codifica della punizione e delle ricompense nella stessa struttura neuronale.»

Quindi il cervello è in grado di contestualizzare le opzioni di scelta e di utilizzare efficientemente un’unica procedura di apprendimento sia nel contesto delle ricompense che in quello delle punizioni.

Referenze dello studio originale: Palminteri, S., Khamassi, M., Joffily, M., Coricelli, G. (2015). Contextual modulation of value signals in reward and punishment learning. Nature Communications (in press) 10.1038/ncomms9096

CIMeC