Un nuovo studio svela perché ChatGPT continua a fabbricare informazioni.

Un giorno, stavo scambiando idee con ChatGPT All'improvviso, si lanciò in una lunga storia di fantasia che non aveva nulla a che fare con i miei suggerimenti. Era così ridicolo che mi fece ridere. Ultimamente, non ho visto errori di questo tipo con i suggerimenti di testo, ma li vedo ancora abbastanza regolarmente con la generazione di immagini.

Perché i chatbot continuano a fare supposizioni quando non dovrebbero?

La ricerca suggerisce che queste allucinazioni sono causate da un problema strutturale; la radice del problema risiede negli standard e nelle classifiche che valutano i modelli di intelligenza artificiale e premiano le risposte affidabili.

In altre parole, quando un chatbot risponde "Non lo so", viene penalizzato nel test. Ciò significa che i modelli sono attivamente incoraggiati a fornire sempre una risposta, anche se non sono sicuri che sia corretta.

In pratica, questo rende il tuo assistente intelligente più propenso a indovinare piuttosto che a riconoscere l'incertezza. Questo può essere innocuo per le domande semplici e quotidiane. Ma in situazioni più delicate, dalle domande mediche alla consulenza finanziaria, quegli errori di sicurezza possono rapidamente trasformarsi in rischi reali.

Da utente esperto, ecco perché verifico sempre i fatti e chiedo al chatbot di indicarmi la fonte. A volte, se l'informazione sembra inverosimile e chiedo una fonte, il chatbot risponderà qualcosa come "Ottima osservazione!" o qualcosa di simile, senza ammettere di aver sbagliato.

Anche i modelli più recenti non sono immuni.

È interessante notare che il documento di OpenAI ha scoperto che i modelli incentrati sull'inferenza come o3 e o4-mini in realtà presentano allucinazioni più spesso di alcuni modelli più vecchi. Perché? Perché generalmente producono più affermazioni, il che significa maggiori possibilità di errore.

Quindi, il fatto che un modello sia “più intelligente” nell’inferenza non significa necessariamente che sia più veritiero su ciò che non sa.

Qual è la soluzione a questo problema?

I ricercatori ritengono che la soluzione risieda nel cambiare il modo in cui valutiamo e misuriamo l'intelligenza artificiale. Invece di penalizzare i modelli per aver detto "Non sono sicuro", test più efficaci dovrebbero premiare risposte calibrate, indicazioni di incertezza o la capacità di fare riferimento ad altre fonti.

Ciò potrebbe significare che il tuo futuro chatbot potrebbe essere più cauto nelle risposte, affidandosi meno all'approccio "Questa è la risposta" e più a quello "Questo è quello che penso, ma non ne sono sicuro". Potrebbe sembrare più lento, ma potrebbe ridurre significativamente gli errori dannosi. Questo dimostra che il pensiero critico da parte nostra è ancora importante.

Quanto è importante per te?

Se utilizzate chatbot popolari come ChatGPT, Gemini, Claude o Grok, probabilmente avete già sperimentato delle "allucinazioni". Questa ricerca suggerisce che non si tratta solo del modello in sé, ma piuttosto del modo in cui viene testato, come in un gioco d'azzardo per vedere chi ha ragione il più delle volte.

Per gli utenti, questo significa che dobbiamo essere cauti e considerare le risposte dell'IA come un primo suggerimento, non come la parola finale. Per gli sviluppatori, questo è un segnale che è giunto il momento di ripensare il modo in cui misuriamo il successo, in modo che i futuri assistenti AI possano riconoscere ciò che non sanno invece di commettere errori critici.

ChatGPT